1 Einleitung Organisatorisches 1.1 Organisatorisches I Ökonometrie Vorlesung an der Universität des Saarlandes Vorlesung: Mittwoch, 08:30-10:00 Uhr, Gebäude B4 1, HS 0.04 Übung: Dienstag, 10-12, Gebäude B4 1, HS 0.06, Beginn: 25.04. Prüfung: 2-stündige Klausur nach Semesterende (1. Prüfungszeitraum) Anmeldung im ViPa nur vom 12.05. (8 Uhr) – 29.05. (15 Uhr)! (Abmeldung im ViPa bis 13.07., 12 Uhr) Hilfsmittel für Klausur PD Dr. Stefan Klößner Sommersemester 2017 I I I Moderat“ programmierbarer Taschenrechner, auch mit Grafikfähigkeit ” 2 beliebig gestaltete DIN A 4–Blätter (bzw. 4, falls nur einseitig) Benötigte Tabellen werden gestellt, aber keine weitere Formelsammlung! Durchgefallen — was dann? I Ökonometrie (SS 2017) Folie 1 1 Einleitung Organisatorisches 1.1 Organisatorisches II Organisatorisches 1.1 I bzw. genauer I I http://www.oekonometrie.uni-saarland.de/Oeko.html I Kontakt: PD Dr. Stefan Klößner Geb. C3 1, 2. OG, Zi. 2.19 e-Mail: [email protected] I Sprechstunde nach Vereinbarung (Terminabstimmung per e-Mail) Vorlesungsunterlagen Übungsblätter (i.d.R. wöchentlich) Download i.d.R. nach der Vorlesung im Laufe des Mittwochs möglich Besprechung der Übungsblätter in der Übung der folgenden Woche. Übungsaufgaben sollten unbedingt vorher selbst bearbeitet werden! Kontakt: M.Sc. Sandra Baar Geb. C3 1, 2. OG, Zi. 2.20 e-Mail: [email protected] Die folgenden Folien (S. 5–128) ermöglichen bei Bedarf die Wiederholung der wichtigsten Grundlagen aus den Veranstaltungen Deskriptive Statistik und ” Wahrscheinlichkeitsrechung“ und Schließende Statistik“. ” Diese Vorlesungsfolien (Ergänzung im Laufe des Semesters) Download spätestens dienstags, 19:00 Uhr, vor der Vorlesung möglich Ökonometrie (SS 2017) 1 Einleitung Folie 2 Übungsunterlagen http://www.oekonometrie.uni-saarland.de/ I Ökonometrie (SS 2017) Organisatorisches III Informationen und Materialien unter I Nachprüfung“ Ende März/Anfang April 2018 (2. Prüfungszeitraum) ” Folie 3 Ökonometrie (SS 2017) Folie 4 2 Wiederholung statistischer Grundlagen Deskriptive Statistik 2.1 Inhaltsverzeichnis 2 Wiederholung statistischer Grundlagen Deskriptive Statistik 2.1 Lage- und Streuungsmaße eindimensionaler Daten (Ausschnitt) Betrachte zunächst ein kardinalskaliertes Merkmal X mit Urliste (Daten) x1 , . . . , xn der Länge n. 2 Daten sollen auf wenige Kennzahlen“ verdichtet werden. ” Übliches Lagemaß: klassische“ Mittelung der Merkmalswerte, also ” arithmetisches Mittel“ x mit: ” n 1 1X x := (x1 + x2 + · · · + xn ) = xi n n Wiederholung statistischer Grundlagen Deskriptive Statistik Wahrscheinlichkeitsrechnung Schließende Statistik i=1 Übliche Streuungsmaße: Mittlere quadrierte Differenz zwischen Merkmalswerten und arithmetischem Mittel (empirische Varianz) sX2 sowie deren (positive) Wurzel (empirische Standardabweichung) sX mit: ! n n X p 1X 2 ! 1 2 2 sX = + sX2 sX := (xi − x) = xi − x 2 =: x 2 − x 2 , n n i=1 i=1 Standardabweichung sX hat dieselbe Dimension wie die Merkmalswerte, daher i.d.R. besser zu interpretieren als Varianz sX2 . Ökonometrie (SS 2017) Folie 5 2 Wiederholung statistischer Grundlagen Deskriptive Statistik 2.1 Abhängigkeitsmaße zweidimensionaler Daten I (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) zu einem zweidimensionalen Merkmal (X , Y ) vorliegt. Unverzichtbare Eigenschaft der Urliste ist, dass die Paare von Merkmalswerten jeweils demselben Merkmalsträger zuzuordnen sind! Deskriptive Statistik 2.1 Als standardisiertes, skalenunabhängiges Abhängigkeitsmaß definiert man darauf aufbauend den empirischen (Bravais-)Pearsonschen Korrelationskoeffizienten rX ,Y mit: sX ,Y rX ,Y := sX · sY Es gilt stets −1 ≤ rX ,Y ≤ 1. rX ,Y misst lineare Zusammenhänge, spezieller gilt I Mit den zugehörigen Lage- und Streuungsmaßen x, y , sX und sY der eindimensionalen Merkmale definiert man als Abhängigkeitsmaße zunächst die empirische Kovarianz sX ,Y mit: ! n n X 1X ! 1 sX ,Y := (xi − x)(yi − y ) = xi · yi − x · y =: xy − x · y n n Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 6 Abhängigkeitsmaße zweidimensionaler Daten II Nehme nun an, dass den Merkmalsträgern zu zwei kardinalskalierten Merkmalen X und Y Merkmalswerte zugeordnet werden, also eine Urliste der Länge n (also n Datenpaare) i=1 Ökonometrie (SS 2017) I I rX ,Y > 0 bei positiver Steigung“ ( X und Y sind positiv korreliert“), ” ” rX ,Y < 0 bei negativer Steigung“ ( X und Y sind negativ korreliert“), ” ” |rX ,Y | = 1, falls alle (xi , yi ) auf einer Geraden (mit Steigung 6= 0) liegen. rX ,Y ist nur definiert, wenn X und Y jeweils mindestens zwei verschiedene Merkmalsausprägungen besitzen. i=1 Folie 7 Ökonometrie (SS 2017) Folie 8 2 Wiederholung statistischer Grundlagen Deskriptive Statistik 2.1 Beispiel: Empirischer Pearsonscher Korrelationskoeffizient rX, Y = 0 20 ● ● ● ● ● 80 ● ● ● ● ● ● 6 ● ● ● 40 ● ● Y ● ● ● ● ● 4 ● ● ● ● Y ● 10 ● 60 ● ● ● ● ● ● ● 0 5 10 15 20 5 ● 10 15 20 5 10 15 rX, Y = 0.1103 rX, Y = −0.837 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4.0 ● ● ● ● ● ● ● ● 8 ● ● ● 4 ● ● Y 10 ● ● ● ● Y 5.0 15 ● ● ● ● ● ● ● 2 ● 3.0 ● ● 5 10 X 15 20 ● 5 10 15 X 20 ● ● ● 5 10 15 ● 20 X Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 9 Wahrscheinlichkeitsrechnung 2.2 Eindimensionale Zufallsvariablen I Auf eine Wiederholung der grundlegenden Konzepte von Zufallsexperimenten bzw. Wahrscheinlichkeitsräumen muss aus Zeitgründen allerdings verzichtet werden. Wir fassen eine Zufallsvariable auf als eine Variable“, ” I I Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 10 Wahrscheinlichkeitsrechnung 2.2 Eindimensionale Zufallsvariablen II (Eindimensionale) Zufallsvariablen X entstehen formal als (Borel-messbare) Abbildungen X : Ω → R von Ergebnismengen Ω eines Wahrscheinlichkeitsraums (Ω, F, P) in die reellen Zahlen. I Wiederholung statistischer Grundlagen Deskriptive Statistik Wahrscheinlichkeitsrechnung Schließende Statistik ● ● ● 20 ● ● ● 10 6.0 20 ● ● ● ● 12 rX, Y = 0.9652 ● Y ● X ● 2 ● ● X ● 5 ● ● ● X ● 0 ● ● ● ● ● ● ● 2 ● ● 6 5 ● 20 ● ● ● Inhaltsverzeichnis ● ● 8 15 ● ● ● ● Y ● ● ● ● Wahrscheinlichkeitsrechnung 2.2 (Ausschnitt) rX, Y = −1 10 100 rX, Y = 1 2 Wiederholung statistischer Grundlagen die (i.d.R. mehrere verschiedene) numerische Werte annehmen kann, deren Werte ( Realisationen“) nicht vorherbestimt sind, sondern von einem ” zufälligen, meist wiederholbarem Vorgang abhängen, über deren Werteverteilung“ man allerdings Kenntnisse hat ” ( Wahrscheinlichkeitsrechnung) oder Kenntnisse erlangen möchte ( Schließende Statistik). Unterteilung von Zufallsvariablen X (abhängig von Werteverteilung) in mehrere Typen Diskrete Zufallsvariablen X : I I Können nur endlich viele oder abzählbar unendlich viele verschiedene Werte annehmen. Werteverteilung kann durch eine Wahrscheinlichkeitsfunktion pX spezifiziert werden, die jeder reellen Zahl die Wahrscheinlichkeit des Auftretens zuordnet. Stetige Zufallsvariablen X : I I I Können überabzählbar viele Werte (in einem Kontinuum reeller Zahlen) annehmen. Werteverteilung kann durch eine Dichtefunktion fX spezifiziert werden, mit deren Hilfe man zum Beispiel Wahrscheinlichkeiten dafür ausrechnen kann, dass der Wert der Zufallsvariablen in einem bestimmten Intervall liegt. Einzelne reelle Zahlen (alle!) werden mit Wahrscheinlichkeit 0 angenommen! Außerdem existieren (hier nicht betrachtete) Misch-/Sonderformen. Ökonometrie (SS 2017) Folie 11 Ökonometrie (SS 2017) Folie 12 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Eindimensionale Zufallsvariablen III bei diskreten Zufallsvariablen X für endliche oder abzählbar unendliche Mengen A mit Hilfe der Wahrscheinlichkeitsfunktion pX durch X P{X ∈ A} = pX (xi ) xi ∈A I bei stetigen Zufallsvariablen X für Intervalle A = [a, b], A = (a, b), A = (a, b] oder(!) A = [a, b) (mit a < b) mit Hilfe einer(!) zugehörigen Dichtefunktion fX durch Z b P{X ∈ A} = fX (x)dx Lage- und Streuungsmaßen von Merkmalen (aus deskriptiver Statistik) entsprechen Momente von Zufallsvariablen. Momente von Zufallsvariablen sind also Kennzahlen, die die Werteverteilung auf einzelne Zahlenwerte verdichten. (Diese Kennzahlen müssen nicht existieren, Existenzfragen hier aber vollkommen ausgeklammert!) Kennzahl für die Lage der (Werte-)Verteilung einer Zufallsvariablen X : Erwartungswert bzw. auch Mittelwert µX := E(X ) I a berechnet werden. Werteverteilungen von Zufallsvariablen sind bereits eindeutig durch alle Wahrscheinlichkeiten der Form P{X ≤ x} := P{X ∈ (−∞, x]} für x ∈ R festgelegt. Die zugehörige Funktion FX : R → R; FX (x) = P{X ≤ x} heißt Verteilungsfunktion von X . Ökonometrie (SS 2017) Wahrscheinlichkeitsrechnung 2.2 Folie 14 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Für eine Zufallsvariable X und reelle Zahlen a, b gilt: I I E(aX + b) = a E(X ) + b Var(aX + b) = a2 Var(X ) Allgemeiner gilt ( Linearität des Erwartungswerts“) für eine ” (eindimensionale) Zufallsvariable X , reelle Zahlen a, b und (messbare) Abbildungen G : R → R und H : R → R: E(aG (X ) + bH(X )) = a E(G (X )) + b E(H(X )) Berechnung von E(X 2 ) für diskrete Zufallsvariable X durch: X 2 E(X 2 ) = xi · pX (xi ) Ist X eine Zufallsvariable mit p Erwartungswert µX = E(X ) und Standardabweichung σX = Var(X ), so erhält man mit xi ∈T (X ) Berechnung von E(X 2 ) bei stetiger Zufallsvariablen X durch: Z ∞ E(X 2 ) = x 2 · fX (x)dx X − E(X ) X − µX Z := p = σX Var(X ) −∞ Ökonometrie (SS 2017) Ökonometrie (SS 2017) Momente eindimensionaler Zufallsvariablen III Kennzahl für die Streuung der (Werte-)Verteilung einer Zufallsvariablen p X: Varianz σX2 := Var(X ) von X und deren (positive) Wurzel σX = + Var(X ), die sog. Standardabweichung von X , mit h i ! 2 Var(X ) = E (X − E(X )) = E(X 2 ) − [E(X )]2 I (wobei T (X ) := {x ∈ R | pX (xi ) > 0} den Träger von X bezeichnet). Berechnung bei stetiger Zufallsvariablen X durch: Z ∞ E(X ) = x · fX (x)dx −∞ Momente eindimensionaler Zufallsvariablen II I Berechnung bei diskreter Zufallsvariablen X durch: X xi · pX (xi ) E(X ) = xi ∈T (X ) I Folie 13 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Momente eindimensionaler Zufallsvariablen I Wahrscheinlichkeiten P{X ∈ A} = PX (A) dafür, dass eine Zufallsvariable X Werte in einer bestimmten Menge A annimmt, können konkreter I 2 Wiederholung statistischer Grundlagen eine neue Zufallsvariable mit E(Z ) = 0 und Var(Z ) = 1. Man nennt Z dann eine standardisierte Zufallsvariable. Folie 15 Ökonometrie (SS 2017) Folie 16 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Momente eindimensionaler Zufallsvariablen IV 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Spezielle parametrische Verteilungsfamilien Weiteres Lagemaß für Zufallsvariablen: p-Quantile Für p ∈ (0, 1) ist xp ein p-Quantil der Zufallsvariablen X , wenn gilt: P{X ≤ xp } ≥ p und P{X ≥ xp } ≥ 1 − p Quantile sind nicht immer eindeutig bestimmt, für stetige Zufallsvariablen mit streng monoton wachsender Verteilungsfunktion lassen sich Quantile aber eindeutig durch Lösung der Gleichung FX (xp ) = p bzw. unter Verwendung der Umkehrfunktion FX−1 der Verteilungsfunktion FX (auch Quantilsfunktion genannt) direkt durch Parametrische Verteilungsfamilien fassen ähnliche Verteilungen zusammen. Genaue Verteilung innerhalb dieser Familien wird durch einen oder wenige (reelle) Parameter (bzw. einen ein- oder mehrdimensionalen Parametervektor) eineindeutig festgelegt, also I I legt der Parameter(vektor) die Verteilung vollständig fest und gehören zu verschiedenen Parameter(vektore)n auch jeweils unterschiedliche Verteilungen ( Identifizierbarkeit“). ” Die Menge der zulässigen Parameter(vektoren) heißt Parameterraum. Im Folgenden: Exemplarische Wiederholung je zweier diskreter und stetiger Verteilungsfamilien. xp = FX−1 (p) bestimmen. I I Beispiel: Werfen eines fairen Würfels, Ereignis A: 6 gewürfelt“ mit P(A) = 61 . ” Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A) ” ab; p ist also einziger Parameter der Verteilungsfamilie. Um triviale Fälle auszuschließen, betrachtet man nur Ereignisse mit p ∈ (0, 1) Der Träger der Verteilung ist dann T (X ) = {0, 1}, die Punktwahrscheinlichkeiten sind pX (0) = 1 − p und pX (1) = p. Symbolschreibweise für Bernoulli-Verteilung mit Parameter p: B(1, p) Ist X also Bernoulli-verteilt mit Parameter p, so schreibt man X ∼ B(1, p). Folie 19 Verteilungsfunktion: 0 1−p FX (x) = 1 Momente: E (X ) γ(X ) Ökonometrie (SS 2017) für x < 0 für 0 ≤ x < 1 für x ≥ 1 0.8 0.6 p = 0.4 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 1.5 2.0 x FX ● p = 0.4 ● −1.0 −0.5 0.0 0.5 1.0 x = p = pX 0.4 Träger: T (X ) = {0, 1} Wahrscheinlichkeitsfunktion: 1 − p für x = 0 p für x = 1 pX (x) = 0 sonst Parameter: p ∈ (0, 1) pX(x) Modellierung eines Zufallsexperiments (Ω, F, P), in dem nur das Eintreten bzw. Nichteintreten eines einzigen Ereignisses A von Interesse ist. Eintreten des Ereignisses A wird oft als Erfolg“ interpretiert, Nichteintreten ” (bzw. Eintreten von A) als Misserfolg“. ” Zufallsvariable soll im Erfolgsfall Wert 1 annehmen, im Misserfolgsfall Wert 0, es sei also 1 falls ω ∈ A X (ω) := 0 falls ω ∈ A Ökonometrie (SS 2017) Wahrscheinlichkeitsrechnung 2.2 0.2 Verwendung: I 2 Wiederholung statistischer Grundlagen Bernoulli-/Alternativverteilung B(1, p) Bernoulli-/Alternativverteilung I Folie 18 0.0 Wahrscheinlichkeitsrechnung 2.2 Ökonometrie (SS 2017) FX(x) 2 Wiederholung statistischer Grundlagen Folie 17 0.0 0.2 0.4 0.6 0.8 1.0 Ökonometrie (SS 2017) √1−2p p(1−p) Var(X ) κ(X ) = p · (1 − p) = 1−3p(1−p) p(1−p) Folie 20 I I I Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A) ” sowie der Anzahl der Durchführungen n des Experiments ab. Um triviale Fälle auszuschließen, betrachtet man nur die Fälle n ∈ N und p ∈ (0, 1). Träger der Verteilung ist dann T (X ) = {0, 1, . . . , n}. Symbolschreibweise für Binomialverteilung mit Parameter n und p: B(n, p) Übereinstimmung mit Bernoulli-Verteilung (mit Parameter p) für n = 1. Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 21 Wahrscheinlichkeitsrechnung 2.2 Träger: T (X ) = {0, 1, . . . , n} Wahrscheinlichkeitsfunktion: pX (x) n x p (1 − p)n−x für x ∈ T (X ) = x 0 sonst pX(x) Modellierung der unabhängigen, wiederholten Durchführung eines Zufallsexperiments, in dem nur die Häufigkeit des Eintretens bzw. Nichteintretens eines Ereignisses A interessiert ( Bernoulli-Experiment“). ” Eintreten des Ereignisses A wird auch hier oft als Erfolg“ interpretiert, ” Nichteintreten (bzw. Eintreten von A) als Misserfolg“. ” Zufallsvariable X soll die Anzahl der Erfolge bei einer vorgegebenen Anzahl von n Wiederholungen des Experiments zählen. Nimmt Xi für i ∈ {1, . . . , n} im Erfolgsfall (für Durchführung i) den Wert 1 P an, im Misserfolgsfall den Wert 0, dann gilt also X = ni=1 Xi . Beispiel: 5-faches Werfen eines fairen Würfels, Anzahl der Zahlen kleiner 3. n = 5, p = 1/3. Parameter: n ∈ N, p ∈ (0, 1) 0 1 2 3 4 5 ● ● 4 5 6 x FX Verteilungsfunktion: FX (x) = X pX (xi ) xi ∈T (X ) xi ≤x n = 5, p = 0.4 ● ● ● ● −1 0 1 2 3 6 x Momente: E (X ) γ(X ) = n·p = Var(X ) √ 1−2p np(1−p) κ(X ) = n · p · (1 − p) 1+(3n−6)p(1−p) np(1−p) = Ökonometrie (SS 2017) Folie 22 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Stetige Gleichverteilung Unif(a, b) Stetige Gleichverteilung pX n = 5, p = 0.4 −1 FX(x) Verallgemeinerung der Bernoulli-Verteilung Verwendung: I Wahrscheinlichkeitsrechnung 2.2 Binomialverteilung B(n, p) Binomialverteilung I 2 Wiederholung statistischer Grundlagen 0.0 0.1 0.2 0.3 0.4 0.5 Wahrscheinlichkeitsrechnung 2.2 0.0 0.2 0.4 0.6 0.8 1.0 2 Wiederholung statistischer Grundlagen Parameter: a, b ∈ R mit a < b fX Modellierung einer stetigen Verteilung, in der alle Realisationen in einem Intervall [a, b] als gleichwahrscheinlich“ angenommen werden. ” Verteilung hängt von den beiden Parametern a, b ∈ R mit a < b ab. 0.4 fX(x) 0.2 0 1 2 3 4 3 4 x Träger der Verteilung: T (X ) = [a, b] Symbolschreibweise für stetige Gleichverteilung auf [a, b]: X ∼ Unif(a, b) Momente: E (X ) = γ(X ) = Folie 23 Ökonometrie (SS 2017) a+b 2 0 Var(X ) κ(X ) FX(x) Verteilungsfunktion: FX : R → R; für x < a 0 x−a für a ≤ x ≤ b FX (x) = b−a 1 für x > b 0.0 0.2 0.4 0.6 0.8 1.0 FX Dichtefunktion fX einer gleichverteilten Zufallsvariablen X kann auf Intervall 1 [a, b] konstant zu b−a gewählt werden. Ökonometrie (SS 2017) 0.0 Einfachste stetige Verteilungsfamilie: Stetige Gleichverteilung auf Intervall [a, b] a = 1, b = 3 0.6 Träger: T (X ) = [a, b] Dichtefunktion: fX : R → R; ( 1 für a ≤ x ≤ b b−a fX (x) = 0 sonst a = 1, b = 3 0 1 2 x = = (b−a)2 12 9 5 Folie 24 Wahrscheinlichkeitsrechnung 2.2 Normalverteilung N(µ, σ 2 ) Ökonometrie (SS 2017) Folie 25 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Arbeiten mit Normalverteilungen (x−µ)2 1 1 fX (x) = √ e − 2σ2 = ϕ σ 2πσ x −µ σ fX µ = 5, σ2 = 4 0 5 10 x FX Verteilungsfunktion: FX : R → R; FX (x) = Φ x −µ σ µ = 5, σ2 = 4 0 5 10 x Momente: E (X ) = µ γ(X ) = 0 Var(X ) κ(X ) = σ2 = 3 Ökonometrie (SS 2017) Folie 26 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Ausschnitt aus Tabelle für Φ(x) 2 Problem (nicht nur) bei normalverteilten Zufallsvariablen X ∼ N(µ, σ ): Verteilungsfunktion FX und Quantilsfunktion FX−1 schlecht handhabbar bzw. nicht leicht auszuwerten! Traditionelle Lösung: Tabellierung der entsprechenden Funktionswerte Lösung nicht mehr zeitgemäß: (kostenlose) PC-Software für alle benötigten Verteilungsfunktionen verfügbar, zum Beispiel Statistik-Software R (http://www.r-project.org) Aber: In Klausur keine PCs verfügbar, daher dort Rückgriff auf (dort zur Verfügung gestellte) Tabellen. Wegen der Symmetrie der Standardnormalverteilung um 0 gilt nicht nur ϕ(x) = ϕ(−x) für alle x ∈ R, sondern auch Φ(x) = 1 − Φ(−x) Träger: T (X ) = R Dichtefunktion: fX : R → R; fX(x) Verteilung entsteht als Grenzverteilung bei Durchschnittsbildung vieler (unabhängiger) Zufallsvariablen (später mehr!) Einsatz für Näherungen Familie der Normalverteilungen hat Lageparameter µ ∈ R, der mit Erwartungswert übereinstimmt, und Streuungsparameter σ 2 >√0, der mit Varianz übereinstimmt, Standardabweichung ist dann σ := + σ 2 . Verteilungsfunktion von Normalverteilungen schwierig zu handhaben, Berechnung muss i.d.R. mit Software/Tabellen erfolgen. Wichtige Eigenschaft der Normalverteilungsfamilie: Ist X normalverteilt mit Parameter µ = 0 und σ 2 = 1, dann ist aX + b für a, b ∈ R normalverteilt mit Parameter µ = b und σ 2 = a2 . Zurückführung allgemeiner Normalverteilungen auf den Fall der Standardnormalverteilung (Gauß-Verteilung) mit Parameter µ = 0 und σ 2 = 1, Tabellen/Algorithmen für Standardnormalverteilung damit einsetzbar. Dichtefunktion der Standardnormalverteilung: ϕ, Verteilungsfunktion: Φ. Träger aller Normalverteilungen ist T (X ) = R. Symbolschreibweise für Normalverteilung mit Parameter µ, σ 2 : X ∼ N(µ, σ 2 ) Parameter: µ ∈ R, σ 2 > 0 0.00 0.05 0.10 0.15 0.20 Normalverteilung für alle x ∈ R . Daher werden Tabellen für Φ(x) in der Regel nur für x ∈ R+ erstellt. Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen FX(x) Wahrscheinlichkeitsrechnung 2.2 0.0 0.2 0.4 0.6 0.8 1.0 2 Wiederholung statistischer Grundlagen Folie 27 0.0 0.1 0.2 0.3 0.4 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.5 0.6 0.7 0.8 0.9 0.6915 0.7257 0.7580 0.7881 0.8159 0.6950 0.7291 0.7611 0.7910 0.8186 0.6985 0.7324 0.7642 0.7939 0.8212 0.7019 0.7357 0.7673 0.7967 0.8238 0.7054 0.7389 0.7704 0.7995 0.8264 0.7088 0.7422 0.7734 0.8023 0.8289 0.7123 0.7454 0.7764 0.8051 0.8315 0.7157 0.7486 0.7794 0.8078 0.8340 0.7190 0.7517 0.7823 0.8106 0.8365 0.7224 0.7549 0.7852 0.8133 0.8389 1.0 1.1 1.2 1.3 1.4 0.8413 0.8643 0.8849 0.9032 0.9192 0.8438 0.8665 0.8869 0.9049 0.9207 0.8461 0.8686 0.8888 0.9066 0.9222 0.8485 0.8708 0.8907 0.9082 0.9236 0.8508 0.8729 0.8925 0.9099 0.9251 0.8531 0.8749 0.8944 0.9115 0.9265 0.8554 0.8770 0.8962 0.9131 0.9279 0.8577 0.8790 0.8980 0.9147 0.9292 0.8599 0.8810 0.8997 0.9162 0.9306 0.8621 0.8830 0.9015 0.9177 0.9319 1.5 1.6 1.7 1.8 1.9 0.9332 0.9452 0.9554 0.9641 0.9713 0.9345 0.9463 0.9564 0.9649 0.9719 0.9357 0.9474 0.9573 0.9656 0.9726 0.9370 0.9484 0.9582 0.9664 0.9732 0.9382 0.9495 0.9591 0.9671 0.9738 0.9394 0.9505 0.9599 0.9678 0.9744 0.9406 0.9515 0.9608 0.9686 0.9750 0.9418 0.9525 0.9616 0.9693 0.9756 0.9429 0.9535 0.9625 0.9699 0.9761 0.9441 0.9545 0.9633 0.9706 0.9767 2.0 2.1 2.2 2.3 2.4 0.9772 0.9821 0.9861 0.9893 0.9918 0.9778 0.9826 0.9864 0.9896 0.9920 0.9783 0.9830 0.9868 0.9898 0.9922 0.9788 0.9834 0.9871 0.9901 0.9925 0.9793 0.9838 0.9875 0.9904 0.9927 0.9798 0.9842 0.9878 0.9906 0.9929 0.9803 0.9846 0.9881 0.9909 0.9931 0.9808 0.9850 0.9884 0.9911 0.9932 0.9812 0.9854 0.9887 0.9913 0.9934 0.9817 0.9857 0.9890 0.9916 0.9936 Ökonometrie (SS 2017) Folie 28 Beispiel: Arbeiten mit Normalverteilungstabelle Wahrscheinlichkeitsrechnung 2.2 Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable nur mit 2.5% Wahrscheinlichkeit? (Welche linke Grenze x führt bei der schraffierten Fläche zu einem Flächeninhalt von 0.025?) fN(100, 82)(x) µ = 100, σ2 = 82 2.5% 0.00 0.02 0.04 µ = 100, σ2 = 82 70 0.00 fN(100, 82)(x) Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte Zufallsvariable Werte kleiner als 90 an? (Wie groß ist die schraffierte Fläche?) 2 Wiederholung statistischer Grundlagen 0.04 Wahrscheinlichkeitsrechnung 2.2 0.02 2 Wiederholung statistischer Grundlagen 70 80 90 100 110 120 P{X < 90} 90 − 100 = FN(100,82 ) (90) = Φ 8 = Φ(−1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056 Die gesuchte Wahrscheinlichkeit ist 0.1056 = 10.56%. Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen 90 100 110 <− | −> ? 120 130 Antwort: Ist X ∼ N(100, 82 ), so ist das 97.5%- bzw. 0.975-Quantil von X gesucht. Mit x − 100 FX (x) = FN(100,82 ) (x) = Φ 8 und der Abkürzung Np für das p-Quantil der N(0, 1)-Verteilung erhält man x − 100 ! x − 100 Φ = 0.975 ⇔ = Φ−1 (0.975) = N0.975 = 1.96 8 8 ⇒ x = 8 · 1.96 + 100 = 115.68 130 x Antwort: Ist X ∼ N(100, 82 ), so gilt: 80 Folie 29 Wahrscheinlichkeitsrechnung 2.2 Beispiel: Arbeiten mit Statistik-Software R Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 30 Wahrscheinlichkeitsrechnung 2.2 Mehrdimensionale Zufallsvariablen/Zufallsvektoren I Beantwortung der Fragen (noch) einfacher mit Statistik-Software R: Simultane Betrachtung mehrerer (endlich vieler) Zufallsvariablen zur Untersuchung von Abhängigkeiten möglich (und für die Ökonometrie später erforderlich!) Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte Zufallsvariable Werte kleiner als 90 an? Antwort: > pnorm(90,mean=100,sd=8) [1] 0.1056498 Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable nur mit 2.5% Wahrscheinlichkeit? Antwort: > qnorm(0.975,mean=100,sd=8) Ist n ∈ N die Anzahl der betrachteten Zufallsvariablen, so fasst man die n Zufallsvariablen X1 , . . . , Xn auch in einem n-dimensionalen Vektor X = (X1 , . . . , Xn )0 zusammen und befasst sich dann mit der gemeinsamen Verteilung von X . Die meisten bekannten Konzepte eindimensionaler Zufallsvariablen sind leicht übertragbar, nur technisch etwas anspruchsvoller. Zwei Spezialfälle: Diskrete Zufallsvektoren und stetige Zufallsvektoren [1] 115.6797 Ökonometrie (SS 2017) Folie 31 Ökonometrie (SS 2017) Folie 32 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Mehrdimensionale Zufallsvariablen/Zufallsvektoren II xi ∈A∩T (X) Die gemeinsame Verteilung eines stetigen Zufallsvektors kann durch Angabe einer gemeinsamen Dichtefunktion fX : Rn → R spezifiziert werden, mit deren Hilfe sich Wahrscheinlichkeiten von Quadern im Rn (über Mehrfachintegrale) ausrechnen lassen: Z b1 ··· a1 Z bn an für A = (a1 , b1 ] × · · · × (an , bn ] ⊂ Rn mit a1 ≤ b1 , . . . , an ≤ bn 2 Wiederholung statistischer Grundlagen Folie 33 Wahrscheinlichkeitsrechnung 2.2 Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße I Diskrete bzw. stetige Zufallsvektoren heißen (stochastisch) unabhängig, wenn man ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion als Produkt der jeweiligen Randwahrscheinlichkeits- bzw. Randdichtefunktionen n Y i=1 bzw. fX (x) = pXi (xi ) = pX1 (x1 ) · . . . · pXn (xn ) n Y i=1 fXi (xi ) = fX1 (x1 ) · . . . · fXn (xn ) für alle x = (x1 , . . . , xn ) ∈ Rn gewinnen kann. (Im stetigen Fall: siehe Folien WR für exakte“ bzw. korrekte“ Formulierung!) ” ” Ökonometrie (SS 2017) Die Verteilungen der einzelnen Zufallsvariablen X1 , . . . , Xn eines n-dimensionalen Zufallsvektors nennt man auch Randverteilungen. Bei diskreten Zufallsvektoren sind auch die einzelnen Zufallsvariablen X1 , . . . , Xn diskret, die zugehörigen Wahrscheinlichkeitsfunktionen pX1 , . . . , pXn nennt man dann auch Randwahrscheinlichkeitsfunktionen. Bei stetigen Zufallsvektoren sind auch die einzelnen Zufallsvariablen X1 , . . . , Xn stetig, zugehörige Dichtefunktionen fX1 , . . . , fXn nennt man dann auch Randdichte(funktione)n. Randwahrscheinlichkeits- bzw. Randdichtefunktionen können durch (Mehrfach)summen bzw. (Mehrfach)integrale aus der gemeinsamen Wahrscheinlichkeits- bzw. Dichtefunktion gewonnen werden (siehe Folien Wahrscheinlichkeitsrechnung). fX (t1 , . . . , tn )dtn · · · dt1 Ökonometrie (SS 2017) pX (x) = Wahrscheinlichkeitsrechnung 2.2 Mehrdimensionale Zufallsvariablen/Zufallsvektoren III Die gemeinsame Verteilung eines diskreten Zufallsvektors kann durch eine (mehrdimensionale) gemeinsame Wahrscheinlichkeitsfunktion pX : Rn → R mit pX (x) := P{X = x} für x ∈ Rn festgelegt werden. Wahrscheinlichkeiten P{X ∈ A} dafür, dass X Werte in der Menge A annimmt, können dann wiederum durch Aufsummieren der Punktwahrscheinlichkeiten aller Trägerpunkte xi mit xi ∈ A berechnet werden: X P{X ∈ A} = pX (xi ) PX (A) = 2 Wiederholung statistischer Grundlagen Folie 35 Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 34 Wahrscheinlichkeitsrechnung 2.2 Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße II Bei fehlender Unabhängigkeit: Betrachtung bedingter Verteilungen und (paarweise) linearer Abhängigkeiten interessant! Bedingte Verteilungen: Was weiß man über die Verteilung einer Zufallsvariablen (konkreter), wenn man die Realisation (einer oder mehrerer) anderer Zufallsvariablen bereits kennt? Lineare Abhängigkeiten: Treten besonders große Realisation einer Zufallsvariablen häufig im Zusammenhang mit besondere großen (oder besonders kleinen) Realisationen einer anderen Zufallsvariablen auf (mit einem entsprechenden Zusammenhang für besonders kleine Realisationen der ersten Zufallsvariablen); lässt sich dieser Zusammenhang gut durch eine Gerade beschreiben? Ökonometrie (SS 2017) Folie 36 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße III Zur einfacheren Darstellung: Bezeichnung X bzw. Y statt Xi und Xj für zwei Zufallsvariablen (aus einem Zufallsvektor). Maß für lineare Abhängigkeit zweier Zufallsvariablen X und Y : Kovarianz ! σXY := Cov(X , Y ) := E [(X − E(X )) · (Y − E(Y ))] = E(X · Y ) − E(X ) · E(Y ) (Zur Berechnung von E(X · Y ) siehe Folien WR!) Rechenregeln für Kovarianzen (X , Y , Z Zufallsvariablen aus Zufallsvektor, a, b ∈ R): 1 2 3 4 5 6 Cov(aX , bY ) = ab Cov(X , Y ) Cov(X + a, Y + b) = Cov(X , Y ) (Translationsinvarianz) Cov(X , Y ) = Cov(Y , X ) (Symmetrie) Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y ) Cov(X , X ) = Var(X ) X , Y stochastisch unabhängig ⇒ Cov(X , Y ) = 0 Wahrscheinlichkeitsrechnung 2.2 Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße V Rechenregeln: Sind X und Y Zufallsvariablen aus einem Zufallsvektor mit σX > 0, σY > 0 und a, b ∈ R, so gilt: 1 2 3 4 5 6 7 Korr(aX , bY ) = Korr(X , Y ) Nachteil“ der Kovarianz: ” Erreichbare Werte hängen nicht nur von Stärke der linearen Abhängigkeit, sondern (wie z.B. aus Rechenregel 1 von Folie 37 ersichtlich) auch von der Streuung von X bzw. Y ab. Wie in deskriptiver Statistik: Alternatives Abhängigkeitsmaß mit normiertem Wertebereich“, welches invariant gegenüber Skalierung von X bzw. Y ist. ” Hierzu Standardisierung der Kovarianz über Division durch Standardabweichungen von X und Y (falls σX > 0 und σY > 0!). Cov(X , Y ) σXY = p σX · σY + Var(X ) · Var(Y ) Ökonometrie (SS 2017) Folie 38 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung I Wichtige mehrdimensionale stetige Verteilung: mehrdimensionale (multivariate) Normalverteilung falls a · b > 0 Spezifikation am Beispiel der zweidimensionalen (bivariaten) Normalverteilung durch Angabe einer Dichtefunktion − Korr(X , Y ) falls a · b < 0 Korr(X + a, Y + b) = Korr(X , Y ) (Translationsinvarianz) Korr(X , Y ) = Korr(Y , X ) (Symmetrie) −1 ≤ Korr(X , Y ) ≤ 1 Korr(X , X ) = 1 Korr(X , Y ) = 1 a>0 genau dann, wenn Y = aX + b mit Korr(X , Y ) = −1 a<0 X , Y stochastisch unabhängig ⇒ Korr(X , Y ) = 0 fX ,Y (x, y ) = 1√ e 2πσX σY 1−ρ2 − 1 2(1−ρ2 ) x−µX σX 2 −2ρ x−µX σX y −µY σY 2 y −µ + σ Y Y abhängig von den Parametern µX , µY ∈ R, σX , σY > 0, ρ ∈ (−1, 1). Man kann zeigen, dass die Randverteilungen von (X , Y ) dann wieder (eindimensionale) Normalverteilungen sind, genauer gilt X ∼ N(µX , σX2 ) und Y ∼ N(µY , σY2 ) Zufallsvariablen X , Y mit Cov(X , Y ) = 0 (!) heißen unkorreliert. Ökonometrie (SS 2017) Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße IV ρXY := Korr(X , Y ) := Folie 37 ( Wahrscheinlichkeitsrechnung 2.2 Man erhält so den Pearsonschen Korrelationskoeffizienten: Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen 2 Wiederholung statistischer Grundlagen Außerdem kann der Zusammenhang Korr(X , Y ) = ρ gezeigt werden. Folie 39 Ökonometrie (SS 2017) Folie 40 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung II 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung III Dichtefunktion der mehrdimensionalen Normalverteilung Sind fX bzw. fY die wie auf Folie 26 definierten Dichtefunktionen zur N(µX , σX2 )- bzw. N(µY , σY2 )-Verteilung, so gilt (genau) im Fall ρ = 0 0.06 für alle x, y ∈ R , fX ,Y (x, y ) = fX (x) · fY (y ) 0.04 f(x,y) also sind X und Y (genau) für ρ = 0 stochastisch unabhängig. Auch für ρ 6= 0 sind die bedingten Verteilungen von X |Y = y und Y |X = x wieder Normalverteilungen, es gilt genauer: ρσX X |Y = y ∼ N µX + (y − µY ), σX2 (1 − ρ2 ) σY 0.02 0.00 6 4 6 y bzw. Y |X = x ∼ 4 2 ρσY 2 2 (x − µX ), σY (1 − ρ ) N µY + σX 2 0 0 x −2 −4 µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5 Ökonometrie (SS 2017) Folie 41 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung IV Ökonometrie (SS 2017) Folie 42 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung V Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte Dichtefunktion der mehrdimensionalen Normalverteilung 0.15 6 0.005 0.01 f(x,y) 0.02 0.10 0.03 4 0.04 0.05 0.05 y 0.06 2 0.055 3 0.045 2 0.035 1 0.025 0.015 3 0 0 y 2 1 −1 0 −1 −2 x −2 −4 −2 0 2 4 −3 −3 6 x µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5 Ökonometrie (SS 2017) µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0 Folie 43 Ökonometrie (SS 2017) Folie 44 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung VI 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung VII Dichtefunktion der mehrdimensionalen Normalverteilung 3 Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte 2 0.02 0.10 0.06 1 0.08 0.1 f(x,y) 0.05 y 0 0.14 0.00 16 14 −1 0.12 12 0.04 16 14 y −2 10 12 8 8 −3 6 10 x 6 4 −3 −2 −1 0 µX = 0, µY = 0, 1 2 3 x = 1, σ2Y = 1, ρ = 0 σ2X 4 µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95 Ökonometrie (SS 2017) Folie 45 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Beispiel: Zweidimensionale Normalverteilung VIII Ökonometrie (SS 2017) Folie 46 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Momente von Summen von Zufallsvariablen I 16 Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte Sind X und Y zwei Zufallsvariablen aus einem Zufallsvektor und a, b, c ∈ R, so gilt: E(a · X + b · Y + c) = a · E(X ) + b · E(Y ) + c 14 0.01 0.02 0.03 12 0.05 0.07 0.09 und y 10 0.11 0.12 Var(aX + bY + c) = a2 Var(X ) + 2ab Cov(X , Y ) + b2 Var(Y ) 0.1 8 0.08 0.06 Dies kann für mehr als zwei Zufallsvariablen X1 , . . . , Xn eines Zufallsvektors weiter verallgemeinert werden! 4 6 0.04 4 6 8 µX = 10, µY = 10, Ökonometrie (SS 2017) 10 σ2X 12 14 16 x = 4, σ2Y = 4, ρ = −0.95 Folie 47 Ökonometrie (SS 2017) Folie 48 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Momente von Summen von Zufallsvariablen II Momente von Summen von Zufallsvariablen III Für einen n-dimensionalen Zufallsvektor X = (X1 , . . . , Xn )0 heißt der n-dimensionale Vektor E(X) := [E(X1 ), . . . , E(Xn )]0 In Verallgemeinerung von Folie 48 erhält man für eine gewichtete Summe Erwartungswertvektor von X und die n × n-Matrix 0 V(X) := E (X − E(X)) · (X − E(X)) E[(X1 − E(X1 )) · (X1 − E(X1 ))] · · · E[(X1 − E(X1 )) · (Xn − E(Xn ))] .. .. .. := . . . E[(Xn − E(Xn )) · (X1 − E(X1 ))] · · · E[(Xn − E(Xn )) · (Xn − E(Xn ))] Var(X1 ) Cov(X1 , X2 ) · · · Cov(X1 , Xn−1 ) Cov(X1 , Xn ) Cov(X2 , X1 ) Var(X2 ) · · · Cov(X2 , Xn−1 ) Cov(X2 , Xn ) . . . .. . .. .. .. .. = . Cov(Xn−1 , X1 ) Cov(Xn−1 , X2 ) · · · Var(Xn−1 ) Cov(Xn−1 , Xn ) Cov(Xn , X1 ) Cov(Xn , X2 ) · · · Cov(Xn , Xn−1 ) Var(Xn ) n X i=1 n X den Erwartungswert E i=1 die Varianz Var (w = (w1 , . . . , wn )0 ∈ Rn ) wi · Xi = w1 · X1 + · · · + wn · Xn n X i=1 wi · Xi ! = wi · Xi n X n X i=1 j=1 = n X i=1 0 ! = n X i=1 wi · E(Xi ) = w0 E(X) wi · wj · Cov(Xi , Xj ) wi2 · Var(Xi ) + 2 = w V(X)w n−1 X n X i=1 j=i+1 wi · wj · Cov(Xi , Xj ) (Varianz-)Kovarianzmatrix von X. Ökonometrie (SS 2017) Folie 49 2 Wiederholung statistischer Grundlagen Wahrscheinlichkeitsrechnung 2.2 Summen unabhängig identisch verteilter Zufallsvariablen I Sind für n ∈ N die Zufallsvariablen X1 , . . . , Xn eines n-dimensionalen Zufallsvektors stochastisch unabhängig (damit unkorreliert!) und identisch verteilt ( u.i.v.“ oder Pi.i.d.“) mit E(Xi ) ≡ µX und Var(Xi ) ≡ σX2 , dann gilt ” ”n für die Summe Yn := i=1 Xi also E(Yn ) = n · µX Var(Yn ) = n · σX2 sowie Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen 1 n Pn Wahrscheinlichkeitsrechnung 2.2 Summen unabhängig identisch verteilter Zufallsvariablen II Anwendung des zentralen Grenzwertsatzes z.B. dadurch, dass man näherungsweise (auch falls Xi nicht normalverteilt ist) für hinreichend großes n ∈ N I die N(nµX , nσX2 )-Verteilung für Yn := n X Xi oder i=1 und man erhält durch Yn − nµX √ Zn := = σX n Folie 50 Xi − µX √ n σX I i=1 Yn − nµX √ = die Standardnormalverteilung für Zn := σX n verwendet. 1 n Pn Xi − µX √ n σX i=1 Leicht zu merken: standardisierte Zufallsvariablen (mit E(Zn ) = 0 und Var(Zn ) = 1). Man verwendet näherungsweise die Normalverteilung mit passendem“ Erwartungswert und passender“ Varianz! ” ” Zentraler Grenzwertsatz: Verteilung von Zn konvergiert für n → ∞ gegen eine N(0, 1)-Verteilung (Standardnormalverteilung). iid Gilt sogar Xi ∼ N(µX , σX2 ), so gilt (exakt!) Zn ∼ N(0, 1) für alle n ∈ N. Ökonometrie (SS 2017) Folie 51 Ökonometrie (SS 2017) Folie 52 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Inhaltsverzeichnis 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Grundidee der schließenden Statistik (Ausschnitt) Ziel der schließenden Statistik/induktiven Statistik: Ziehen von Rückschlüssen auf die Verteilung einer (größeren) Grundgesamtheit auf Grundlage der Beobachtung einer (kleineren) Stichprobe. 2 Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert. Fundament“: Drei Grundannahmen ” Wiederholung statistischer Grundlagen Deskriptive Statistik Wahrscheinlichkeitsrechnung Schließende Statistik 1 2 3 Der interessierende Umweltausschnitt kann durch eine (ein- oder mehrdimensionale) Zufallsvariable Y beschrieben werden. Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der die unbekannte wahre Verteilung von Y gehört. Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von der Verteilung von Y abhängt. Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y Aussagen über die Verteilung von Y zu treffen. Ökonometrie (SS 2017) Folie 53 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Veranschaulichung“ der schließenden Statistik ” Grundgesamtheit Ziehungsverfahren induziert Zufallsvariable Y Verteilung von führt Rückschluss auf Verteilung/Kenngrößen Ökonometrie (SS 2017) Schließende Statistik 2.3 Die 1. Grundannahme umfasst insbesondere die Situation, in der die Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich) ausgewählten Merkmalsträgers beschreibt. In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y , z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel aller Merkmalswerte übereinstimmt. Zufallsvariablen X1, …, Xn (konkrete) 2 Wiederholung statistischer Grundlagen Folie 54 Bemerkungen zu den 3 Grundannahmen Stichprobe Auswahl der Ökonometrie (SS 2017) Ziehung/ Stichprobe zu Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine parametrische Verteilungsfamilie, zum Beispiel die Menge aller Normalverteilungen mit Varianz σ 2 = 22 . Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der Zufallsvariablen X1 , . . . , Xn . Realisationen x1, …, xn Folie 55 Ökonometrie (SS 2017) Folie 56 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Einfache (Zufalls-)Stichprobe I Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer Urliste zu einem Merkmal aus der deskriptiven Statistik. Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y . Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig. Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine einfache (Zufalls-)Stichprobe vom Umfang n zu Y . Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe vom Umfang n erhält man z.B., wenn I I Schließende Statistik 2.3 Stichprobenfunktionen Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y : ” I 2 Wiederholung statistischer Grundlagen Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat. Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich) ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben Merkmalsträgers nicht ausgeschlossen wird. Die Information aus einer Stichprobe wird in der Regel zunächst mit sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft (große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur Aggregierung von Urlisten eingesetzt werden. Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen Zufallsvariablen führt! Bekannteste“ Stichprobenfunktion: ” n 1X X := Xi bzw. n n 1X xi n x := i=1 Ökonometrie (SS 2017) Folie 57 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Illustration: Realisationen x von X i=1 Ökonometrie (SS 2017) Folie 58 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Visualisierung Verteilung X / Zentraler Grenzwertsatz im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n ” 0.14 pX(xi) 0.04 0.06 0.08 0.10 5 6 0.00 0.02 4 1 2 3 4 5 6 1 2 3 xi xi n=4 n=5 n=6 4 5 6 4 5 6 pX(xi) 0.02 0.04 1.75 2.75 3.75 4.75 5.75 0.00 0.02 Ökonometrie (SS 2017) 0.04 0.06 pX(xi) 0.06 0.08 0.08 0.10 xi xi Folie 59 0.10 pX(xi) 0.05 0.00 3 0.10 1 Ökonometrie (SS 2017) n=3 0.12 0.15 0.20 0.15 pX(xi) 0.10 0.00 2 0.12 1 0.00 .. . 3.4 4.2 3.4 4.4 3 3.2 3.4 3.8 4.4 .. . 0.08 2 1 5 5 2 3 5 3 4 .. . 0.06 6 4 3 3 1 6 2 5 4 .. . pX(xi) 4 4 5 6 4 3 3 1 5 .. . 0.04 3 6 2 5 2 1 4 5 4 .. . 0.02 2 6 2 3 6 3 3 5 5 .. . n=2 0.00 1 2 3 4 5 6 7 8 9 .. . n=1 0.05 Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5 vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel) generiert werden: Stichprobe Nr. x1 x2 x3 x4 x5 x 1 1.8 2.6 3.4 xi 4.2 5 5.8 1 2 3 xi Folie 60 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Bemerkungen Schließende Statistik 2.3 (Punkt-)Schätzfunktionen Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5. Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n zu Y schwanken offensichtlich um den Erwartungswert von Y . Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!) E(X ) = E(Y ) gilt. Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die Realisationen von x am Erwartungswert. Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!) σY σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn n n vervierfacht wird. Offensichtlich wird die Näherung der Werteverteilung von X durch eine Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der Stichprobenumfang n ist. Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen 2 Wiederholung statistischer Grundlagen Folie 61 Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen I Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist). Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist! X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann (Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige Realisation oder den Schätzwert. Wegen der Zusammenhänge zwischen Erwartungswert und Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt. Ökonometrie (SS 2017) Folie 62 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen II Man kann leicht zeigen: h i b = E (θb − θ)2 = Var(θb − θ) +[ E(θb − θ) ]2 MSE(θ) | {z } | {z } Im Beispiel offensichtlich: Wer schätzt, macht Fehler! Zur Untersuchung der Qualität von Punktschätzfunktionen: b =Var(θ) Untersuchung der Verteilung (!) des Schätzfehlers Zur Vereinheitlichung der Schreibweise: Bezeichnung“ ” b I I b = E(θb − θ) = E(θ) b − θ wird also die systematische Abweichung Mit Bias(θ) (Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden Größe bezeichnet. b = 0 für alle Gibt es keine solche systematische Abweichung (gilt also Bias(θ) denkbaren Werte von θ), so nennt man θb erwartungstreu für θ. q b wird auch Standardfehler oder Stichprobenfehler von θb genannt. Var(θ) θ für die Schätzfunktion θ für die zu schätzende Größe Schätzfehler damit also: θb − θ Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische ” Abweichung (Englisch: Mean Square Error, MSE) 2 b b MSE(θ) := E θ − θ Bei Schätzung von E(Y ) mit X gilt: E(X )=E(Y ) σ2 MSE(X ) = E (X − E(Y ))2 = Var(X ) = σX2 = Y n soll möglichst klein sein. Ökonometrie (SS 2017) b =:Bias(θ) Folie 63 Ökonometrie (SS 2017) Folie 64 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen III σY2 n ist X offensichtlich MSE-konsistent für E(Y ). Mit der Zerlegung (vgl. Folie 64) b = Var(θ) b + [Bias(θ)] b 2 MSE(θ) 2 die Varianz von θb gegen Null geht als auch der Bias von θb gegen Null geht (diese Eigenschaft heißt auch asymptotische Erwartungstreue). Ökonometrie (SS 2017) Folie 65 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Schätzung von Var(Y ) bzw. i=1 n 1X (xi − x)2 n i=1 Bei dieser Rechnung wird allerdings klar, dass man mit der leichten Anpassung S 2 := 1 n−1 bzw. s 2 := i=1 1 n−1 n X Ökonometrie (SS 2017) Folie 66 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 i=1 Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler q σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet. Weitergehender Ansatz: Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung berücksichtigen! Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig identisch verteilter Zufallsvariablen. X ist N µY , (xi − x)2 2 σY n -verteilt, falls Xi (bzw. Y ) normalverteilt (Wahrscheinlichkeitsrechnung!). X kann näherungsweise als N µY , 2 σY n -verteilt angesehen, falls Xi (bzw. Y ) nicht normalverteilt (Zentraler Grenzwertsatz!). eine erwartungstreue Schätzfunktion für σY2 erhält. Ökonometrie (SS 2017) Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient in dieser Menge von Schätzfunktionen. (Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine Information über die Qualität der Schätzung (bzw. über den zu erwartenden Schätzfehler). Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu für die Varianz von Y ist! n X (Xi − X )2 2 e wenn Var(θ) b ≤ Var(θ) e für alle denkbaren θb mindestens so wirksam wie θ, Werte von θ gilt, und e wenn darüberhinaus Var(θ) b < Var(θ) e für mindestens einen θb wirksamer als θ, denkbaren Wert von θ gilt. Intervallschätzung von µY := E(Y ) Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der empirischen Varianz n 1X (Xi − X )2 n Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion vorzuziehen, die den kleineren“ MSE hat. ” Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“ ” Varianz vor. Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen Schätzfunktionen θb und θe heißt 1 ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils für alle denkbaren Werte von θ sowohl 1 Schließende Statistik 2.3 (Qualitäts-)Eigenschaften von Schätzfunktionen IV Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n ” sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen. Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im quadratischen Mittel oder MSE-konsistent für θ. Wegen MSE(X ) = 2 Wiederholung statistischer Grundlagen Folie 67 Ökonometrie (SS 2017) Folie 68 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Näherung für falls Y ∼ Unif(20, 50) 0.4 N(0,1) n=4 f(x) 0.0 0.1 0.2 0.3 0.4 0.3 f(x) 0.0 −4 −2 0 2 4 −4 −2 x N(0,1) n=12 f(x) 0.0 −2 0 2 4 −4 −2 x −2 2 4 Ökonometrie (SS 2017) 2 4 0.1 2 4 −4 N(0,1) n=30 −2 0 2 4 2 4 N(0,1) n=250 0.3 f(x) 0.0 −4 x −2 0 x Folie 71 0 0.1 f(x) 0.0 −4 −2 x 0.1 0.2 f(x) x 0 0.3 0.4 N(0,1) n=250 0.1 0 −2 x 0.0 −2 0.0 −4 0.3 0.4 0.3 0.2 0.0 0.1 f(x) 0 x N(0,1) n=30 −4 f(x) 0.3 f(x) 0.0 −4 N(0,1) n=10 0.4 4 falls Y ∼ B(1, 0.5) 0.2 2 x 0.4 0 N(0,1) n=3 0.2 −2 X −µ √ n, σ 0.1 0.2 f(x) 0.3 0.4 N(0,1) n=10 0.0 −4 Schließende Statistik 2.3 Beispiel: Näherung für 0.1 0.2 0.0 0.1 f(x) 0.3 0.4 N(0,1) n=3 falls Y ∼ Exp(2) 2 Wiederholung statistischer Grundlagen 0.4 X −µ √ n, σ Folie 70 0.2 Beispiel: Näherung für 4 Ökonometrie (SS 2017) 0.4 Schließende Statistik 2.3 2 x 0.3 2 Wiederholung statistischer Grundlagen 0 0.2 Folie 69 4 0.1 f(x) 0.2 0.0 −4 Ökonometrie (SS 2017) 2 0.3 0.4 N(0,1) n=7 0.1 verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung möglich. 0 x 0.3 X − µ√ • n ∼ N(0, 1) σ bzw. 0.1 Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B. ” n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch. 2 2 • Verteilungseigenschaft X ∼ N µ, σn bzw. X ∼ N µ, σn wird meistens (äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten) Gestalt X − µ√ n ∼ N(0, 1) σ N(0,1) n=2 0.2 Die Qualität der Näherung durch eine Normalverteilung wird mit zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend von der Verteilung von Y ab! X −µ √ n, σ 0.4 Schließende Statistik 2.3 0.2 2 Wiederholung statistischer Grundlagen Ökonometrie (SS 2017) 2 4 −4 −2 0 2 4 x Folie 72 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Näherung für X −µ √ n, σ f(x) 0.2 0.3 0.4 N(0,1) n=10 −2 0 2 4 −4 −2 x 0 2 4 x I I −4 α 2 an (vgl. Übungsaufgabe). −2 0 2 4 −4 x −2 0 2 4 x Ökonometrie (SS 2017) Folie 73 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Schwankungsintervalle für X II α 2- bzw. das α2 -Quantil durch µ + σ · N α2 und das 1 − α2 -Quantil durch µ + σ · N1− α2 N α2 = −N1− α2 für Quantile der Standardnormalverteilung erhält man so die Darstellung µ − σ · N1− α2 , µ + σ · N1− α2 eines um den Erwartungswert µ symmetrischen Intervalls, in dem die Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw. mit Wahrscheinlichkeit α nicht enthalten sind. Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung σ2 Unter Verwendung der Symmetrieeigenschaft bzw. hier Folie 74 von Y , so erhält man also unter Verwendung von X ∼ N µY , nY (exakt oder näherungsweise!) für vorgegebenes 0 < α < 1 σY σY P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2 =1−α n n berechnen (vgl. auch Folien 26 und 30). Nα = −N1−α Ökonometrie (SS 2017) Schwankungsintervalle für X III Für N(µ, σ 2 )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des 1 − α2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung I die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2 unterschritten wird, als untere Grenze sowie die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit überschritten wird, als obere Grenze 0.0 0.0 0.1 0.2 f(x) 0.3 0.4 N(0,1) n=250 0.2 0.3 0.4 N(0,1) n=30 0.1 f(x) Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf. näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen. Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen, bietet sich 0.0 −4 I Schließende Statistik 2.3 Schwankungsintervalle für X I 0.1 0.2 0.0 0.1 f(x) 0.3 0.4 N(0,1) n=3 falls Y ∼ B(1, 0.05) 2 Wiederholung statistischer Grundlagen Folie 75 und damit das (symmetrische) (1 − α)-Schwankungsintervall σY σY µY − √ · N1− α2 , µY + √ · N1− α2 n n von X . Ökonometrie (SS 2017) Folie 76 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Schwankungsintervall I 102 25 Im Beispiel: X ∼ N 50, Es gelte Y ∼ N(50, 102 ). Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor. Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X . 0.20 I Schließende Statistik 2.3 Beispiel: Schwankungsintervall (Grafische Darstellung) Aufgabenstellung: I 2 Wiederholung statistischer Grundlagen , α = 0.05 X I 0.10 0.05 benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus geeigneten Tabellen) als N0.975 = 1.96. Insgesamt erhält man also das Schwankungsintervall 10 10 50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] . 25 25 α 2 = 0.025 µY − Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu einer Realisation x von X im Intervall [46.08, 53.92]. Ökonometrie (SS 2017) Folie 77 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Konfidenzintervalle für den Erwartungswert I bei bekannter Varianz σY n N1−α 2 µY µY + σY n N1−α 2 Ökonometrie (SS 2017) Folie 78 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Konfidenzintervalle für den Erwartungswert II σ2 bei bekannter Varianz σ 2 In der Praxis interessanter als Schwankungsintervalle für X : Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ). Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit auch Var(X )) bekannt ist. Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage σ σ α α P X ∈ µ − √ · N1− 2 , µ + √ · N1− 2 =1−α n n umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form σ σ α α =1−α . P µ ∈ X − √ · N1− 2 , X + √ · N1− 2 n n Dies liefert sogenannte Konfidenzintervalle σ σ α α X − √ · N1− 2 , X + √ · N1− 2 n n für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α. Ökonometrie (SS 2017) α 2 = 0.025 1 − α = 0.95 0.00 I Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05. Zur Berechnung des Schwankungsintervalls σY σY µY − √ · N1− α2 , µY + √ · N1− α2 n n fX(x) I I 0.15 Lösung: Folie 79 In der resultierenden Wahrscheinlichkeitsaussage σ σ P µ ∈ X − √ · N1− α2 , X + √ · N1− α2 =1−α . n n sind die Intervallgrenzen σ X − √ · N1− α2 n und σ X + √ · N1− α2 n des Konfidenzintervalls zufällig (nicht etwa µ!). Ziehung einer Stichprobenrealisation liefert also Realisationen der Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht. Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau 1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert überdeckt. Ökonometrie (SS 2017) Folie 80 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: Konfidenzintervall bei bekannter Varianz σ 2 Folie 81 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Verteilung von X bei unbekanntem σ 2 Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert und bekannter Varianz σ 2 = 22 . Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99. Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom Umfang n = 16 zu Y liefere die Stichprobenziehung 18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02, 20.78, 18.76, 15.57, 22.25, 19.91 , was zur Realisation x = 20.184 von X führt. Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau 1 − α = 0.99 erhält man damit insgesamt σ σ α α x − √ · N1− 2 , x + √ · N1− 2 n n 2 2 = 20.184 − √ · 2.576, 20.184 + √ · 2.576 16 16 = [18.896, 21.472] . Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Die Familie der t(n)-Verteilungen Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist? Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion. Erwartungstreue Schätzfunktion für σ 2 bereits bekannt: n S2 = 1 X (Xi − X )2 n−1 i=1 Ersetzen von σ durch S = √ S 2 möglich, Verteilung ändert sich aber: Satz 2.1 2 Seien Y ∼ N(µ, q σ ),PX1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit √ n 1 2 S := S 2 = n−1 i=1 (Xi − X ) X − µ√ n ∼ t(n − 1) , S wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet. Ökonometrie (SS 2017) Folie 82 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Grafische Darstellung einiger t(n)-Verteilungen für n ∈ {2, 5, 10, 25, 100} 0.4 0.3 0.2 0.1 t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen, analog zu Standardnormalverteilungsquantilen N(0,1) t(2) t(5) t(10) t(25) t(100) f(x) Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“ ” ( degrees of freedom“) genannt. ” t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter ” ” dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache veröffentlichte. bzw. tn;1−p = −tn;p 0.0 tn;p = −tn;1−p für alle p ∈ (0, 1) Für wachsendes n nähert sich die t(n)-Verteilung der Standardnormalverteilung an. Ökonometrie (SS 2017) −4 −2 0 2 4 x Folie 83 Ökonometrie (SS 2017) Folie 84 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 2 Wiederholung statistischer Grundlagen Konfidenzintervalle für den Erwartungswert I Konfidenzintervalle für den Erwartungswert II bei unbekannter Varianz σ 2 bei unbekannter Varianz σ 2 Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet werden oder aus geeigneten Tabellen abgelesen werden. Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich √ S2 = q 1 Ersetzen von σ durch S = 2 Ersetzen von N1− α2 durch tn−1;1− α2 1 n−1 Pn i=1 (Xi Schließende Statistik 2.3 Mit R erhält man z.B. t15;0.975 durch > qt(0.975,15) − X )2 erforderlich. [1] 2.13145 Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α: S S X − √ · tn−1;1− α2 , X + √ · tn−1;1− α2 n n Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig kleiner und nähern sich den Quantilen der Standardnormalverteilung an. Ökonometrie (SS 2017) Folie 85 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 86 Schließende Statistik 2.3 Beispiel: Konfidenzintervall bei unbekanntem σ 2 Quantile der t-Verteilungen: tn;p Ökonometrie (SS 2017) Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale Grenzwertsatz dennoch die näherungsweise Verwendung einer √ t(n − 1)-Verteilung für X −µ n und damit auch die Berechnung von S (approximativen) Konfidenzintervallen. n\p 0.85 0.90 0.95 0.975 0.99 0.995 0.9995 1 2 3 4 5 1.963 1.386 1.250 1.190 1.156 3.078 1.886 1.638 1.533 1.476 6.314 2.920 2.353 2.132 2.015 12.706 4.303 3.182 2.776 2.571 31.821 6.965 4.541 3.747 3.365 63.657 9.925 5.841 4.604 4.032 636.619 31.599 12.924 8.610 6.869 6 7 8 9 10 1.134 1.119 1.108 1.100 1.093 1.440 1.415 1.397 1.383 1.372 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.143 2.998 2.896 2.821 2.764 3.707 3.499 3.355 3.250 3.169 5.959 5.408 5.041 4.781 4.587 11 12 13 14 15 1.088 1.083 1.079 1.076 1.074 1.363 1.356 1.350 1.345 1.341 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 2.718 2.681 2.650 2.624 2.602 3.106 3.055 3.012 2.977 2.947 4.437 4.318 4.221 4.140 4.073 20 25 30 40 50 1.064 1.058 1.055 1.050 1.047 1.325 1.316 1.310 1.303 1.299 1.725 1.708 1.697 1.684 1.676 2.086 2.060 2.042 2.021 2.009 2.528 2.485 2.457 2.423 2.403 2.845 2.787 2.750 2.704 2.678 3.850 3.725 3.646 3.551 3.496 100 200 500 1000 5000 1.042 1.039 1.038 1.037 1.037 1.290 1.286 1.283 1.282 1.282 1.660 1.653 1.648 1.646 1.645 1.984 1.972 1.965 1.962 1.960 2.364 2.345 2.334 2.330 2.327 2.626 2.601 2.586 2.581 2.577 3.390 3.340 3.310 3.300 3.292 Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert und unbekannter Varianz. Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95. Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang n = 9 zu Y liefere die Stichprobenziehung 28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 , was zur √ Realisation x = 30.542 von X und zur Realisation s = 2.436 von S = S 2 führt. Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau 1 − α = 0.95 erhält man damit insgesamt s s α α x − √ · tn−1;1− 2 , x + √ · tn−1;1− 2 n n 2.436 2.436 = 30.542 − √ · 2.306, 30.542 + √ · 2.306 9 9 = [28.67, 32.414] . Folie 87 Ökonometrie (SS 2017) Folie 88 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Hypothesentests 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Einführendes Beispiel I Bisher betrachtet: Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts Hierzu: Verwendung der 1 2 Interessierende Zufallsvariable Y : Von einer speziellen Abfüllmaschine abgefüllte Inhaltsmenge von Müslipackungen mit Soll-Inhalt µ0 = 500 (in [g ]). theoretischen Information über Verteilung von X empirischen Information aus Stichprobenrealisation x von X zur Konstruktion einer I I Punktschätzung Intervallschätzung, bei der jede Stichprobenziehung mit einer vorgegebenen Chance ein realisiertes (Konfidenz-)Intervall liefert, welches den (wahren) Mittelwert (Erwartungswert) enthält. Nächste Anwendung (am Beispiel des Erwartungswerts): Hypothesentests: Entscheidung, ob der (unbekannte!) Erwartungswert von Y in einer vorgegebenen Teilmenge der denkbaren Erwartungswerte liegt ( Nullhypothese“ H0 ) oder nicht ( Gegenhypothese/Alternative“ H1 ). ” ” Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 89 Schließende Statistik 2.3 Einführendes Beispiel II Verteilungsannahme: Y ∼ N(µ, 42 ) mit unbekanntem Erwartungswert µ = E (Y ). Es liege eine Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom Umfang n = 16 zu Y vor. Ziel: Verwendung der Stichprobeninformation (über X bzw. x), um zu entscheiden, ob die tatsächliche mittlere Füllmenge (also der wahre, unbekannte Parameter µ) mit dem Soll-Inhalt µ0 = 500 übereinstimmt (H0 : µ = µ0 = 500) oder nicht (H1 : µ 6= µ0 = 500). Ökonometrie (SS 2017) Folie 90 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Verteilungen von X 0.4 für verschiedene Erwartungswerte µ bei σ = 4 und n = 16 Also: Entscheidung für Nullhypothese H0 : µ = 500, wenn x nahe bei 500, und gegen H0 : µ = 500 (also für die Gegenhypothese H1 : µ 6= 500), wenn x weit weg von 500. Aber: Wo ist die Grenze zwischen in der Nähe“ und weit weg“? Wie kann ” ” eine geeignete“ Entscheidungsregel konstruiert werden? ” 0.2 0.1 I 0.0 I X schwankt um den wahren Mittelwert µ; selbst wenn H0 : µ = 500 gilt, wird X praktisch nie genau den Wert x = 500 annehmen! Realisationen x in der Nähe“ von 500 sprechen eher dafür, dass H0 : µ = 500 ” gilt. Realisationen x weit weg“ von 500 sprechen eher dagegen, dass H0 : µ = 500 ” gilt. fX(x|µ) I µ = 500 µ = 494 µ = 499 µ = 503 0.3 Offensichlich gilt: 494 496 498 500 502 504 506 x Ökonometrie (SS 2017) Folie 91 Ökonometrie (SS 2017) Folie 92 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel für nahe“ Grenze ” Fällen einer Entscheidung zwischen H0 : µ = 500 und H1 : µ 6= 500 führt zu genau einer der folgenden vier verschiedenen Situationen: I 0.1 Wünschenswert: Sowohl Fehler 1. Art“ als auch Fehler 2. Art“ möglichst selten begehen. ” ” Aber: Zielkonflikt vorhanden: Je näher Grenze zwischen in der Nähe“ und weit weg“ an µ0 = 500, desto ” ” I 0.2 0.3 Tatsächliche Situation: H1 wahr (µ 6= 500) Fehler 2. Art richtige Entscheidung µ = 500 µ = 494 µ = 499 µ = 503 0.0 Tatsächliche Situation: H0 wahr (µ = 500) richtige Entscheidung Fehler 1. Art Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 1 fX(x|µ) Entscheidung für H0 (µ = 500) Entscheidung für H1 (µ 6= 500) Schließende Statistik 2.3 0.4 Entscheidungsproblem 2 Wiederholung statistischer Grundlagen seltener Fehler 2. Art häufiger Fehler 1. Art 494 496 498 500 502 504 506 x und umgekehrt für fernere Grenzen zwischen in der Nähe“ und weit weg“. ” ” Ökonometrie (SS 2017) Folie 93 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 0.4 Beispiel für ferne“ Grenze ” Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 3 2 Wiederholung statistischer Grundlagen Folie 94 Schließende Statistik 2.3 Konstruktion einer Entscheidungsregel I µ = 500 µ = 494 µ = 499 µ = 503 0.3 Unmöglich, Wahrscheinlichkeiten der Fehler 1. Art und 2. Art gleichzeitig für alle möglichen Situationen (also alle denkbaren µ) zu verringern. Übliche Vorgehensweise: Fehler(wahrscheinlichkeit) 1. Art kontrollieren! 0.2 Also: Vorgabe einer kleinen Schranke α ( Signifikanzniveau“) für die ” Wahrscheinlichkeit, mit der man einen Fehler 1. Art (also eine Entscheidung gegen H0 , obwohl H0 wahr ist) begehen darf. Festlegung der Grenze zwischen in der Nähe“ und weit weg“ so, dass man ” ” den Fehler 1. Art nur mit Wahrscheinlichkeit α begeht, also die Realisation x bei Gültigkeit von µ = µ0 = 500 nur mit einer Wahrscheinlichkeit von α jenseits der Grenzen liegt, bis zu denen man sich für µ = µ0 = 500 entscheidet! 0.0 0.1 fX(x|µ) Ökonometrie (SS 2017) 494 496 498 500 502 504 506 x Ökonometrie (SS 2017) Folie 95 Ökonometrie (SS 2017) Folie 96 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Konstruktion einer Entscheidungsregel II 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel für Grenze zum Signifikanzniveau α = 0.05 0.4 Grenzen aus Schwankungsintervall zur Sicherheitswahrscheinlichkeit 1 − α = 0.95 0.2 0.1 0.0 σ σ P X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 =1−α . n n fX(x|µ) Gilt tatsächlich µ = µ0 , dann natürlich auch E(X ) = µ0 , und man erhält den gesuchten Bereich gerade als Schwankungsintervall (vgl. Folie 76) σ σ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 n n mit µ = 500 µ = 494 µ = 499 µ = 503 0.3 Gesucht ist also ein Bereich, in dem sich X bei Gültigkeit von H0 : µ = µ0 = 500 mit einer Wahrscheinlichkeit von 1 − α realisiert (und damit nur mit Wahrscheinlichkeit α außerhalb liegt!). 494 496 498 500 502 504 506 x Ökonometrie (SS 2017) Folie 97 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Entscheidung im Beispiel I Ökonometrie (SS 2017) Folie 98 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Entscheidung im Beispiel II Bei einem Signifikanzniveau von α = 0.05 entscheidet man sich im Beispiel also für H0 : µ = µ0 = 500 genau dann, wenn die Realisation x von X im Intervall 4 4 500 − √ · N0.975 , 500 + √ · N0.975 = [498.04, 501.96] , 16 16 dem sog. Annahmebereich des Hypothesentests, liegt. Statt Entscheidungsregel auf Grundlage der Realisation x von X (unter 2 Verwendung der Eigenschaft X ∼ N(µ0 , σn ) falls µ = µ0 ) üblicher: Äquivalente Entscheidungsregel auf Basis der sog. Testgröße oder Teststatistik X − µ0 √ N := n. σ Entsprechend fällt die Entscheidung für H1 : µ 6= 500 (bzw. gegen H0 : µ = 500) aus, wenn die Realisation x von X in der Menge Bei Gültigkeit von H0 : µ = µ0 ensteht N als Standardisierung von X und ist daher daher (für µ = µ0 ) standardnormalverteilt: (−∞, 498.04) ∪ (501.96, ∞) , X − µ0 √ n ∼ N(0, 1) σ dem sog. Ablehnungsbereich oder kritischen Bereich des Hypothesentests, liegt. falls µ = µ0 Durch Angabe eines dieser Bereiche ist die Entscheidungsregel offensichtlich schon vollständig spezifiziert! Ökonometrie (SS 2017) Folie 99 Ökonometrie (SS 2017) Folie 100 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Entscheidung im Beispiel III 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Entscheidung im Beispiel IV Man rechnet leicht nach: σ σ X − µ0 √ X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 ⇔ n ∈ −N1− α2 , N1− α2 σ n n √ 0 Als A für die Testgröße N = X −µ n erhält man also σ Annahmebereich −N1− α2 , N1− α2 , als kritischen Bereich K entsprechend K = R\A = −∞, −N1− α2 ∪ N1− α2 , ∞ und damit eine Formulierung der Entscheidungsregel auf Grundlage von N. Man kann ( Veranstaltung Schließende Statistik“) die Verteilung von X ” bzw. N auch in der Situation µ 6= µ0 (also bei Verletzung von H0 ) näher untersuchen. Damit lassen sich dann auch (von µ abhängige!) Fehlerwahrscheinlichkeiten 2. Art berechnen. Im Beispiel erhält man so zu den betrachteten Szenarien (also unterschiedlichen wahren Parametern µ): Wahrscheinlichkeit der Wahrscheinlichkeit der Annahme von µ = 500 Ablehnung von µ = 500 P{N ∈ A} P{N ∈ K } µ = 500 0.95 0.05 µ = 494 0 1 µ = 499 0.8299 0.1701 µ = 503 0.1492 0.8508 (Fettgedruckte Wahrscheinlichkeiten entsprechen korrekter Entscheidung.) Test aus dem Beispiel heißt auch zweiseitiger Gauß-Test für den ” Erwartungswert einer Zufallsvariablen mit bekannter Varianz“. Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 101 Schließende Statistik 2.3 Zweiseitiger Gauß-Test für den Ewartungswert Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 102 Schließende Statistik 2.3 Beispiel: Qualitätskontrolle (Länge von Stahlstiften) bei bekannter Varianz Anwendung als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt, als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 . Testrezept“ des zweiseitigen Tests: ” 1 Hypothesen: H0 : µ = µ0 gegen H1 : µ 6= µ0 für ein vorgegebenes µ0 ∈ R. 2 Teststatistik: N := 3 4 5 X − µ0 √ • n mit N ∼ N(0, 1) (bzw. N ∼ N(0, 1)), falls H0 gilt (µ = µ0 ). σ Kritischer Bereich zum Signifikanzniveau α: K = −∞, −N1− α2 ∪ N1− α2 , ∞ Berechnung der realisierten Teststatistik N Entscheidung: H0 ablehnen ⇔ N ∈ K . Ökonometrie (SS 2017) Folie 103 Untersuchungsgegenstand: Weicht die mittlere Länge der von einer bestimmten Maschine produzierten Stahlstifte von der Solllänge µ0 = 10 (in [cm]) ab, so dass die Produktion gestoppt werden muss? Annahmen: Für Länge Y der produzierten Stahlstifte gilt: Y ∼ N(µ, 0.42 ) Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang n = 64 zu Y liefert Stichprobenmittel x = 9.7. Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art): α = 0.05 Geeigneter Test: (Exakter) Gauß-Test für den Mittelwert bei bekannter Varianz 1 Hypothesen: H0 : µ = µ0 = 10 gegen H1 : µ 6= µ0 = 10 √ 0 2 Teststatistik: N = X −µ n ∼ N(0, 1), falls H0 gilt (µ = µ0 ) σ 3 Kritischer Bereich zum Niveau α = 0.05: K = (−∞, −N0.975 ) ∪ (N0.975 , ∞) = (−∞, −1.96) ∪ (1.96, ∞) √ 4 Realisierter Wert der Teststatistik: N = 9.7−10 64 = −6 0.4 5 Entscheidung: N ∈ K H0 wird abgelehnt und die Produktion gestoppt. Ökonometrie (SS 2017) Folie 104 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Einseitige Gauß-Tests für den Ewartungswert I Einseitige Gauß-Tests für den Ewartungswert II bei bekannter Varianz bei bekannter Varianz Auch für einseitige Tests fasst Teststatistik Neben zweiseitigem Test auch zwei einseitige Varianten: H0 : µ ≤ µ0 H0 : µ ≥ µ0 gegen H1 : µ > µ0 (rechtsseitiger Test) gegen H1 : µ < µ0 (linksseitiger Test) N= Konstruktion der Tests beschränkt Wahrscheinlichkeit, H0 fälschlicherweise abzulehnen, auf das Signifikanzniveau α. Entscheidung zwischen beiden Varianten daher wie folgt: die empirische Information über den Erwartungswert µ geeignet zusammen. Allerdings gilt nun offensichtlich I 2 Wiederholung statistischer Grundlagen Folie 105 Schließende Statistik 2.3 im Falle des rechtsseitigen Tests von H0 : µ ≤ µ0 H0 : Nullhypothese ist in der Regel die Aussage, die von vornherein als glaubwürdig gilt und die man beibehält, wenn das Stichprobenergebnis bei Gültigkeit von H0 nicht sehr untypisch bzw. überraschend ist. H1 : Gegenhypothese ist in der Regel die Aussage, die man statistisch absichern möchte und für deren Akzeptanz man hohe Evidenz fordert. Die Entscheidung für H1 hat typischerweise erhebliche Konsequenzen, so dass man das Risiko einer fälschlichen Ablehnung von H0 zugunsten von H1 kontrollieren will. Ökonometrie (SS 2017) X − µ0 √ n σ I gegen H1 : µ > µ0 , dass große (insbesondere positive) Realisationen von N gegen H0 und für H1 sprechen, sowie im Falle des linksseitigen Tests von H0 : µ ≥ µ0 gegen H1 : µ < µ0 , dass kleine (insbesondere negative) Realisationen von N gegen H0 und für H1 sprechen. Ökonometrie (SS 2017) Folie 106 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel für Verteilungen von N bei bekannter Varianz Rechtsseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05 0.4 Rechtsseitiger Gauß-Test für den Ewartungswert I Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade so gewählt, dass P{N ∈ (kα , ∞)} = α für µ = µ0 gilt. 0.2 0.1 0.0 Offensichtlich wird P{N ∈ (kα , ∞)} mit wachsendem µ größer, es genügt also, die Einhaltung der Bedingung P{N ∈ (kα , ∞)} ≤ α für das größtmögliche µ mit der Eigenschaft µ ≤ µ0 , also µ = µ0 , zu gewährleisten. fN(x|µ) Konkreter sucht man bei rechtsseitigen Tests einen Wert kα mit P{N ∈ (kα , ∞)} ≤ α für alle µ ≤ µ0 . Man rechnet leicht nach, dass kα = N1−α gelten muss, und erhält damit insgesamt den kritischen Bereich K = (N1−α , ∞) für den rechtsseitigen Test. Ökonometrie (SS 2017) Folie 107 µ = 500 µ = 499 µ = 502 µ = 504 0.3 Noch nötig zur Konstruktion der Tests: Geeignetes Verfahren zur Wahl der kritischen Bereiche so, dass Wahrscheinlichkeit für Fehler 1. Art durch vorgegebenes Signifikanzniveau α beschränkt bleibt. −6 −4 −2 0 2 4 6 x Ökonometrie (SS 2017) Folie 108 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Rechtsseitiger Gauß-Test für den Ewartungswert II Linksseitiger Gauß-Test für den Ewartungswert I bei bekannter Varianz bei bekannter Varianz Anwendung als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt, Für linksseitigen Test muss zur Konstruktion des kritischen Bereichs ein kritischer Wert bestimmt werden, den die Teststatistik N im Fall der Gültigkeit von H0 maximal mit einer Wahrscheinlichkeit von α unterschreitet. 2 als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ . Testrezept“ des rechtsseitigen Tests: ” 1 Hypothesen: H0 : µ ≤ µ0 gegen H1 : µ > µ0 für ein vorgegebenes µ0 ∈ R. 2 Offensichtlich wird P{N ∈ (−∞, kα )} mit fallendem µ größer, es genügt also, die Einhaltung der Bedingung P{N ∈ (−∞, kα )} ≤ α für das kleinstmögliche µ mit µ ≥ µ0 , also µ = µ0 , zu gewährleisten. Teststatistik: N := 3 Gesucht ist also ein Wert kα mit P{N ∈ (−∞, kα )} ≤ α für alle µ ≥ µ0 . X − µ0 √ • n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ). σ Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade so gewählt, dass P{N ∈ (−∞, kα )} = α für µ = µ0 gilt. Kritischer Bereich zum Signifikanzniveau α: Man rechnet leicht nach, dass kα = Nα = −N1−α gelten muss, und erhält damit insgesamt den kritischen Bereich K = (−∞, −N1−α ) für den linksseitigen Test. K = (N1−α , ∞) 4 Berechnung der realisierten Teststatistik N 5 Entscheidung: H0 ablehnen ⇔ N ∈ K . Ökonometrie (SS 2017) Folie 109 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Ökonometrie (SS 2017) Folie 110 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Linksseitiger Gauß-Test für den Ewartungswert II Linksseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05 bei bekannter Varianz 0.4 Beispiel für Verteilungen von N Anwendung µ = 500 µ = 496 µ = 498 µ = 501 als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt, Testrezept“ des linksseitigen Tests: ” 1 Hypothesen: H0 : µ ≥ µ0 gegen H1 : µ < µ0 für ein vorgegebenes µ0 ∈ R. 2 0.2 fN(x|µ) 0.3 als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 . Teststatistik: 0.1 N := 3 X − µ0 √ • n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ). σ Kritischer Bereich zum Signifikanzniveau α: 0.0 K = (−∞, −N1−α ) −6 −4 −2 0 2 4 6 x Ökonometrie (SS 2017) Folie 111 4 Berechnung der realisierten Teststatistik N 5 Entscheidung: H0 ablehnen ⇔ N ∈ K . Ökonometrie (SS 2017) Folie 112 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Interpretation von Testergebnissen I Fällt die Testentscheidung gegen H0 aus, so hat man — sollte H0 tatsächlich erfüllt sein — wegen der Beschränkung der Fehlerwahrscheinlichkeit 1. Art durch das Signifikanzniveau α nur mit einer typischerweise geringen Wahrscheinlichkeit ≤ α eine Stichprobenrealisation erhalten, die fälschlicherweise zur Ablehnung von H0 geführt hat. Aber: Vorsicht vor Über“interpretation als Evidenz für Gültigkeit von H1 : ” Aussagen der Form Wenn H0 abgelehnt wird, dann gilt H1 mit ” Wahrscheinlichkeit von mindestens 1 − α“ sind unsinnig! 2 Wiederholung statistischer Grundlagen Folie 113 Schließende Statistik 2.3 Interpretation von Testergebnissen III I I signifikante Veränderung (zweiseitiger Test), signifikante Verringerung (linksseitiger Test) oder signifikante Erhöhung (rechtsseitiger Test) I Gilt also tatsächlich H1 , ist es dennoch mit einer oft – meist abhängig vom Grad“ der Verletzung von H0 – sehr großen Wahrscheinlichkeit möglich, eine ” Stichprobenrealisation zu erhalten, die fälschlicherweise nicht zur Ablehnung von H0 führt. Aus diesem Grund sagt man auch häufig statt H0 wird angenommen“ eher ” H kann nicht verworfen werden“. ” 0 Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 114 Schließende Statistik 2.3 Ein signifikanter“ Unterschied ist noch lange kein deutlicher“ Unterschied! ” ” Problem: Fluch des großen Stichprobenumfangs“ ” Beispiel: Abfüllmaschine soll Flaschen mit 1000 ml Inhalt abfüllen. einer Größe bezeichnet. Konstruktionsbedingt kann das Ergebnis einer statistischen Untersuchung — auch im Fall einer Ablehnung von H0 — aber niemals als zweifelsfreier Beweis für die Veränderung/Verringerung/Erhöhung einer Größe dienen! Vorsicht vor Publication Bias“: ” I Fällt die Testentscheidung jedoch für H0 aus, so ist dies meist ein vergleichsweise schwächeres Indiz“ für die Gültigkeit von H0 , da die ” Fehlerwahrscheinlichkeit 2. Art nicht kontrolliert ist und typischerweise große Werte (bis 1 − α) annehmen kann. Interpretation von Testergebnissen IV Die Ablehnung von H0 als Ergebnis eines statistischen Tests wird häufig als I Schließende Statistik 2.3 Interpretation von Testergebnissen II Durch die Asymmetrie in den Fehlerwahrscheinlichkeiten 1. und 2. Art ist Vorsicht bei der Interpretation von Testergebnissen geboten, es besteht ein großer Unterschied zwischen dem Aussagegehalt einer Ablehnung von H0 und dem Aussagegehalt einer Annahme von H0 : Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Bei einem Signifikanzniveau von α = 0.05 resultiert im Mittel 1 von 20 statistischen Untersuchungen, bei denen H0 wahr ist, konstruktionsbedingt in einer Ablehnung von H0 . Gefahr von Fehlinterpretationen, wenn die Untersuchungen, bei denen H0 nicht verworfen wurde, verschwiegen bzw. nicht publiziert werden! I I Abfüllmenge schwankt zufällig, Verteilung sei Normalverteilung mit bekannter Standardabweichung σ = 0.5 ml, d.h. in ca. 95% der Fälle liegt Abfüllmenge im Bereich ±1 ml um den (tatsächlichen) Mittelwert. Statistischer Test zum Niveau α = 0.05 zur Überprüfung, ob mittlere Abfüllmenge (Erwartungswert) von 1000 ml abweicht. Tatsächlicher Mittelwert sei 1000.1 ml, Test auf Grundlage von 500 Flaschen. Wahrscheinlichkeit, die Abweichung von 0.1 ml zu erkennen: 99.4% Systematische Abweichung der Abfüllmenge von 0.1 ml also zwar mit hoher Wahrscheinlichkeit (99.4%) signifikant, im Vergleich zur (ohnehin vorhandenen) zufälligen Schwankung mit σ = 0.5 ml aber keinesfalls deutlich! Fazit: Durch wissenschaftliche Studien belegte signifikante Verbesserungen“ ” können vernachlässigbar klein sein ( Werbung...) Ökonometrie (SS 2017) Folie 115 Ökonometrie (SS 2017) Folie 116 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Der p-Wert 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 p-Wert bei Gauß-Tests für den Erwartungswert bei bekannter Varianz Hypothesentests komprimieren“ Stichprobeninformation zur Entscheidung ” zwischen H0 und H1 zu einem vorgegebenen Signifikanzniveau α. Der Wechsel zwischen N ∈ Kα“ und N ∈ / Kα“ findet bei den diskutierten ” dort statt, wo ” die realisierte Gauß-Tests offensichtlich Teststatistik N gerade mit (einer) der Grenze(n) des kritischen Bereichs übereinstimmt, d.h. I Testentscheidung hängt von α ausschließlich über kritischen Bereich Kα ab! Genauere Betrachtung (Gauß-Test für den Erwartungswert) offenbart: I I I I Je kleiner α, desto kleiner (im Sinne von ⊂“) der kritische Bereich. Zu jeder realisierten Teststatistik N findet” man sowohl F F bei rechtsseitigen Tests mit Kα = (N1−α , ∞) für N = N1−α , bei linksseitigen Tests mit Kα = (−∞, −N1−α ) für N = −N1−α , bei zweiseitigen Tests mit Kα = (−∞, −N1− α2 ) ∪ (N1− α2 , ∞) für N= große“ Signifikanzniveaus, deren zugehörige kritische Bereiche ” N enthalten ( Ablehnung von H0 ), als auch kleine“ Signifikanzniveaus, deren zugehörige kritische Bereiche ” N nicht enthalten ( Annahme von H0 ). −N1− α2 N1− α2 . Durch Auflösen nach α erhält man I Es gibt also zu jeder realisierten Teststatistik N ein sogenanntes empirisches (marginales) Signifikanzniveau, häufiger p-Wert genannt, welches die Grenze zwischen Annahme und Ablehnung von H0 widerspiegelt. I I für rechtsseitige Tests den p-Wert 1 − Φ(N), für linksseitige Tests den p-Wert Φ(N), für zweiseitige Tests den p-Wert 2 · Φ(N) = 2 · (1 − Φ(−N)) 2 · (1 − Φ(N)) Ökonometrie (SS 2017) Folie 117 2 Wiederholung statistischer Grundlagen falls N < 0 falls N ≥ 0 Schließende Statistik 2.3 falls N < 0 falls N ≥ 0 = 2 · (1 − Φ(|N|)) . Ökonometrie (SS 2017) Folie 118 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Realisierte Teststatistik N = 1.6, p-Wert: 0.0548 Realisierte Teststatistik N = −1.8, p-Wert: 0.0719 0.3 p = 0.0548 = 0.03595 1 − p = 0.9281 p 2 − N0.995 N = − 1.8 − N0.85 N0.85 N = 1.6 N0.99 x Ökonometrie (SS 2017) 2 = 0.03595 0.0 0.0 0.1 p 0.1 1 − p = 0.9452 0.2 fN(0, 1)(x) 0.2 fN(0, 1)(x) 0.3 0.4 Beispiel: p-Werte bei zweiseitigem Gauß-Test (Grafik) 0.4 Beispiel: p-Werte bei rechtsseitigem Gauß-Test (Grafik) N0.85 N0.995 x Folie 119 Ökonometrie (SS 2017) Folie 120 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Entscheidung mit p-Wert Schließende Statistik 2.3 Tests und Konfidenzintervalle Offensichtlich erhält man auf der Grundlage des p-Werts p zur beobachteten Stichprobenrealisation die einfache Entscheidungsregel H0 ablehnen 2 Wiederholung statistischer Grundlagen ⇔ p<α für Hypothesentests zum Signifikanzniveau α. Sehr niedrige p-Werte bedeuten also, dass man beim zugehörigen Hypothesentest H0 auch dann ablehnen würde, wenn man die maximale Fehlerwahrscheinlichkeit 1. Art sehr klein wählen würde. Kleinere p-Werte liefern also stärkere Indizien für die Gültigkeit von H1 als größere, aber (wieder) Vorsicht vor Überinterpretation: Aussagen der Art Der p-Wert gibt die Wahrscheinlichkeit für die Gültigkeit von H0 an“ sind ” unsinnig! Warnung! Bei der Entscheidung von statistischen Tests mit Hilfe des p-Werts ist es unbedingt erforderlich, das Signifikanzniveau α vor Berechnung des p-Werts festzulegen, um nicht der Versuchung zu erliegen, α im Nachhinein so zu wählen, dass man die bevorzugte“ Testentscheidung erhält! ” Ökonometrie (SS 2017) Folie 121 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Enger Zusammenhang zwischen zweiseitigem Gauß-Test und (symmetrischen) Konfidenzintervallen für den Erwartungswert bei bekannter Varianz. Für Konfidenzintervalle zur Vertrauenswahrscheinlichkeit 1 − α gilt: σ σ α α √ √ µ e∈ X− · N1− 2 , X + · N1− 2 n n σ σ ⇔ µ e − X ∈ − √ · N1− α2 , √ · N1− α2 n n µ e−X√ ⇔ n ∈ −N1− α2 , N1− α2 σ X −µ e√ ⇔ n ∈ −N1− α2 , N1− α2 σ Damit ist µ e also genau dann im Konfidenzintervall zur Sicherheitswahrscheinlichkeit 1 − α enthalten, wenn ein zweiseitiger Gauß-Test zum Signifikanzniveau α die Nullhypothese H0 : µ = µ e nicht verwerfen würde. Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Zusammenfassung: Gauß-Test für den Mittelwert t-Test für den Mittel-/Erwartungswert I bei bekannter Varianz bei unbekannter Varianz Anwendungsvoraussetzungen Nullhypothese Gegenhypothese exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R unbekannt, σ 2 bekannt approximativ: E (Y ) = µ ∈ R unbekannt, Var(Y ) = σ 2 bekannt X1 , . . . , Xn einfache Stichprobe zu Y Teststatistik Verteilung (H0 ) Benötigte Größen Kritischer Bereich zum Niveau α p-Wert H0 : µ ≤ µ0 H1 : µ > µ0 H0 : µ = µ0 H1 : µ 6= µ0 N= H0 : µ ≥ µ0 H1 : µ < µ0 X − µ0 √ n σ N für µ = µ0 (näherungsweise) N(0, 1)-verteilt n 1X X = Xi n i=1 (−∞, −N1− α2 ) ∪(N1− α2 , ∞) 2 · (1 − Φ(|N|)) Konstruktion des (exakten) Gauß-Tests für den Mittelwert bei bekannter Varianz durch Verteilungsaussage N := X − µ√ n ∼ N(0, 1) , σ falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y . Analog zur Konstruktion von Konfidenzintervallen für den Mittelwert bei unbekannter Varianz: Verwendung der Verteilungsaussage v u n u 1 X X − µ√ t := n ∼ t(n − 1) mit S =t (Xi − X )2 , S n−1 i=1 (N1−α , ∞) (−∞, −N1−α ) 1 − Φ(N) Φ(N) falls X1 , . . . , Xn einfache Stichprobe zu normalverteilter ZV Y , um geeigneten Hypothesentest für den Mittelwert µ zu entwickeln. Test lässt sich genauso wie Gauß-Test herleiten, lediglich I I Ökonometrie (SS 2017) Folie 122 Folie 123 Verwendung von S statt σ, Verwendung von t(n − 1) statt N(0, 1). Ökonometrie (SS 2017) Folie 124 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 t-Test für den Mittel-/Erwartungswert II Zusammenfassung: t-Test für den Mittelwert bei unbekannter Varianz bei unbekannter Varianz Anwendungsvoraussetzungen Beziehung zwischen symmetrischen Konfidenzintervallen und zweiseitigen Tests bleibt wie beim Gauß-Test erhalten. Wegen Symmetrie der t(n − 1)-Verteilung bleiben auch alle entsprechenden Vereinfachungen“ bei der Bestimmung von kritischen Bereichen und ” p-Werten gültig. Nullhypothese Gegenhypothese p-Werte können mit Hilfe der Verteilungsfunktion Ft(n−1) der t(n − 1)-Verteilung bestimmt werden. In der Statistik-Software R erhält man Ft(n−1) (t) beispielsweise mit dem Befehl pt(t,df=n-1). Teststatistik Zur Berechnung von p-Werten für große n: Näherung der t(n − 1)-Verteilung durch Standardnormalverteilung möglich. Benötigte Größen Analog zu Konfidenzintervallen: Ist Y nicht normalverteilt, kann der t-Test auf den Mittelwert bei unbekannter Varianz immer noch als approximativer (näherungsweiser) Test verwendet werden. Verteilung (H0 ) Kritischer Bereich zum Niveau α p-Wert Ökonometrie (SS 2017) 2 Wiederholung statistischer Grundlagen Folie 125 Schließende Statistik 2.3 Beispiel: Durchschnittliche Wohnfläche Ökonometrie (SS 2017) exakt: Y ∼ N(µ, σ 2 ) mit µ ∈ R, σ 2 ∈ R++ unbekannt approximativ: E (Y ) = µ ∈ R, Var(Y ) = σ 2 ∈ R++ unbekannt X1 , . . . , Xn einfache Stichprobe zu Y H0 : µ ≤ µ0 H1 : µ > µ0 H0 : µ = µ0 H1 : µ 6= µ0 t= H0 : µ ≥ µ0 H1 : µ < µ0 X − µ0 √ n S t für µ = µ0 (näherungsweise) t(n − 1)-verteilt n X 1 X = Xi n v v i=1 ! u u n n X u 1 u 1 X 2 2 t 2 t X − nX S= (Xi − X ) = n − 1 i=1 n − 1 i=1 i (−∞, −tn−1;1− α2 ) ∪(tn−1;1− α2 , ∞) 2 · (1 − Ft(n−1) (|t|)) (tn−1;1−α , ∞) (−∞, −tn−1;1−α ) 1 − Ft(n−1) (t) Ft(n−1) (t) Folie 126 2 Wiederholung statistischer Grundlagen Schließende Statistik 2.3 Beispiel: p-Wert bei rechtsseitigem t-Test (Grafik) Ökonometrie (SS 2017) Folie 127 0.2 1 − p = 0.968 p = 0.032 0.0 0.1 ft(399)(x) 0.3 0.4 Wohnflächenbeispiel, realisierte Teststatistik t = 1.858, p-Wert: 0.032 Untersuchungsgegenstand: Hat sich die durchschnittliche Wohnfläche pro Haushalt in einer bestimmten Stadt gegenüber dem aus dem Jahr 1998 stammenden Wert von 71.2 (in [m2 ]) erhöht? Annahmen: Verteilung der Wohnfläche Y im Jahr 2009 unbekannt. Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang n = 400 zu Y liefert Stichprobenmittel x = 73.452 und Stichprobenstandardabweichung s = 24.239. Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art): α = 0.05 Geeigneter Test: Rechtsseitiger approx. t-Test für den Mittelwert bei unbekannter Varianz 1 Hypothesen: H0 : µ ≤ µ0 = 71.2 gegen H1 : µ > µ0 = 71.2 √ • 0 2 Teststatistik: t = X −µ n ∼ t(399), falls H0 gilt (µ = µ0 ) S 3 Kritischer Bereich zum Niveau α = 0.05: K = (t399;0.95 √ , ∞) = (1.649, ∞) 4 Realisierter Wert der Teststatistik: t = 73.452−71.2 400 = 1.858 24.239 5 Entscheidung: t ∈ K H0 wird abgelehnt; Test kommt zur Entscheidung, dass sich durchschnittliche Wohnfläche gegenüber 1998 erhöht hat. t399, 0.8 t = 1.858 t399, 0.999 x Ökonometrie (SS 2017) Folie 128 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Inhaltsverzeichnis 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Deskriptive Beschreibung linearer Zusammenhänge I (Ausschnitt) 3 Aus deskriptiver Statistik bekannt: Pearsonscher Korrelationskoeffizient als Maß der Stärke des linearen Zusammenhangs zwischen zwei (kardinalskalierten) Merkmalen X und Y . Einfache lineare Regression Deskriptiver Ansatz Statistisches Modell Parameterschätzung Konfidenzintervalle und Tests Punkt- und Intervallprognosen Einfache lineare Modelle mit R Nun: Ausführlichere Betrachtung linearer Zusammenhänge zwischen Merkmalen (zunächst rein deskriptiv!): Liegt ein linearer Zusammenhang zwischen zwei Merkmalen X und Y nahe, ist nicht nur die Stärke dieses Zusammenhangs interessant, sondern auch die genauere Form“ des Zusammenhangs. ” Form“ linearer Zusammenhänge kann durch Geraden(gleichungen) ” spezifiziert werden. Ökonometrie (SS 2017) 3 Einfache lineare Regression Folie 129 Deskriptiver Ansatz 3.1 Deskriptive Beschreibung linearer Zusammenhänge II Ökonometrie (SS 2017) Folie 130 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Deskriptive Beschreibung linearer Zusammenhänge III Problemstellung: Wie kann zu einer Urliste (x1 , y1 ), . . . , (xn , yn ) der Länge n zu (X , Y ) eine sog. Regressiongerade (auch: Ausgleichsgerade) gefunden werden, die den linearen Zusammenhang zwischen X und Y möglichst gut“ ” widerspiegelt? Geraden (eindeutig) bestimmt (zum Beispiel) durch Absolutglied a und Steigung b in der bekannten Darstellung Wichtig: Was soll möglichst gut“ überhaupt bedeuten? ” Hier: Summe der quadrierten Abstände von der Geraden zu den Datenpunkten (xi , yi ) in vertikaler Richtung soll möglichst gering sein. (Begründung für Verwendung dieses Qualitätskriteriums“ wird nachgeliefert!) ” Für den i-ten Datenpunkt (xi , yi ) erhält man damit den vertikalen Abstand Ökonometrie (SS 2017) Folie 131 y = fa,b (x) := a + b · x . ui (a, b) := yi − fa,b (xi ) = yi − (a + b · xi ) von der Geraden mit Absolutglied a und Steigung b. Ökonometrie (SS 2017) Folie 132 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Deskriptive Beschreibung linearer Zusammenhänge IV 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Beispiel: Punktwolke“ ” 15 aus n = 10 Paaren (xi , yi ) Gesucht werden a und b so, dass die Summe der quadrierten vertikalen Abstände der Punktwolke“ (xi , yi ) von der durch a und b festgelegten ” Geraden, (ui (a, b)) = i=1 n X i=1 2 (yi − fa,b (xi )) = n X i=1 ● ● 10 ● ● 2 (yi − (a + b · xi )) , ● ● ● 5 2 ● yi n X ● möglichst klein wird. ● 0 Verwendung dieses Kriteriums heißt auch Methode der kleinsten Quadrate (KQ-Methode) oder Least-Squares-Methode (LS-Methode). 0 2 4 6 8 xi Ökonometrie (SS 2017) Folie 133 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Folie 134 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 15 Beispiel: P Punktwolke“ und verschiedene Geraden II ” a = 5, b = 0.8, ni=1 (ui (a, b))2 = 33.71 15 Beispiel: P Punktwolke“ und verschiedene Geraden I ” a = 1, b = 0.8, ni=1 (ui (a, b))2 = 180.32 Ökonometrie (SS 2017) ● ● ● ● ● ● ● ● ui(a, b) 10 10 ● ● ● ● yi ● yi ui(a, b) ● b = 0.8 ● ● ● 5 5 ● 1 ● ● a=5 b = 0.8 0 0 0 a=1 1 2 4 6 8 0 xi Ökonometrie (SS 2017) 2 4 6 8 xi Folie 135 Ökonometrie (SS 2017) Folie 136 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Beispiel: Punktwolke“ und verschiedene Geraden III ” Pni=1 (ui (a, b))2 = 33.89 Deskriptiver Ansatz 3.1 Rechnerische Bestimmung der Regressionsgeraden I a = −1, b = 1.9, Gesucht sind also b a, b b ∈ R mit 15 n n X X (yi − (b a+b bxi ))2 = min (yi − (a + bxi ))2 a,b∈R i=1 ● 10 ● ● ● ui(a, b) ● yi ● ● 5 ● i=1 ● führt zu sogenannten Normalgleichungen: ! n n X X ! na + xi b = yi b = 1.9 a = −1 1 0 i=1 Lösung dieses Optimierungsproblems durch Nullsetzen des Gradienten, also Pn n X ∂ i=1 (yi − (a + bxi ))2 ! = −2 (yi − a − bxi ) = 0 ∂a i=1 Pn n X ∂ i=1 (yi − (a + bxi ))2 ! = −2 (yi − a − bxi )xi = 0 , ∂b ● 0 3 Einfache lineare Regression 2 4 6 n X 8 xi i=1 Ökonometrie (SS 2017) Folie 137 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Rechnerische Bestimmung der Regressionsgeraden II Ökonometrie (SS 2017) xi ! i=1 a+ n X xi2 i=1 ! i=1 ! b= n X xi yi i=1 Folie 138 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Beispiel: Punktwolke“ und Regressionsgerade ” P b a = 2.03, b b = 1.35, n (ui (b a, b b))2 = 22.25 i=1 15 Aufgelöst nach a und b erhält man die Lösungen Pn Pn Pn n i=1 xi yi − i=1 xi · i=1 yi b b= 2 Pn Pn 2 n i=1 xi − i=1 xi 1 Pn Pn b b a = n1 i=1 yi − n i=1 xi · b ● ● 10 xy − x · y sX ,Y b b= = 2 sX x2 − x2 b b a = y − xb Ökonometrie (SS 2017) yi ^ ^, b ui(a ) ● ● ● ● 5 bzw. den empirischen Momenten sX ,Y = xy − x · y und sX2 = x 2 − x 2 : Die erhaltenen Werte b a und b b minimieren tatsächlich die Summe der quadrierten vertikalen Abstände, da die Hesse-Matrix positiv definit ist. ● ● oder kürzer mit den aus der deskr. Statistik bekannten Bezeichnungen Pn Pn Pn Pn x = n1 i=1 xi , x 2 = n1 i=1 xi2 , y = n1 i=1 yi und xy = n1 i=1 xi yi ● ● ^ b = 1.35 0 1 ^ = 2.03 a 0 2 4 6 8 xi Folie 139 Ökonometrie (SS 2017) Folie 140 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 Eigenschaften der KQ-Methode I a+b b · xi ) yi = b a+b b · x + y − (b | {z }i |i {z } =:b yi I Mit diesen Eigenschaften erhält man die folgende Varianzzerlegung: n n 1X 1X (yi − y )2 = (b yi − yb)2 + n n i=1 i=1 | | {z } {z } Gesamtvarianz der yi =ui (b a,b b)=:b ui Aus den Normalgleichungen lassen sich leicht einige Eigenschaften für die so bi und ybi herleiten, insbesondere: definierten u I Deskriptiver Ansatz 3.1 Eigenschaften der KQ-Methode II Zu b a und b b kann man offensichtlich die folgende, durch die Regressionsgerade erzeugte Zerlegung der Merkmalswerte yi betrachten: I 3 Einfache lineare Regression Folie 141 3 Einfache lineare Regression Deskriptiver Ansatz 3.1 i=1 b ui2 = 22.25 15 b a = 2.03, b b = 1.35, Pn ● ● ● ● 10 ● Pn (b yi − yb)2 Pi=1 n 2 i=1 (yi − y ) Ökonometrie (SS 2017) Folie 142 3 Einfache lineare Regression i xi yi ● ● ^ u i = 1 n 1 n Deskriptiver Ansatz 3.1 Daten im Beispiel: y = y^ x ● rX2 ,Y Beispiel: Berechnung von b a und b b Beispiel: Regressionsgerade mit Zerlegung yi = b yi + b ui unerklärte Varianz Die als Anteil der erklärten Varianz an der Gesamtvarianz gemessene Stärke des linearen Zusammenhangs steht in engem Zusammenhang mit rX ,Y ; es gilt: P Pn P P b = 0 und damit ni=1 yi = ni=1 ybi bzw. y = yb := n1 ni=1 ybi . u Pni=1 i b = 0. xu i=1 Pi i P P bi = 0 folgt auch ni=1 ybi u bi = 0. bi = 0 und ni=1 xi u Mit ni=1 u Ökonometrie (SS 2017) erklärte Varianz n 1X 2 bi u n i=1 | {z } 1 2.51 6.57 2 8.27 12.44 3 4.46 10.7 4 3.95 5.51 5 6.42 12.95 6 6.44 8.95 7 2.12 3.86 8 3.65 6.22 9 6.2 10.7 10 6.68 10.98 Berechnete (deskriptive/empirische) Größen: ● x = 5.0703 ● y = 8.8889 x 2 = 29.3729 y 2 = 87.9398 yi ● ● ● ● yi ● ● 5 sX2 ● ● ^ b sX ,Y = 4.956 rX ,Y = 0.866 sX ,Y 4.956 b = 1.352 b= 2 = 3.665 sX b a =y −b b · x = 8.8889 − 1.352 · 5.0703 = 2.03 1 0 ^ a = 8.927 Damit erhält man Absolutglied b a und Steigung b b als y^i ● = 3.665 sY2 und damit die Regressionsgerade 0 2 4 6 8 y = f (x) = 2.03 + 1.352 · x . xi Ökonometrie (SS 2017) Folie 143 Ökonometrie (SS 2017) Folie 144 3 Einfache lineare Regression Statistisches Modell 3.2 Das einfache lineare Regressionsmodell I 3 Einfache lineare Regression Statistisches Modell 3.2 Das einfache lineare Regressionsmodell II Keine symmetrische Behandlung von X und Y mehr, sondern: Bisher: rein deskriptive Betrachtung linearer Zusammenhänge I Bereits erläutert/bekannt: Korrelation 6= Kausalität: Aus einem beobachteten (linearen) Zusammenhang zwischen zwei Merkmalen lässt sich nicht schließen, dass der Wert eines Merkmals den des anderen beeinflusst. I Interpretation von X ( Regressor“) als erklärende deterministische Variable. ” Interpretation von Y ( Regressand“) als abhängige, zu erklärende ” (Zufalls-)Variable. Bereits durch die Symmetrieeigenschaft rX ,Y = rY ,X bei der Berechnung von Pearsonschen Korrelationskoeffizienten wird klar, dass diese Kennzahl alleine auch keine Wirkungsrichtung erkennen lassen kann. Es wird angenommen, dass Y in linearer Form von X abhängt, diese Abhängigkeit jedoch nicht perfekt“ ist, sondern durch zufällige Einflüsse ” gestört“ wird. ” Anwendung in Experimenten: Festlegung von X durch Versuchsplaner, Untersuchung des Effekts auf Y Nun: statistische Modelle für lineare Zusammenhänge Damit auch Kausalitätsanalysen möglich! Ökonometrie (SS 2017) Folie 145 3 Einfache lineare Regression Statistisches Modell 3.2 Das einfache lineare Regressionsmodell III u1 , . . . , un (Realisationen von) Zufallsvariablen mit E(ui ) = 0, Var(ui ) = σ 2 (unbekannt) und Cov(ui , uj ) = 0 für i 6= j sind, die zufällige Störungen der linearen Beziehung ( Störgrößen“) beschreiben, P ” x1 , . . . , xn deterministisch sind mit sX2 = n1 ni=1 (xi − x)2 > 0 (d.h. nicht alle xi sind gleich), β0 , β1 feste, unbekannte reelle Parameter sind. Man nimmt an, dass man neben x1 , . . . , xn auch y1 , . . . , yn beobachtet, die wegen der Abhängigkeit von den Zufallsvariablen u1 , . . . , un ebenfalls (Realisationen von) Zufallsvariablen sind. Dies bedeutet nicht, dass man auch (Realisationen von) u1 , . . . , un beobachten kann (β0 und β1 unbekannt!). Ökonometrie (SS 2017) Parameterschätzung 3.3 einfaches lineares Regressionsmodell. gilt, wobei I 3 Einfache lineare Regression Das durch die getroffenen Annahmen beschriebene Modell heißt auch yi = β0 + β1 · xi + ui I Folie 146 Parameterschätzung I Es wird genauer angenommen, dass für i ∈ {1, . . . , n} die Beziehung I Ökonometrie (SS 2017) Folie 147 Im einfachen linearen Regressionsmodell sind also (neben σ 2 ) insbesondere β0 und β1 Parameter, deren Schätzung für die Quantifizierung des linearen Zusammenhangs zwischen xi und yi nötig ist. Die Schätzung dieser beiden Parameter führt wieder zum Problem der Suche nach Absolutglied und Steigung einer geeigneten Geradengleichung y = fβ0 ,β1 (x) = β0 + β1 · x . Achtung! Die Bezeichnung der Parameter hat sich gegenüber der Veranstaltung Schließende Statistik“ geändert, aus β1 wird β0 , aus β2 wird β1 ! ” Ökonometrie (SS 2017) Folie 148 3 Einfache lineare Regression Parameterschätzung 3.3 Parameterschätzung II Man erhält also — ganz analog zum deskriptiven Ansatz — die folgenden Parameterschätzer: Unter den getroffenen Annahmen liefert die aus dem deskriptiven Ansatz bekannte Verwendung der KQ-Methode, also die Minimierung der Summe der quadrierten vertikalen Abstände zur durch β0 und β1 bestimmten Geraden, in Zeichen n n X X ! (yi − (βb0 + βb1 · xi ))2 = min (yi − (β0 + β1 · xi ))2 , β0 ,β1 ∈R i=1 Dies rechtfertigt letztendlich die Verwendung des Optimalitätskriteriums Minimierung der quadrierten vertikalen Abstände“ (KQ-Methode). ” Ökonometrie (SS 2017) Folie 149 3 Einfache lineare Regression Parameterschätzung 3.3 bi := yi − (βb0 + βb1 · xi ) = yi − ybi Die resultierenden vertikalen Abweichungen u der yi von den auf der Regressionsgeraden liegenden Werten ybi := βb0 + βb1 · xi nennt man Residuen. Wie im deskriptiven Ansatz gelten die Beziehungen Pn Pn Pn Pn bi = 0, bi , bi = 0, i=1 xi u i=1 y i=1 u i=1 yi = Pn bi u bi i=1 y die Streuungszerlegung i=1 {z } Total Sum of Squares n X i=1 | (b yi − yb)2 {z } Explained Sum of Squares bzw. die Varianzzerlegung Pn 1 2 i=1 (yi − y ) = n Ökonometrie (SS 2017) βb1 = n Vorsicht! Pn βb0 = 1 n Pn Pn i=1 xi · i=1 yi 2 Pn − i=1 xi Pn i=1 xi yi − Pn 2 n i=1 xi i=1 yi − 1 n Pn i=1 xi = xy − x · y x2 − x2 = sX ,Y , sX2 · βb1 = y − x βb1 . sX2 , sY2 sowie sX ,Y bezeichnen in diesem Kapitel die empirischen Größen Pn Pn sX2 = n1 i=1 (xi − x)2 = x 2 − x 2 , sY2 = n1 i=1 (yi − y )2 = y 2 − y 2 Pn und sX ,Y = n1 i=1 (xi − x) · (yi − y ) = xy − x · y . Ökonometrie (SS 2017) 3 Einfache lineare Regression Folie 150 Parameterschätzung 3.3 Das (multiple) Bestimmtheitsmaß R 2 Parameterschätzung IV | Parameterschätzer im einfachen linearen Regressionsmodell i=1 die beste (varianzminimale) lineare (in yi ) erwartungstreue Schätzfunktion βb0 für β0 bzw. βb1 für β1 . = Parameterschätzung 3.3 Parameterschätzung III Satz 3.1 (Satz von Gauß-Markov) n X (yi − y )2 3 Einfache lineare Regression 1 n Pn yi i=1 (b n X + i=1 =0 bezeichnet. R 2 wird auch (multiples) Bestimmtheitsmaß genannt. bi2 u Es gilt 0 ≤ R 2 ≤ 1 sowie der (bekannte) Zusammenhang R 2 = rX2 ,Y = | {z } Residual Sum of Squares − yb)2 + 1 n Pn i=1 bi2 . u Auch im linearen Regressionsmodell wird die Stärke des linearen Zusammenhangs mit dem Anteil der erklärten Varianz an der Gesamtvarianz gemessen und mit Pn Pn bi2 (b yi − yb)2 ESS RSS 2 i=1 i=1 u P R = Pn = 1 − = =1− n 2 2 TSS TSS i=1 (yi − y ) i=1 (yi − y ) sX2 ,Y sX2 ·sY2 . Größere Werte von R 2 (in der Nähe von 1) sprechen für eine hohe Modellgüte, niedrige Werte (in der Nähe von 0) für eine geringe Modellgüte. Folie 151 Ökonometrie (SS 2017) Folie 152 3 Einfache lineare Regression Parameterschätzung 3.3 Beispiel: Ausgaben in Abhängigkeit vom Einkommen I 3 Einfache lineare Regression Parameterschätzung 3.3 Berechnete (deskriptive/empirische) Größen: x = 30.28571 Es wird angenommen, dass die Ausgaben eines Haushalts für Nahrungs- und Genussmittel yi linear vom jeweiligen Haushaltseinkommen xi (jeweils in 100 e) in der Form iid ui ∼ N(0, σ 2 ), yi = β0 + β1 · xi + ui , i ∈ {1, . . . , n} abhängen. Für n = 7 Haushalte beobachte man nun neben dem Einkommen xi auch die (Realisation der) Ausgaben für Nahrungs- und Genussmittel yi wie folgt: Haushalt i Einkommen xi NuG-Ausgaben yi 1 35 9 2 49 15 3 21 7 4 39 11 5 15 5 6 28 8 7 25 9 Mit Hilfe dieser Stichprobeninformation sollen nun die Parameter β0 und β1 bi der linearen Modellbeziehung geschätzt sowie die Werte ybi , die Residuen u und das Bestimmtheitsmaß R 2 bestimmt werden. Ökonometrie (SS 2017) Folie 153 3 Einfache lineare Regression Parameterschätzung 3.3 15 βb0 = 1.14228, βb1 = 0.26417, R 2 = 0.9191 10 yi ● ● ● ● ● ● 5 rX ,Y = 0.9587 Damit erhält man die Parameterschätzer βb0 und βb1 als sX ,Y 30.2449 βb1 = 2 = = 0.26417 114.4901 sX βb0 = y − βb1 · x = 9.14286 − 0.26417 · 30.28571 = 1.14228 . Als Bestimmtheitsmaß erhält man R 2 = rX2 ,Y = 0.95872 = 0.9191. bi erhält man durch Einsetzen (b bi = yi − ybi ): Für ybi und u yi = βb0 + βb1 · xi , u Ökonometrie (SS 2017) i xi yi ybi bi u 1 35 9 10.39 −1.39 2 49 15 14.09 0.91 3 21 7 6.69 0.31 4 39 11 11.44 −0.44 5 15 5 5.1 −0.1 6 28 8 8.54 −0.54 7 25 9 7.75 1.25 Folie 154 3 Einfache lineare Regression Parameterschätzung 3.3 Wegen der Abhängigkeit von yi handelt es sich bei βb0 und βb1 (wie in der schließenden Statistik gewohnt) um (Realisationen von) Zufallsvariablen. βb0 und βb1 sind linear in yi , man kann genauer zeigen: ● βb0 = yi n X x 2 − x · xi · yi n · sX2 i=1 und βb1 = n X xi − x · yi n · sX2 i=1 0 y^i sX ,Y = 30.2449 y 2 = 92.28571 ● ● ● ● ● = 8.6938 x 2 = 1031.71429 ● y = y^ x ● = 114.4901 y = 9.14286 sY2 Eigenschaften der Schätzfunktionen βb0 und βb1 I Grafik: Ausgaben in Abhängigkeit vom Einkommen ^ u i sX2 0 10 20 30 40 50 xi Ökonometrie (SS 2017) Folie 155 Ökonometrie (SS 2017) Folie 156