Quantitative Methoden 20. April 2009 Inhaltsverzeichnis 1 Einführung 2 2 Liquidity on OTC markets 3 3 Grenzwertsätze 3.1 Einführung . . . . . . . . . . . . . . . . . 3.2 Zufallsstichprobe . . . . . . . . . . . . . . 3.3 Gesetz der großen Zahlen . . . . . . . . . 3.4 Bernoullis Gesetz . . . . . . . . . . . . . 3.5 Hauptsatz der Statistik . . . . . . . . . . 3.6 Der zentrale Grenzwertsatz . . . . . . . . 3.7 Normalverteilung als Näherungsverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 4 5 6 6 7 4 Punktschätzung von Parametern einer Grundgesamtheit 4.1 Stichprobenverfahren . . . . . . . . . . . . . . . . . . . 4.2 Punktschätzung für den Mittelwert . . . . . . . . . . . . 4.3 Punktschätzung für die Varianz . . . . . . . . . . . . . . 4.4 Eigenschaften von Punktschätzungen . . . . . . . . . . . 4.4.1 Grundlegende Prinzipien . . . . . . . . . . . . . . 4.4.2 Qualitätskriterien: . . . . . . . . . . . . . . . . . 4.5 Schätzprinzipien . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Momentenmethode . . . . . . . . . . . . . . . . 4.5.2 Maximum-Likelihood-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 8 8 9 9 9 10 11 11 12 5 Statistisches Testen 5.1 Nullhypothese, Gegenhypothese, Entscheidung 5.2 Testen von Hypothesen über Mittelwerte . . . 5.3 Testen von Hypothesen über Anteilswerte . . 5.4 Test für Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 14 15 16 16 . . . . . . . . . . . . . . . . . . . . . . . . Quantitative Methoden – Inhaltsverzeichnis 5.5 5.6 5.7 Macht eines Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teststatistiken/Testverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . t-Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 17 18 6 Das lineare einfache Regressionsmodell 6.1 Kleinst-Quadrate-Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Welche Annahme liefert was . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 20 22 7 Zeitreihenanalyse 7.1 Der stochastische Prozess . . . . . . . . . . . . . . . . . 7.1.1 Beispiele für stochastische Prozesse . . . . . . . . 7.1.2 „Werkzeuge“ . . . . . . . . . . . . . . . . . . . . 7.1.3 Restriktion . . . . . . . . . . . . . . . . . . . . . 7.1.4 2 nützliche Operatoren . . . . . . . . . . . . . . 7.1.5 Einige wichtige univariate stochastische Prozesse 7.1.6 Unit-Root-Prozess (URP) . . . . . . . . . . . . . 23 23 23 24 25 26 27 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Quantitative Methoden – 1 Einführung 1 Einführung Agenda • Methodische Basis: – Zufallsstichprobe – Gesetz der großen Zahlen/Zentraler Grenzwertsatz – Methoden zur Parameterschätzung • Testen von Hypothesen • Parameterschätzung und Hypothesentests im linearen Regressionsmodell • Grundzüge der Zeitreihenanalyse – Stochastischer Prozess – (Nicht)Stationarität – Autoregressive/Moving Average – Vektor-Autoregression – Kointegration • Kausalität MBO: Die Ziele dieser Veranstaltung sind... • Entwicklung der methodischen Bausteine für das Verständnis der modernen wirtschaftswissenschaftlichen Literatur (Werkzeugkasten) • Erarbeiten eines qualitativ guten methodischen Fundaments für Vertiefungsstudium und Masterstudium • Sowohl formales als auch intuitives Verständnis für quantitative Ansätze in der Wirtschaftswissenschaft Aufbau der Veranstaltung Die Erkenntnis muss der Anwendung vorangehen Die Hürden sind nicht mahtematische Ziele werden erreicht durch: • vorbereitete Tutoren • vorbereitete Studenten in Vorlesung und Tutorien • vorbereitete Dozenten mit geordneter Vorlesung 3 Quantitative Methoden – 2 Liquidity on OTC markets • Mitschriften und Selbststudium Literatur: KOOP, Gary: „Analysis of Economic Data“ 2nd Edition, Whiley Folienskript auf der Kurspage verfügbar → Ilias: Koop2008 2 Liquidity on OTC markets OTC= over the counter= über das Telefon Pj,t = beobachteter Transaktionspreis j zu einer Zeit t yt = Bond-Preis am Tagesende t v u Nt T X u 1 X t (Pj,t − yt )2 N xT (1) t=1 j=1 Diese Formel ist das Maß für Liquidität in diesem Markt: umso größer es ist, umso größer die Illiquidität Frage: welche Bonds müssen besonders geschützt werden, da besonders illiquide? Problem: Selektionsproblem: auf OTC-Märkten kann man bei dieser Formel nur etwas erklären wenn wirklich gehandelt wird, die Bonds mit der größten Illiquidität werden jedoch gar nicht gehandelt, so dass die diese Formel die Liquidität extremst unterschätzt. 3 Grenzwertsätze 3.1 Einführung Vorgehen bei wissenschaftlicher Auswertung: Ich gebe keine Spezifikationen vor, sondern lasse den Datensatz einfach wachsen, so dass damit obige Gesetze greifen und viele Schlüsse zulassen Konzept Zufallsstichprobe am Beispiel: IQ Ich ziehe ein X aus der Grundgesamtheit „Menschheit“, mess den IQ und lege jeweils zurück. Dies mache ich n-mal. Der IQ wird jeweils als Zufallsvariable X1 aufgefasst X1 hat die gleiche Verteilung wie die Grundgesamtheit (ist ZV) bis zur Realisation x1 (reelle Zahl) Ich kann jedoch nicht nur eine Stichprobe ziehen, sondern theoretisch unendlich viele. Für X1 gibt es damit gesehen unendlich viele Ausprägungen, weshalb sie auch eine Zufallsvariable ist. 4 Quantitative Methoden – 3 Grenzwertsätze 3.2 Zufallsstichprobe Die Auswahl der Leute in einer Zufallsstichprobe muss zufällig sein (keine Selbstselektion, Marktforschung als Bsp.: keine Arbeit mit Quoten, da nicht nichtrepräsentativ für Zufallsstichprobe) 1. Zug aus GG → X1 Zufallsvariable ... nter Zug aus GG → Xn Zufallsvariable → alle X mit gleicher Wahrscheinlichkeitsverteilung wie X selbst Warum Zufallsstichprobe: • aus Daten Aussage über Wahrscheinlichkeitsverteilung von X (in GG) • Parameterschätzung • Hypothesentests • Prognosen Und warum nicht GG? • Kosten • GG kann fiktiv/hypotetisch sein („Menschheit“, „Würfelwurf“) X1 ...Xn nennt man Stichprobenvariablen: unabhängig, identisch verteilte ZVen (u.i.v., i.i.d (independent identically distributed)), auf diese ZVen sind unten genannte Theoreme anwendbar Es handelt sich um ZVen, da Wert vor Ziehung unbekannt, aber es sind unabhängige ZVen. Nach Realisation: x1 ...xn = reelle Zahlen Wegen Zufälligkeit der Auswahl: fX1 ...Xn (x1 ...xn ) (gem. Wahrscheinlichkeits-/dichtefunktion) → fX1 (x1 ) = ... = fXn (xn ) = identische Randverteilungen (gleiche GG, unabhängig) 3.3 Gesetz der großen Zahlen Seien X1 ...Xn unabhängig und identisch verteilte Zufallsvariablen, deren Erwartungswerte und Varianzen existieren und sei Xn das arithmetische Mittel aus ihnen. Dann gilt für jedes noch so kleine > 0: P (Xn − µ ≥ ) → 0f rn → ∞ (2) d.h. Stichprobenmittelwerte werden bei sehr vielen Stichproben zum Erwartungswert hin konvergieren (auch bei etwas aufgeweichtem DGP) Beweis über tschbyschevsche Ungleichung (Substitution k ∗ σ = ) 5 Quantitative Methoden – 3 Grenzwertsätze Verschiedene Arten von Konvergenz: Schwaches Gesetz der großen Zahlen: „Wahrscheinlichkeitslimes“, „ stochastische Konvergenz“ plimXn = µ Starkes Gesetz der großen Zahlen: „Konvergenz mit Wahrscheinlichkeit 1“, „fast sichere Konvergenz“ P (limXn = µ) = 1 Es gilt auch: E(Xn ) = µ 2 V ar(Xn ) = σn Mächtigkeit des SGGZ Z ∞ n 1X x ∗ fx dx) xn = xv → E(x)( n −∞ (3) v=1 Für y=x2 (E(y) = E(x2 ) < ∞) y ist u.i.v. wenn X u.i.v. yn = n n v=1 v=1 1X 2 1X yv = xv n n (4) n 1X 2 yn →p E(Y ) = E(x )oder xv →p E(X 2 ) n 2 (5) v=1 d.h. für empirische Varianz aus Zufallsstichprobe: n 1X 1X 2 1X (xv − xn )2 = xv − ( xv )2 n n n (6) s2x →p E(x2 ) − (E(x))2 = V ar(x) = E(x − E(X)2 ) (7) v=1 Gilt auch für g(x) z.b. x3 , ln(x) 1X g(xv ) →p E(g(x)) n (8) 3.4 Bernoullis Gesetz Ein Bernoulli-Experiment mit der Erfolgswahrscheinlichkeit p werde n-mal unabhängig voneinander wiederholt und sei dabei Hn die relative Häufigkeit der Erfolge. Dann gilt für jedes noch so kleine >0 P (|Hn − p| ≥ ) = 0 (9) oder: limn→∞ P (|Hn − p| ≥ ) = 0 (10) 6 Quantitative Methoden – 3 Grenzwertsätze plimHn = p (11) Anmerkungen: Bernoullis Gesetz datiert lange vor dem Gesetz der großen Zahlen. Es ist ein Spezialfall des allgemeinen Gesetzes, wir brauchen es daher nicht extra zu beweisen. Praktische Bedeutung 1. Statistische Wahrscheinlichkeit: Bestimmung von Wahrscheinlichkeit auf experimentellem Wege: hn ist guter Näherungswert bzw. brauchbare Schätzung für p wenn n hinreichend groß 2. Stichprobenverfahren: bei qualitativen Merkamlen: p=Anteil der statistischen Einheiten in der GG, bei denen das Merkmal in einer bestimmten Ausprägung vorliegt hn =Stichprobenanteilswert. Er wird mit zunehmendem Stichprobenumfang immer näher bei dem Wert p zu liegen kommen 3.5 Hauptsatz der Statistik Frage: Kann auch die Wahrscheinlickeitsverteilung F(x) experimentell bestimmt werden? Dazu berechnet man aus den n Stichprobenwerten die empirische Verteilungsfunktion Hn (x) → P (limn→∞ Hn (x) = F (x)) = 1 (12) 3.6 Der zentrale Grenzwertsatz Betrachtet man den Mittelwert einer Zufallsstichprobe als ’Realisation einer Zufallsvariablen wobei E(Xn ) = µ 2 V ar(Xn ) = σn stellt sich die Frage wie die Verteilungsfunktion lautet. Seien X1 ...Xn u.i.v. ZVen mit Erwartungswert und Varianz und sei Xn ihr arithmetisches Mittel. Dann strebt die Verteilungfunktion Fn der standardisierten Größe Zn = Xn − µ σ sqrtn (13) mit wachsendem n gegen die Standardnormalverteilung Fst (Zn ) 7 Quantitative Methoden – 3 Grenzwertsätze Die Binomialverteilung konvergiert auch gegen die Normalverteilung mit Hn − p Zn = q (14) pq n Beweisskizze Standardisierung: xn − E(xn ) zn = p V ar(xn ) (15) ≈ N(0,1) Man setzt: xn = sn : sn − E(sn ) zn = p V ar(sn ) (16) Man zeigt, dass die MEF für zn : −t2 limn→∞ M EFzn (f ) = e 2 =MEF von X≈ N(0,1) Da wenn zwei MEF gleich sind die Funktion gleich ist: bewiesen Bedeutung 1. Entscheidender Vorteil: der ZGWS stellt keinerlei Anforderungen an die Ausgangsverteilung. Wie auch imner die identisch und unabhängige- Verteilung der Xi beschaffen sein mag, die Verteilungsfunktion der Summe beziehungsweise des arithmetischen Mittels konvergiert stets gegen die Normalverteilung 2. Diesem Umstand verdankt die Normalverteilung ihre universale theoretische und praktische Bedeutung 3. Empirische Verteilungen: der ZGWS eklärt auch weshalb so viele empirische Verteilungen der Normalverteilung nahekommen und durch sie recht gut näherungsweise beschrieben werden können 3.7 Normalverteilung als Näherungsverteilung Ist n hinreichend groß, kann die Verteilung einer Summe bzw. eines arithmetischen Mittels durch die Normalverteilung approximiert werden: Summe: P (Sn ≤ sn ) ≈ FSt ( sn − nµ √ ) σ n (17) 8 Quantitative Methoden – 4 Punktschätzung von Parametern einer Grundgesamtheit Intervall: P (a < Sn ≤ b) ≈ FSt ( b − nµ a − nµ √ − FSt ( √ ) σ n σ n (18) Mittelwert: P (Xn ≤ xn ) ≈ FSt ( xn − µ √σ n ) (19) 4 Punktschätzung von Parametern einer Grundgesamtheit 4.1 Stichprobenverfahren Die repräsentative Stichprobe: Man stellt sicher, dass die Stichprobe bezüglich anderer Merkmale eine gleiche oder ähnliche Struktur aufweist wie die Grundgesamtheit. Reine Zufallsauswahl: Jedes Element der Grundgesamtheit hat die gleiche Chance, in die Stichprobe zu gelangen. Urnenmodell: Ziehen ohne oder mit Zurücklegen 1. Der Merkmalswert Xi jedes einzelnen Stichprobenelements ist eine Zufallsvariable 2. Die Wahrscheinlichkeitsverteilung dieser Zufallsvariablen Xi ist durch die Häufigkeitsverteilung des Merkmals X in der Grundgesamtheit bestimmt. 3. Mit den in der Stichprobe beobachteten Merkmalswerten xi wird un versucht, diese Verteilung oder doch wenigstens ihren Mittelwert und ihre Varianz zu schätzen 4.2 Punktschätzung für den Mittelwert Mittelwert µ des metrischen Merkmals X einer Grundgesamtheit sei unbekannt. Er soll mit Hilfe einer Zufallsstichprobe vom Umfang n geschätzt werden. Beobachtete Merkmalswerte xi : P realisierte Zufallsstichprobe (x1 , x2 , ∧, xn ) → n1 xj = x als Stichprobenmittelwert Schätzformel: µ b = x mit µ b ist Schätzwert für µ Frage: Ist dies eine gute Schätzformel? Meistens gibt es einen Schätzfehler : e = µ − µ b Wir untersuchen die stochastischen Eigenschaften: µ b ist eine Zufallsvariable. Verteilung? Momente? E(b µ) = µ: Erwartungstreue bias= E(e): Verzerrung, Bias 2 V ar(b µ) = σn → plimb µ = µ: Konsistenz 9 Quantitative Methoden – 4 Punktschätzung von Parametern einer Grundgesamtheit 4.3 Punktschätzung für die Varianz Varianz σ 2 eines metrischen Merkmals in einer Grundgesamtheit sei unbekannt. Sie soll mit der empirischen Varianz der Zufallsstichprobe geschätzt werden: s2 = 1X (xj − x)2 n (20) 2 \ = s2 ist nicht erwartungstreu. Bereinigt Die auf den ersten Blick naheliegende Schätzformel sigma um die Zahl der Freiheitsgrade: σ b2 = n 2 s n−1 (21) Es ist nun E(b σ2 = σ2 4.4 Eigenschaften von Punktschätzungen 4.4.1 Grundlegende Prinzipien 1. Annahme Verteilung für ZV X z.B. X≈ Po(λ) oder ≈ N(µ, σ 2 ) ... 2. Ziehen der Zufallsstichprobe → Stichprobevariable x1 ...xn (u.i.v.) 3. Schätzfunktionen (SF) „schätzen“ Parameter der Verteilung von X (λ, µ, σ 2 ) Die SF ist eine Stichprobenfunktion mit Stichprobenvariablen: g(X1 , X2 ...Xn ) und damit selbst eine Zufallsvariable (messbare Funktion), deren Wert g(x1 , x2 ...xn ) eine reelle Zahl ist: Schätzwert für Verteilungsparameter von X Allgemeine Schreibweise: θ : wahrer Wert (konstant, unbekannt) θb : Schätzwert (Zufallsvariable) für Parameter von Verteilungen z.B. Mittelwert µ, Varianz σ 2 b 1 , ∧, Xn ) ist eine Schätzformel oder ein Schätzer oder eine Schätzfunktion. Sie hat eine θb = θ(X Wahrscheinlichkeitsverteilung. Rechenbeispiel: X≈ Po(λ) in GG → Schätzung von λ : 2 Schätzfunktionen: b1 = X1 λ b2 = P Xv λ 10 Quantitative Methoden – 4 Punktschätzung von Parametern einer Grundgesamtheit 4.4.2 Qualitätskriterien: 1. Kriterium: Erwartungstreue: Ein Schätzer θb ist erwartungstreu oder unverzerrt („ohne Bias“), wenn sein Erwartungswert seinem zu schätzenden wahren Wert entspricht, also: b = θd.h.E(θ) b −θ =0 E(θ) Es erscheint unmittelbar vernünftig zu fragen, ob eine Schätzformel im Mittel, das heißt im Durchschnitt ihrer Anwendungen auf lange Sicht, den gesuchten Wert trifft. Eine systematische Überschätzung etwa ist sicher nicht wünschenswert. Im Beispiel: beide Vorschläge sind erwartungstreu: b1 ) = E(X1 ) = E(X) = λ E(λ b2 ) = E( 1 P Xv ) = 1 P E(xv ) = 1 ∗ n ∗ E(x) = E(x) = λ E(λ n n n 2. Kriterium: Effizienz Man sagt, ein unverzerrter Schätzer sei effizienter als ein anderer unverzerrter Schätzer, wenn er eine kleinere Varianz hat. Der effizienteste unverzerrte Schätzer θ∗wäre derjenige, der verglichen mit allen anderen unverzerrten Schätzern die kleinste Varianz hätte, also: b V ar(θ∗) < V ar(θ) Im Beispiel: Vorschlag 2 ist effizienter als Vorschlag 1: b1 ) = V ar(X1 ) = V ar(X) = λ V ar(λ b2 ) = V ar( 1 P xv ) = V ar(X = λ V ar(λ n n n b1 ) > V ar(λ b2 ) → V ar(λ 3. Kriterium: Mittlerer quadratischer Fehler DEr mittlere quadratische Fehler (mean squared error MSE) eines Schätzers ist der Erwartungswert seiner quadrierten Abweichung vom wahren Parameterwert, also: b = E((θb − θ)2 ) (sollte möglichst klein werden) M SE(θ) Der MSE berücksichtigt sowohl Varianz und Bias: b = V ar(θ) b + bias2 = E(θb − E(θ)) b 2 + E(θb − θ) M SE(θ) Es kann vorteilhaft sein, einem leicht verzerrten Schätzer den Vorzug zu geben vorausgesetzt, dass dadurch eine wirksame Verkleinerung der Varianz erreicht wird, was oft der Fall ist. Beispiel siehe eigene Anlage 1 4. Kriterium: Konsistenz Der Schätzfehler sollte möglichst klein sein und -vor allem- umso kleiner, je größer der zur Verfügung stehende Stichprobenumfang n ist. Man wünscht sich die Eigenschaft der Konsistenz, was bedeutet, dass die Wahrscheinlichkeit, mit der ein noch so kleiner Schätzfehler >0 auftritt, mit zunehmendem n gegen 0 strebt, also: limn→∞ P (θbn − θ| > ) = 0(f rn → ∞) (22) oder: plimn→∞ θb = θ (23) 11 Quantitative Methoden – 4 Punktschätzung von Parametern einer Grundgesamtheit Man kann zeigen: limM SE(θbn ) = 0 wenn limE(θb − θ) = 0 und limV ar(θbn = 0 Ein Schätzer ist also konsistent, wenn er erwartungstreu ist und wenn außerdem seine Varianz bei zunehmendem Stichprobenumfang gegen 0 geht Beispiel siehe eigene Anlage 2 4.5 Schätzprinzipien Ziel: X≈ Verteilung(θ1 ,θ2 ) mit θ als unbekannter Parameter (Vektor: θ = (θ1 ...θk )0 Aus der Zufallsstichprobe schätzt man θ1 ...θk mittels der Stichprobenvariablen X1 ...Xn (u.i.v.) Zum Schätzen verwendet man Schätzfunktionen und bewertet die Ergebnisse mittels Bias, Effizienz, MSE und Konsistenz 4.5.1 Momentenmethode „Schätze die Momente der Verteilung der Grundgesamtheit mit den entsprechenden Momenten der Stichprobe“ Daraus lassen sich z.B. die Schätzformeln für Mittelwert und Varianz herleiten Beobachtung: es besteht ein funktionaler Zusammenhang zwischen θ1 ...θk und den Momenten: Am Beispiel: X≈ P o(λ) E(x)=λ Da Var(x)=E(x2 ) − (E(x))2 gilt: E(x2 ) = V ar(x) + µ2 E(x2 ) =P λ2 + λ 1 Xn = n xv →p E(x) = µ → xn ist ein konsistenter Schätzer für λ Am Beispiel: X ≈ N (µ, σ 2 ) Nach den Ergebnissen vonP vorher gilt: 1 P 1 P 2 2 = 1 x − ( x ) (xv − xn )2 →p σ 2 v v n n n Momentenschätzer basieren auf u.i.v. Zufallsstichproben, die konsistent sind (GGZ) Asymptotisch (approx.) normalverteilt (ZGS) Für Poissonverteilung gilt: c1 = 1 P xv →p E(x) = λ λ n c2 = 1 P x2 − [ 1 P xv ]2 →p V ar(x) = λ λ v n n Beide sind konsistent → Wahl des Effizientesten Schätzers über den Zusammenhang der einzelnen Kriterien 12 Quantitative Methoden – 4 Punktschätzung von Parametern einer Grundgesamtheit 4.5.2 Maximum-Likelihood-Methode „Wähle den Wert θbM L als Schätzwert für einen unbekannten Parameter θ, welcher angesichts des Stichprobenergebnisses die größte Likelihood oder Mutmaßlichkeit besitzt!“ Gemeint ist damit derjenige Wert, welcher, wenn er der wahre Parameter der Verteilung wäre, verglichen mit allen anderen Werten das Stichprobenergebnis mit der größten Wahrscheinlichkeit hervorgebracht hätte. Ausgangspunkt: f (X1 ...Xn , θ)=gem. Wkeitsfunktion bzw Dichtefunktion (P (X1 = x1 ...Xn = xn ) mit θ=Vektor. Sie ist proportional zu einer Wkeit, aber nicht Wkeit selbst Man berechnet die Wkeit für die Abfolge bestimmter X, d.h. X ändert sich während θ gleich bleibt: → Πfx (xv , θ) Gegebenes θ und mit konkreten x1 ...xn → reelle Zahl Gegebenes θ und mit Zufallsvariablen X1 ...Xn → messbare Funktion, Zufallsvariable Unbekanntes θ: Die Likelihood-Funktion gibt an: L(θ) = Πfx (xv , θ) Maximum-Likelihood-Idee: Wähle θb so dass L(θ) maximal wird Ich bestimme eine Abfolge für X und teste sie für jeweils verschiedene λ und nehme den Wert mit der höchsten Wahrscheinlichkeit P Max. v. L(θ) = Max. v. ln L(θ) = lnf (xv , θ) → log-Funktion wegen: numerischer Stabilität, leichtere Ableitung und Wissen wohin Summen in Wahrscheinlichkeit konvergieren P Max ln L(θ) = Max n1 lnf (xv , θ) → wieder ein Mittelwert Obige Methode beschreibt Grid search: möglich für kleine Parameter und für grobe Annäherung Andere Methode: Bedingung erster Ordnung: b 1 X ∂lnf (xv , θ) =0 n ∂ θb1 (24) Dies für alle θ des Vektors, umformen und nach den θ auflösen ergibt ML-Schätzer → „Königin der Schätzmethoden in ihrem Reich“: das beste für große n, aber alle Ergebnisse nur bei korrekt speziem DGP (=großer Anspruch an Wissen für Schätzer) = „kein robuster Schätzer“ Beispiel: ML-Schätzung, Parameter NV X≈ N (µ, σ 2 ) in GG als Annahme 13 Quantitative Methoden – 5 Statistisches Testen Likelihood-Funktion: L(µ, σ 2 ) = Π √ −1 xv −µ 1 ∗e 2 ( σ ) 2π ∗ σ (25) als Dichtefunktion der NV √ P lnL(µ, σ 2 ) = −n ∗ ln( 2π) − n ∗ lnσ − 2σ1 2 ∗ (xv − µ)2 Wähle Werte für µ und σ so dass die Likelihood-Funktion max. wird: ∂lnL 1 X 2(xv − µ)(−1) = 0(1) = ∂µ −2σ 2 X 1 ∂lnL 1 (xv − µ)2 = 0(2) = −n ∗ 2 − 3 (−2) ∂σ σ 2σ aus (1): X (xv − µ) = 0 ↔ n ∗ µ = X xv ↔ µ = 1X xv = xn n (26) (27) (28) aus (2): σ2 = 1X (xv − x)2 n (29) 5 Statistisches Testen Schätzverfahren und Testverfahren sind Anwendungen der Stichprobentheorie Ziel: Entscheidung über eine Hypothese zu treffen Hypothesen sind Annahmen z.B. über eine Verteilung oder über einzelne Parameter der Verteilung eines Merkmals in einer Grundgesamtheit. Signifikanzniveau: „wie unwahrscheinlich muss ein Ereignis (Testergebnis) mindestens sein, dass man die Null-Hypothese (=Ausgangshypothese) verwirft.“ z.B 0,01; 0,05; 0,1 Dazu Anlage „Partnerwahl“ Woher stammen die Hypothesen? • frühere Beobachtungen • theoretische Überlegungen • Prinzip des unzureichenden Grundes • begründete Mutmaßungen 14 Quantitative Methoden – 5 Statistisches Testen Beachte: Ob eine gefaßte Hypothese richtig oder falsch ist, kann mit einer Stichprobe nicht festgestellt werden. Die Testentscheidung beinhaltet „Hypothese beibehalten“ oder „verwerfen“. Kernsätze • statistische Signifikanz 6= ökonomische Bedeutung • Signifikant: keine Aussage ob H0 wahr oder falsch • Signifikant: keine Aussage wie (un)wahrscheinlich H0 ist, sondern nur Aussage über Verwerfung • Kontrolle über Wkeit für Fehler 1.Art, aber nicht für Fehler 2.Art (Wunsch: bei gegebenem α sollte β möglichst klein, bzw α + β möglichst klein) • 1-β ist Macht des Tests als die Wkeit eine falsche H0 abzulehnen 5.1 Nullhypothese, Gegenhypothese, Entscheidung Hypothese über den Zahlenwert θ0 eines Parameters θ • z.B. einer Verteilung eines Merkmals in einer GG • Wahrscheinlichkeitsverteilung einer Zufallsvariablen Nullhypothese H0 : θ = θ0 H0 kann falsch oder richtig sein. Sie wird beibehalten wenn genügend Hinweise für das Gegenteil erbracht sind: Stichprobe Gegenhypothese/Alternativhypothese HA : θ 6= θ0 Vier Möglichkeiten Tabelle 1: Testentscheidung-Realität H0 beibehalten H0 verwerfen H0 ist richtig ok Fehler 1.Art (α) H0 ist falsch Fehler 2.Art (β) ok Fehler 1.Art: Man verwirft die Null-Hypothese obwohl sie richtig ist Fehler 2.Art: Man verwirft die Null-Hypothese nicht obwohl sie falsch ist Nach dem Neymann/Pearson Paradigma gilt: Max W.keit für α-Fehler fixiert = kontrolliert 15 Quantitative Methoden – 5 Statistisches Testen W.keit für β-Fehler ergibt sich = nicht kontrolliert → P (H0 verwerfen | H0 richtig)=α sollte möglichst klein sein 5.2 Testen von Hypothesen über Mittelwerte Sei µ der Mittelwert des metrischen Merkmals X in einer GG. Nullhypothese: H0 : µ = µ0 mit µ0 als hypotetischem Zahlenwert. Wir ziehen eine Zufallstichprobe und finden eine Abweichung |x − µ0 | > 0 Problem: Nullhypothese verwerfen? Eine richtige Nullhypothese soll nur mit sehr geringen Wahrscheinlichkeit α verworfen werden. Übliche Signifikanzniveaus sind α=0,05; 0,01; 0,1 (=konventionell) 1. Festlegen der Nullhypothese Fomuliere dazu die Alternativ-Hypothese HA , damit alle Möglichkeiten abgedeckt Konstruktion Prüfgröße/Teststatistik T Beim zweiseitigen Bereich ist der Verwerfungsbereich symmetrisch zu beiden Seiten des Annahmebereichs angeordnet. Standardisierte Testvariable: X − µ0 (30) σx Für große Stichproben gilt: X − µ0 P( > z(1 − α/2)|µ = µ0 ) = α (31) σx Dabei ist der erste Teil die Prüfgröße und der zweite der kritische Wert. Gilt die größer-Beziehung ist H0 zu verwerfen Beim einseitigen Test ist der Verwertungsbereich nicht symmetrisch zu beiden Seiten des Annahmebereichs angeordnet: Oberseitiger Test H0 : µ ≤ µ0 gegen H1 : µ > µ0 Testentscheidung: x − µ0 > z(1 − α) → H0 verwerf en σx Unterseitiger Test H0 : µ ≥ µ0 gegen H1 : µ < µ0 Testentscheidung: x − µ0 < z(α) → H0 verwerf en σx (32) (33) 3. Ableitung Wkeitsverteilung von T bei Gültigkeit von H0 (oft das Aufwändigste) Es existiert eine bestimmte Dichtefunktion wenn Nullhypothese wahr, die Verteilung der Gegenhypothese sollte eine andere sein Siehe Anlage 16 Quantitative Methoden – 5 Statistisches Testen 4. Max. tolerierte Wkeit für Fehler 1.Art festlegen = α 5. Verwerfungsbereich (Nichtverwerfungsbereich=Annahme) festlegen Der kritische Wert tkrit wird von α bestimmt und wird an die Verteilung aus 3. abgetragen Siehe Anlage 6. Berechnen konkreter Wert Teststatistik/Prüfgröße t* Liegt t* im Nichtverwerfungsbereih kann die Nullhypothese auf Signifikanzniveau α nicht verworfen werden Liegt t* im Verwerfungsbereich wird die Nullhypothese auf Signifikanzniveau α verworfen. Siehe Anlage 5.3 Testen von Hypothesen über Anteilswerte Bei den Schritten 5+6 gibt es eine Alternative: p-Wert (p-value) „empirisches Signifikanzniveau“ ES liegt eine bestimmte Verteilung von T unter Gültigkeit von H0 vor. Der p-Wert bei einseitiger Fragestellung fragt: würde t* als tkrit angenommen und welches Signifikanzniveau impliziert dies? P(T<t*)=p-Wert Bsp. p-Wert von 0,31 und damit P(T>t*)=0,31 Bei α=0,01 kann H0 nicht verworfen werden Siehe Anlage Der p-Wert ist hilfreich, da keine strikte Vorgabe von α und mehr Information Bei zweiseitiger Fragestellung gilt P (T > t∗) = p−W2 ert und P (T < −t∗) = bei symmetrischer Verteilung geht → p-Wert=P(T>t*)*2 Siehe Anlage p−W ert , 2 wobei dies nur 5.4 Test für Varianzen 5.5 Macht eines Tests Es gibt Tests bei denen die Verteilung von H0 und HA gleich aussehen. Bei einem Signifikanzniveau von α=0,05 gilt: α-Fehler ist 0,05. Wegen der gleichen Verteilung ist damit der β-Fehler=1-α=0,95 Die Wkeit der Fehlersumme ist damit 1, was schlecht ist, da diese Summe möglichst klein sein sollte. Die Macht des Tests P(H0 verworfen|H0 falsch)=1-β=0,05 Bei besseren Tests sind die Verteilungen stark unterschiedlich. Beispiel siehe Anlage 17 Quantitative Methoden – 5 Statistisches Testen 5.6 Teststatistiken/Testverteilungen Konstrutkionsbedingt haben Teststatistiken unter H0 keine Standardnormalverteilung, sondern: χ2 -Verteilung T≈ χ2 (n) mit n als Parameter der Freiheitsgrade P Wenn Z≈ N(0,1), dann nv=1 Z 2 ≈ χ2 (n) mit Z 2 ist messbare Funktion. Die Dichtefunktion folgt aus der Anwendung des Dichtetransformationstheorems: n x ( x2 ) 2 −1 ∗ e− 2 fχ2 (x, n) = 2Γ( n2 ) (34) mit Γ(a)= Z ∞ y a−1 ∗ e−y dy (35) a Fχ2 (x,n)=tabelliert Schira Verteilung siehe Anlage student-t-Verteilung T≈ t(n) mit n als Parameter der Freiheitsgrade Wenn Z≈ N(0,1) und U≈ χ2 (n) und U,Z unabhängig, dann √Z U/n ≈ t(n) mit t ist messbare Funktion. Die Dichtefunktion folgt aus der Anwendung des Dichtetransformationstheorems: fT (x, n) = k ∗ [1 + x2 /n]−0,5(n+1) (36) mit k= 1 Γ(n + 0.5) √ ∗ n Γ ∗ (n/2) ∗ Γ ∗ (0.5) (37) FT (x,n)=tabelliert Schira Verteilung siehe Anlage F-Verteilung T≈ F(m,n) mit m,n zwei Parameter U Wenn U≈ χ2 (m) und V≈ χ2 (n) und U,V unabhängig, dann F= m V mit F ist messbare Funktion. n Die Dichtefunktion folgt aus der Anwendung des Dichtetransformationstheorems: FF = tabelliert Schira 18 Quantitative Methoden – 5 Statistisches Testen 5.7 t-Testen Benutzt zum Test des Signifikanzniveaus von Parameter(schätzern) Einfaches Beispiel: X in GG mit X≈ N(µ, σ 2 ) H0 : µ = µ e (wobei θ oft =0) HA : µ 6= µ e Dies sollte den Parameterraum komplett abdecken Zufallstichprobe mit u.i.v.; es gilt: θbn : Schätzer für Verteilung den ich herausbekomme (ist konsistent und approx. normalverteilt) θ=wahrer Parameter e θ=angenommener Wert bei Hypothese Bei Gültigkeit der H0 : E(X) = E(xv ) = µ e V ar(X) = V ar(xv ) = σ 2 Konstruktion der Teststatistik X n −e µ Z= √ ≈ N (0, 1) unter H0 mit 2 σ /n X n ≈ N (µ, σ 2 /n) √ Z = x−µ ≈ N (0, 1) (für n-k>30) 2 σ E(X n ) = µ = µ e V ar(X n ) = σ 2 /n α=0,05, damit ist tkrit ungefähr± 2 1 Ist σ 2 nicht bekannt, dann wird sie durch n−1 s2 , also die empirische Varianz (xv − x)2 , ersetzt, die aus den Daten berechnet werden können. Durch das Ersetzen jedoch wird die Verteilung nun t-verteilt. Bsp. für diese Verteilung mit t(n-1), also n-1 Freiheitsgrade. Schaubild siehe Anlage Die allgemeine Prüfgröße lautet: θbn − θe t= q V ar(θbn ) (38) Der Standardfehler ist normalerweise nicht bekannt, muss über empirische Varianz geschätzt werden Faustregel: θbn signifikant von θe verschieden (oft=0) wenn Wert der t-Statistik t<-2 oder t>2 (bei zweiseitigem Test) Konfidenzintervall Für alle Werte in diesem Intervall verwerfen sie auf einem gegebenen Signifikanzniveau nicht: → 95% Konfidenzintervall= 5% Signifikanzniveau 19 Quantitative Methoden – 6 Das lineare einfache Regressionsmodell 6 Das lineare einfache Regressionsmodell yi = α + β ∗ xi + i mit y als abhängige Variable (Regressant) x als erklärende/beobachtete Variable (Regressor) α, β als wahre Parameter als „Fehler“ (unbeobachtete erklärende Variable) Konzeptionelles: Alles Bestandteile können als reelle Zahlen uafgefasst werden, da aus Grundgesamtheit gezogen (z.T. messbare Funktionen) Aber: α, β als reelle Zahlen Oft konditioniert auf x (bedingte Verteilung) E(yi |xi ) = α + E(β ∗ xi |xi ) + E(i |xi ) (39) wobei E(β ∗ xi |xi ) = β ∗ xi und E(i |xi ) = 0 (per Annahme) Indizes: i=Individuen (Querschnittsanalyse) it=Paneldaten (t)=Zeitpunkte (Zeitreihenanalysen) Ökonomische Modelle Y X Einkommen Schulausbildung Konsum Jahr t verfügbares Einkommens Verkäufe Jahr t Werbeausgaben des Unternehmens in t e unbekannte Fähigkeit (Soziales, IQ) Risikoneigung Mode, Zeitgeist Zentrale Ziele Schätzung des Parameters β (=Key Parameter): „Bildungsrendite“, „marginale Konsumquote“, „Marketingeffizienz“ Hypothesentests Man nutzt einen Test und nimmt β=0 bzw. β 6=0, testet also die Hypothese z.B. Bildung bringt nichts. 6.1 Kleinst-Quadrate-Algebra Schätzung der wahren Parameter mit der Zielfunktion: n X (yi − α b − βb ∗ xi )2 (40) i=1 Es werden α, β so gewählt dass die Summe der Residuen (ei = yi − α − β ∗ xi ) möglichst klein macht 20 Quantitative Methoden – 6 Das lineare einfache Regressionsmodell Intuition Die Daten aus der Zufallsstichprobe: da für jede Variable mehrere Möglichkeiten existieren entstehen Zufallsvektoren Parameterschätzung: aus KQ-Zielfunktion: α b = y − βb ∗ x c βb = sxy 2 x Alle diese Parameter, Variablen und Mittelwerte sind Zufallsvariablen 6.2 Annahmen • R1: Linearität (wichtig ist, dass α und β linear eingehen) • R2: striktre Exogenität (der Störfehler ist 0 und und x sind unabhängig) • R3: konstante Varianz (für alle i)=homoskedastisch • R4: Kovarianz von 0 (zwischen zwei Störtermen, also keine Autokorrelation) • → BLUE: Best Linear Unbiased Estimator (Gauss-Markov-Theorem • R5: Normalverteilung Annahme 1 Linearität in Parametern, d.h. α und β müssen linear verbunden sein. Anmerkung: evl. Tranformation der Daten notwendig: Unilog-Modelle: yei = exp(α + β ∗ xi + i ) → lnyei = α + β ∗ xi + i → yi = α + β ∗ xi Loglog-Modelle: yei = α + xei β ∗ i → lnyei = α + β ∗ lnxei + lne i → yi = α + β ∗ xi + i Nichtlineare Regression: auch KQ-Schätzung möglich, aber erfüllt damit die erste Annahme nicht; kein BLUE Annahme 2 strikte Exogenität: E(i |x1 , x2 ...xn ) = 0 Anmerkung Bei ZS (=unabhängige Ziehung) gilt für strikte Exogenität: E(i |x) = 0 → E(i ) = 0 → cov(i ; xi ) = 0; E(i ∗ xi ) = 0 (prädeterminierte Regressoren) Dies wird durch Simultanität oder vernachlässigte Regressoren gebrochen. Annahme 3 a. V ar(i |x1 ...xn ) = (berA2) = E(2i |x1 ...xn ) = σ 2 d.h. die bedingte Varianz des Störterms ist unabhängig davon auf welches x ich bedinge. 21 Quantitative Methoden – 6 Das lineare einfache Regressionsmodell Anmerkung bei u.i.v ZV gilt wegen Unabhängigkeit der Ziehungen: E(2i |x1 ...xn ) = E(2i |xi ) = E(2i = σ 2 b. cov(i ; j |x1 ...xn ) = E(i ∗ j |x1 ...xn ) = 0 für i 6= j Anmerkung bei u.i.v. ZV ohnehin gegeben Anmerkung zu A2 und A3 Sie restringieren die Verteilung der Störterme: A2 macht Aussagen über 1. Momente; A3 macht Aussagen über die 2. Momente Über die Verteilung von x wird keine Aussage gemacht! Annahme 4 (i |x1 ...xn ) ≈ N (0, σ 2 ) (0 wegen A2; σ 2 wegen A3) Anmerkung bei u.i.v. reicht Konditionierung auf xi benötigt für Hypothesentests: t-Tests; F-Tests; Kondifenzintervalle Schlechte Einflüsse: 1. omitted variable bias=Schätzer sind nicht erwartungstreu (konsistent) weil zusätzliche Variablen vergessen wurden Lösung: Aufnahmen (kontrollieren) relevanter erklärender Variablen: multiples Regressionsmodell: argmin : X (yi − βb1 xi1 − ...βbk xik )2 (41) 2. Beziehung zwischen X und (cov(x, ) 6= 0)=Schätzer sind inkonsisten,verzerrt weil endogene Regressoren Lösung: Schätzung mit Instrumentvariablen (I): cov(X, I) 6= 0; cov(, I) = 0 Ersetzen von X durch I, da I Anforderungen des Modells erfüllt (Bsp. Vietnam) 3. simultaneous equation bias=indirekte wirkung von Y auf X (via Z), d.h. Schätzer inkosistent, verzerrt Lösung: Systemschätzverfahren oder Instrumentvariable 4. Diese drei „Plagen“ verhindern konsistente Schätzer! 22 Quantitative Methoden – 6 Das lineare einfache Regressionsmodell 6.2.1 Welche Annahme liefert was Mit A1+A2 α b; βb sind erwartungstreu Mit A1+A2+A3 α b; βb sind BLUE: V ar(b α) ≤ V ar(e α) b ≤ V ar(β) e V ar(β) →α e; βe sind unverzerrte lineare Schätzer; d.h. man wählt bei einem BLUE-Schätzer immer den mit der kleinsten Varianz unter allen erwartungstreuen linearen Schätzern. α b V ar = b β = ! b V ar(b α) cov(b α, β) b b cov(b α, β) V ar(β) = σ2( n X xi ∗ x0i )−1 (42) (43) (44) i=1 Anmerkung: Die Wurzel dieser Varianzen benötigt man für t-Tests Mit A1+A2+A3+A4 Ausnutzen obiger Berechnung der Varianz: α b |x1 ...xn βb | (45) b ≈ BVN (bivariatnormalverteilt) [(α/β); V ar(b α/β)] Beim t-Testen gilt: e hypoth.W ert) βb − β(= q ≈ N (0, 1) ≈ t(n − 1)unterH0 \b V ar(β) (46) b =β Gilt H0 : βe = E(β) 23 Quantitative Methoden – 7 Zeitreihenanalyse So wie auch hier kann die Varianz oben oft nur geschätzt werden: P \b V ar(b α/β) wird geschätzt als s2 ∗ [ xi ∗ x0i ]−1 mit s2 = 1 X 2 ei n−1 (47) Da geschätzt wird gilt aber immer: 1 P 2 2 2 E(s ) = σ , aber E( n ei ) 6= σ 2 , weshalb man den Korrekturfaktor verwendet. 7 Zeitreihenanalyse In Wiwi meistens Beobachtung von Zeitreihen (=geordnete Realisationen von ZVen): Y1 , Y2 , ...YT mit T=Zeitreihenindex Ökonomische Beispiele: • 3 Monats-Zinssatz (LIBOR (London Inter Bank O. Rate)= täglich verfügbar • BIP Wachstum = vierteljährlich • ALQ = monatlich • → geordnet nach Zeit • → Beobachtungen=Realisationen einer Folge zeitlich geordneter ZVen = stochastischer Prozess =“langer natürlich geordneter Zufallsvektor“ Notation: (Yt ) = Y1 , Y2 ...Yt ... (Yt )t=∞ t=−∞ = ...Y−1 , Y0 , Y1 ...Yt ...YT ... (aber nur die Werte von 1-T werden als Realisationen betrachtet) 7.1 Der stochastische Prozess 7.1.1 Beispiele für stochastische Prozesse „Lego-Blocks“ = Bausteine für andere stochastische Prozesse „Ensembles“(=wiederholte Welten); ist keine Realität, aber wir tun als ob wir es könnten Für einige stochastische Prozesse reicht eine Realisation für die Aussage über die Verteilung, E, Var..., bei einigen reicht es nicht (Gausscher) White Noise: Yt = t mit t u.i.v. und N(0,1) 24 Quantitative Methoden – 7 Zeitreihenanalyse Random Walk: P Yt = Yt−1 + t = ti=1 i (Aufsummierung der vergangenen Zufallsrestriktionen) Random Walks drücken keine Trends aus und damit sind keine Aussagen über die Realität möglich (keine Zukunftsaussagen) Die aufsteigende Varianz zeigt, dass die Ziehungen nicht aus der gleichen Verteilung kommen (nicht u.i.v.) Hier kann man also nur aufgrund einer Realisation keine Aussage über Eigenschaften machen. Random Walk with drift: Yt = c + Yt−1 + t Langfristig dominiert der Drift (bei pos. c langfristig Aufwärtstrend) Auch hier aufsteigende Varianz was Prognostizierbarkeit erschwert. Trendstationärer Prozess: Yt = c ∗ t + t Konstante Varianz, d.h. alle mit ähnlicher Aufwärtsbewegung. Geringe Unsicherheit Unterscheidung: bei 2,3 wirken alle noch ohne schwächer zu werden (Einheitswurzelprozess) bei 4 wirkt nur das aktuelle Mischungen sind möglich; entschieden wird sich im Hypothesentest für eines. 7.1.2 „Werkzeuge“ Z ∞ Yt ∗ fYt dYt = µt (Schira : µ(t)) E(yt ) = (48) −∞ V ar(yt ) = E[(yt − y)2 ] = σt2 (sigma2 (t)) (49) Cov(yt , yt−j ) = E[(yt − µt )] = γj,t (γj (t)) = Autokovarianz (50) Cov(yt , yt−j ) γj,t = = ρj,t (ρj (t)) = Autokorrelation; −1 ≤ ρj,t ≤ 1 σt ∗ σt−j σt ∗ σt−j (51) FYt (yt ) = P (Yt ≤ Yt ) = V erteilungsf unktion(marginaleV erteilungsf unktion) (52) fYt (yt ) = dFYt (yt ) = Dichtef unktion(marginaleDichtef unktion) dYt (53) Fy1 ...yT (y1 ...yt ) = gemeinsameV erteilungsf unktion (54) fy1 ...yT (y1 ...yT ) = gemeinsameDichtef unktion (55) fyt |yt−1 ...y1 = bedingteDichtef unktion (56) E(yt |yt−1 ...y1 ) = bedingterErwartungswert (57) V ar(yt |yt−1 ...y1 ) = bedingteV arianz (58) 25 Quantitative Methoden – 7 Zeitreihenanalyse bedingte Momente 6= unbedingte Momente (wenn ich Abhängigkeiten im stochastischen Prozess drin habe) =Prognostizierbarkeit 7.1.3 Restriktion auf Heterogenität (Stationarität) und Gedächtnis (Ergodezität) des stochastischen Prozesses Entscheidende Frage: reicht eine Realisation des stochastischen Prozess aus um die Parameter(Momente)/Verteilung des stochastischen Prozesses konsistent zu schätzen. → nur wenn bestimmte Bedingungen bezüglich Stationarität und Ergodezität gelten: Man hat drei Realisationen in einer Simulation (S=3). Dies sind unabhängige Experimente. Die einzelnen Zeitziehungen müssen jedoch nicht unabhängig sein. Wichtig ist: sind fy10 und fy100 gleich, d.h. ziehe ich aus der gleichen Verteilung (siehe Abbildung) Zur Berechnung P s eines Durchschnitts bräuchte man das „Ensemble-Mittel“: y10 = 1s y10 (wegen SGGZ: lim P[|y10 − E(y10 )| > ] = 0; d.h. y10 → E(y10 ) = µ10 Wir haben jedoch nur eine Realisation. . Deshalb berechnet man das „Zeitreihen-Mittel“: 1 P yt → E(y10 ) T Notwendige Bedingung ist dafür: (yt ) muss stationär sein. (6= u.i.v., denn u ist abgeschwächt, da Abhängigkeit über Zeit hinweg erlaubt) Stationarität: (identische Verteilung beibehalten; Unabhängigkeit aufgeweicht) schwache Stationarität (auch Kovarianz-Stationarität) E(Yt ) = µt = µ (mittelwert-stationär) V ar(Yt ) = σt2 = σ 2 = γ0 (varianz-stationär) Cov(yt , yt−j ) = γj,t = γj (kovarianz-stationär) γ γ ρj = σj2 = γ0j für schwach stationären Prozess Anmerkungen: Bei gemeinsamer Normalverteilung (=Gausscher Prozess: fyt , fyt+j1 ...fyt+jn gem. normalverteilt) impliziert schwache Stationarität gleichzeitig auch strenge Stationarität. strenge Stationarität F (y1 , y2 ...ym ) = F (y1+k , y2+k ...ym+k ) Es gibt nur einen Fall in dem es strenge Stationarität gibt ohne schwache: eine Verteilung in der bestimmte Momente nicht existieren. Regression und Mittelwerte machen bei Zeitreihen nur Sinn wenn man stationären Prozess als Grundlage hat. Bei zwei nichtstationären Reihen bekommt man nur sinnvolle Ergenisse bei Kointegration. Ergodezität: (gilt nur im stationären Prozess) Stationärer Prozess ist (mittelwert) ergodisch: P yt und y ist konsistenter Schätzer für µ (keine u.i.v. limt→∞ P [|y − µ| > ] = 0 mit y = 1/T Stichprobe mehr benötigt) Anmerkungen: Ergodezität kann oft nur angenommen werden, schwer zu testen 26 Quantitative Methoden – 7 Zeitreihenanalyse Notwendige Bedingung für Mittelwertergodezität ∞ X |γj | < ∞ (59) j=0 d.h. die Kovarianzen müssen geringer werden; das Gedächtnis muss abnehmen Kovarianz-ergodischer Prozess KEP T X 1 (yt − µ) ∗ (yt−j − µ) →p γj = Cov(yt − yt−j ) T −j (60) t=j+1 → Kovariant und Varianz können aus einer Realisation geschätzt werden Die notwendige Bedingung für KEP ist im allgemeinen schwieriger zu beweisen, aber einfach für Gausscher Prozess: ∞ X |γj | < ∞ (61) j=0 → Prozess ergodisch für alle Momente Übersicht zu Stationarität Anlage 7.1.4 2 nützliche Operatoren Lag-Operator L (z.B. B) Lyt = yt−1 Lyt−1 = yt−2 = L(Lyt ) = L2 yt L wird behandelt wie Multiplikation mit reeller Zahl: L(a ∗ yt ) = a ∗ Lyt = a ∗ yt−1 Lag-Polynome: ϕ(L) = 1 − φ1 L − φ2 L2 − ... − φp Lp = (1 − φ1 L − φ2 L2 − ... − φp Lp )yt = yt − φ1 yt−1 − φ2 yt−2 − ... − φp yt−p Faktorisierung: (1 − λ1 L)(1 − λ2 L) = 1 − λ1 L − λ2 L + λ1 λ2 L2 = 1 − (λ1 λ2 )L + λ1 λ2 L2 → Polynom Differenzen-Operator ∆ ∆yt = yt − yt−1 = (1 − L)yt → ∆ = 1 − L ∆2 yt = (1 − L)(1 − L)yt = (1 − 2L + L2 )yt = yt − 2yt−1 + yt−2 = (yt − yt−1 ) − (yt−1 − yt−2 ) = ∆yt − ∆yt−1 27 Quantitative Methoden – 7 Zeitreihenanalyse 7.1.5 Einige wichtige univariate stochastische Prozesse • White Noise • Martingal • Moving Average Prozes (MA) • Autoregressiver Prozess (AR) (mit Random Walk) • Unit-Root Prozesse • ARMA Prozesse Methodologie: • Ein Stochastischer Prozes als DGP für ökonomische Zeitreihe annehmen • Spezifikation des SP (z.B. Lag Länge q) • Schätzung Parameter mit ML, KQ, MM... • analyse und Prognose White Noise (WN) (yt ) E(yt ) = 0; V ar(yt ) = σ 2 ; Cov(yt , yt−j ) = 0mitj = 1, 2, ... Prozess ohne Gedächtnis = am nächsten von allen an u.i.v. yt ≈ N (0, σ 2 ) = Gausscher WN Anmerkung: WN (schwach) stationär und (mittelwert) ergodisch Martingal (m) E(yt |yt−1 ...) = yt−1 Martingal-Differenz-Prozess (m.d.) E(yt |yt−1 ...) = 0 Anmerkung • m und m.d wichtig in Finance • wie Random Walk • Unter bestimmten Voraussetzungen ist E(yt |yt−1 ...) = yt−1 die beste Prognose für yt : Prognosenutzer will MQF der Prognose zu minimieren: M QF = E((yt |yt−1 ... − yt )2 ) Wenn (yt Martingal, dann yt−1 die beste Prognose 28 Quantitative Methoden – 7 Zeitreihenanalyse • wenn (yt ) Martingal dann (∆yt ) Martingal-Differenz, da: E(yt − yt−1 |yt−1 ...) = E(yt |yt−1 ...) − yt−1 = yt−1 − yt−1 = 0 • (yt ) ist m.d → (AT S)cov(yt , yt−j ) = 0 für alle t,j als „unbedingter Erwartungswert“ (=kein Gedächtnis) • Die cov(yt , yt−j ) = 0 ist zu unterscheiden von der empirischen Kovarianzen (Korrelationen), die als Tests benutzt werden können um obige These zu testen Moving Average Prozess (MA) MA(1) yt = µ + θ ∗ t−1 + t Dabei sind µ und θ Parameter. t bezeichnet „Innovationen“, „etwas neues“, „Schocks“. Aufgebaut ist der Prozess wie die Einfachregression, nur das t−1 unbeobachtet MA(q) yt = µ + θ1 ∗ t−1 + θ2 ∗ t−2 + ... + θq ∗ t−q + t "‘Repräsentationen“= gleicher Prozess wird umgeschrieben dargestellt: yt − µ = (1 + θ1 L + ... + θq Lq )t Anmerkungen/Resultate: • jeder MA(q) mit q<∞ ist stationär und mittelwertergodisch • schwankt um den Mittelwert, wie White Noise • Einfache Berechnung von Momenten von (yt ) z.B. E(yt ) = E(µ)+θ1 E(t−1 )+...+θq E(t−q )+ E(t ) = µ (da E(t ) = 0 wegen White Noise) • „Gedächtnis“ MA(q): exakt q Perioden, d.h. γj 6= 0 für j=0...q; γj = 0 für j>q (äquivalent Pj ) • Ökonomische Prozesse als MA(q): Geldmenge Beispiele für MA(2) siehe Anlage Grenzfälle MA: MA(0) = White Noise mit µ=E()6= 0 (kein Gedächtnis) M A(∞) = yt = c0 + ψ0 ∗ t + ψ1 ∗ t−1 ... (ist immer ein anderer Prozess, der umgeschrieben wurde und der eine bestimmte Folge der ψ impliziert → macht ihn wieder schätzbar, z.B. Random Walk ψ immer 1) ∞ → Stationarität MA(∞) hängt ab von j )j=0 ab. P(ψ ∞ → Ergebnis: MA(∞) stationär wenn j=0 |ψj | < ∞ = Koeffizientenfolge absolut summierbar, dann E(yt ) = E(c) + (ψ0 + ψ1 + ...)E(t ) = c(= µ) Beispiele für MA siehe Anlage Autoregressive Prozesse AR(1) 29 Quantitative Methoden – 7 Zeitreihenanalyse yt = c + φ ∗ yt−1 + t mit (t ) White Noise mit Rekursion: yt = c + φ(c + φ ∗ yt−2 + t−1 ) + t =c + φ ∗ c + φ2 ∗ yt−2 + φ ∗ t−1 + t ... =[1 + φ + φ2 + ...] ∗ c + t + φ ∗ t−1 + φ2 ∗ t−2 ... =Konvergente Reihe (<∞)*c+MA(∞) Stationarität von AR: 1 hängt ab von φ: wenn |φ| < 1 dann lim[1 + φ + φ2 + ... + φj ] = 1−φ <∞ P∞ P∞ j 1 2 und j=0 |ψj | = j=0 |φ| = 1 + |φ| + φ + ... = 1−φ < ∞ =Stationaritätsbedingung für MA(∞) erfüllt und damit ist AR(1) stationär. c c + “ < ∞“ ∗ 0 = 1−φ → E(yt ) = [1 + φ + φ2 + ...] ∗ c + [1 + φ + φ2 + ...]E(t = 1−φ Ebenso wird auch für höhere Momente und Autokovarianzen/Autokorrelationen vorgegangen. Beispiel: Zinszeitreihen Beispiele (ρj ) für stationäre AR(1) siehe Anlage Besondere Prozesse: „mean-reverting“: Prozess kehrt immer wieder zum Erwartungswert zurück; trotzdem kann er länger drüber oder drunter liegen = Gedächtnis, „kleben“; Bsp. c=0,5, φ = 0,9 Bei -0,9 nicht gegeben, da erwartet man wenn einmal überm Erwartungswert, dann nächstes Mal drunter Schwer zu unterschieden vom Random Walk, denn wenn φ=1 ist AR(1)=Random Walk (Stationarität geht verloren) Alternative Repräsentation: ∆yt = yt − yt−1 = ρ(yt−1 − µ) + t mit ρ = φ − 1 und µ = Dabei ist ρ(yt−1 − µ) der Fehlerkorrekturterm c 1−φ für |φ| < 1 Andere Fälle: φ>1 „Werte explodieren“ exponentiell Diese Fälle sind wirtschaftswissenschaftlich nicht relevant siehe Anlage Fall φ=1 yt = c + yt−1 + t ↔ (1 − L)yt = c + t ↔ ∆yt = c + t AR(1) Rekursion: =[1+1+...]*c+t + t−1 ...ψj = 1, d.h. die Summe geht gegen unendlich und ist nicht konvergent; damit nicht stationär) Anmerkungen: 30 Quantitative Methoden – 7 Zeitreihenanalyse • E(yt ) existiert nicht, da [1+1+...]*c+[1+1+...]E(t und damit ist der letzte Ausdruck mit ∞∗0 nicht definiert • V ar(yt ) und andere höhere Momente existieren nicht • GGZ und ZGS funktionieren nicht wegen fehlenden Momenten • AR(1) nicht stationär • Permanenter Effekt vergangener Schocks auf yt (Charakteristikum für URP) • Erste Differenz ist stationär; er ist also differenzenstationär AR(p) in MA(∞) - Berechnung (ψj ): yt = c + φ1 ∗ yt−1 + ... + φp yt−p + t mit (t ) w.n. =[1 − φ1 L − ... − φp Lp ]yt = c + t → Intelligente Rekursion mit AR(p)=MA(∞) (1 − φ1 L − ... − φp Lp )yt = c + t 1 − φ1 z − ... − φp z p = 0 (z − z1 ) ∗ (z − z2 )...(z − zp ) = 0; λj = 1/zj mit zj ist Nullstelle (1 − λ1 z)(1 − λ2 z)...(1 − λp z)) = 0; z → L; äquivalente Darstellung des Lag-Polynoms (1 − λ1 L)(1 − λ2 L)...(1 − λp L)yt = c + t yet = (1 − λ2 L)...(1 − λp L) (1 − λ1 L)yet = c + t yet = c + λ1 ∗ yg t−1 + t (AR(1)f r yet ) →AR(1) Rekursion wenn |λ1 < 1| oder |z1 | > 1 gilt: c yet = 1−λ + t + λ1 t−1 + λ21 t−2 ... 1 yet = e c + uet yet = (1 − λ3 L)...(1 − λp L)yt c + uet (1 − λ2 L)yet = e y für |λ2 < 1| oder |z2 | > 1: AR(1) Rekursion auf e e c 2 e y = 1−λ + u e + λ u g t 2 t−1 + λ2 ug t−2 + ... 2 2 mit uet = t + λ1 t−1 + λ1 t−2 2 λ2 ug t−1 = λ2 t−1 + λ1 λ2 t−2 + λ1 λ2 t−3 + ... 2 2 2 2 λ22 ug t−2 = λ2 t−2 + λ1 λ t−3 + λ1 λ2 t−4 + ... 3 3 2 λ2 ug t−3 = λ2 t−3 + λ1 λ t−4 + ... Für p=2, d.h. yet = yt c yt = (1−λ1 )(1−λ + t + (λ1 + λ2 )t−1 + (λ21 + λ1 λ2 + λ22 )t−2 + (λ31 + λ21 λ2 + λ1 λ22 + λ32 )t−3 + ... 2) c yt = (1−λ1 )(1−λ2 ) + t + ψ1 t−1 + ψ2 t−2 + ... allgemein: ψj = c1 λj1 + c2 λj2 mitc1 = λ1 λ1 −λ2 ; c2 = −λ2 λ1 −λ2 31 Quantitative Methoden – 7 Zeitreihenanalyse → c1 + c2 = 1 P Wenn |λ1 | < 1 und |λ2 | dann |ψ| < ∞ und AR(2) ist stationär Für AR(2): c E(yt = (1−λ1 )(1−λ + (1 + ψ1 + ψ2 + ...)E(t ) = 2) 2 Da (1 − φ1 z − φ2 z ) = (1 − λ1 z)(1 − λ2 z) Für alle z gilt, daher auch für z=1 (1 − φ1 − φ2 ) = (1 − λ1 )(1 − λ2 ) E(yt ) = 1−φ1c−φ2 c (1−λ1 )(1−λ2 ) Für p>2 Weiter mit AR(1) Rekursion mit |λj | < 1 yt = (1−λ1 )(1−λc 2 )...(1−λp ) + t + ψ1 t−1 + ψ2 t−2 + ... P ψj = c1 λj1 + c2 λj2 + ... +Pcp λjp mit cj = 1 Wenn |λj | < 1∇j dann |ψj | < ∞ → AR(p) stationär c E(yt ) = 1−φ1 −φ 2 ...φp 7.1.6 Unit-Root-Prozess (URP) Hier gelten andere Regeln der Statistik (andere Welt)= Standard-Statistik funktioniert nicht Unit Root= eine Nullstelle des Polynoms (1 − φ ∗ z − ... − φp ∗ z p ) ist 1 • AR(1) mit φ=1 ist ein spezieller URP • Permanenter Effekt vergangener Schocks • Regression von xt auf yt wenn beide URP ist problematisch • KQ-Eigenschaften (BLUE) gelten nicht mehr • E(yt ) und höhere Momente existieren nicht • ZGS, GGZ gelten nicht • Differenzenstationär: ∆yt = e c + wt (= M A(∞)) • Tests haben keine Standardverteilung • Ausnahmen wenn x un y kointegriert sind Kointegration: (xt ) und (yt ) sind kointegriert wenn URP, aber z = a1 ∗ xt + a2 ∗ yt mit z stationär Unit Root im AR(p) - was wenn λp = 1(zp = 1) Fall zp = 1 : zp ist die betragsmäßig kleinste Nullstelle von (1 − φ1 z − ... − φp z p ) 32 Quantitative Methoden – 7 Zeitreihenanalyse Was bedeutet das für den AR(p)? f1 t−1 + ψ f2 t−2 + ... mit: (1 − λL)yt = e c + t + ψ c e c = (1−λ1 )...(1−λ p−1 ) fj = c1 λj + ... + cp λj ψ 1 p−1 → (1 − L)yt = e c + wt mit: f1 t−1 + ψ f2 t−2 + ... wt = t + ψ P e Da ψ < ∞wenn |λ1 | ... |λp−1 | < 1 ist wt eine stationärer MA(∞) mit E(wt =0 Man muss aber beachten dass obiges vereinfacht, richtig wenn man oben ausmultipliziert: yt = e c + yt−1 + wt =Random Walk mit stationären Innovationen (nicht notwendigerweise unkorreliert) Letzte AR(1) Rekursion: yt = (1 + 1 + ...)e c + wt + wt−1 + wt−2 ..., d.h. der erste Teil geht gegen unendlich und E(yt ) existiert nicht. Problem der Scheinregression: (yt ) und (xt ) URP (z.B. unabhängige Random Walks): Regression yt = λ + β ∗ xt + t liefert unsinnige Ergebnisse (β sollte 0 sein, kann aber oft im t-Test nicht verworfen werden) → Test auf URP wichtig! Dicky-Fuller-Test: H0 : (yt ist URP HA : (yt ) nicht URP DF-Testidee: H0 : yt = yt−1 + t (wahrer Prozess ist URP), d.h. φ=1; AR(1)=Random Walk ohne Drift (Anmerkung: auch RW mit Drift möglich) Konstruktion einer Teststatistik im Regressionsmodell: yt = c + φ ∗ yt−1 + t ∆y = c + ρ ∗ yt−1 + t mitρ = φ − 1 b ρb → Schätzung der Parameter oben mit der KQ-Methode: φ; T-Test der Hypothese, dass φ=1 bzw. ρ=0 b φ−1 ρe τ = se(φ) , bzw. τ = se(ρ) Test ist einseitig: verwirft für kleine negative Werte Problem: wenn H0 korrekt, dann ist τ -Statistik keine bekannte Verteilung → Lösung: simulation der Verteilung von τ unter der H0 ; Tabulierung und Verwendung der simulierten Quantile Beispiele: 1) t-Verteilung: t0,05 =-1,645 im Vergleich mit DF-Verteilung: τ0,05 =-8,1, wobei τ in verschiedenen Varianten existiert = Fallweise Entscheidung notwendig 33 Quantitative Methoden – 7 Zeitreihenanalyse 2) SP500 H0 : SP500 ist ein URP 0,05 τ =-1,411; p-value=0,850; τkrit =-3,412 Die Nullhypothese, dass SP500 ein URP ist, kann auf dem 5% Signifikanzniveau nicht abgelehnt werden 3) Log Rendite der SP500 H0 : Log Rendite der SP500 ist ein URP 0,05 =-2,862 τ =-49,87; p-value=0,000; τkrit Die Nullhypothese kann auf jedem konventionellen Signifikanzniveau abgelehnt werden. 34