Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Statistik für Wirtschaftswissenschaftler Dr. Kilian Plank ehemals Wirtschaftswissenschaftliche Fakultät Universität Regensburg SS 2013 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 1/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Statistik 2, Induktive Statistik I 1. Einführung 2. Parameterschätzung 2.1 Schätzfunktion und Schätzwert 2.2 Eigenschaften von Schätzern Erwartungstreue Varianz des Schätzers Konsistenz des Schätzers 2.3 Zusammenfassung Punktschätzer 3. Intervallschätzung 3.1 Konfidenzintervall für den Erwartungswert µ Fall 1 Fall 2 Fall 3 und 4 3.2 Konfidenzintervall für den Anteilswert π 4. Testen von Hypothesen 4.1 Test von Erwartungs- und Anteilswert 4.2 Median Test 4.3 χ2 Tests χ2 Anpassungstest Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 2/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Statistik 2, Induktive Statistik II χ2 Unabhängigkeitstest 4.4 Vergleich von Mittelwerten/Anteilswerten 4.5 Test auf Korrelation 4.6 Varianzanalyse 5. Regressionsanalyse 5.1 Beispiele 5.2 Ordinary Least Squares 5.3 Modellgüte 5.4 Hypothesentests 5.5 Prognosen 6. Varianzanalyse Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 3/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Statistik 2 - Überblick Vorlesung Statistik 2 Übungen (siehe Aushang) regulär Excel Zusatzkurs Übung für ausländische Studenten Repetitorium zu Statistik 1 Marterial und Information über e-Learning (GRIPS) Literatur: Fahrmeir (2007/2010), Statistik - Der Weg zur Datenanalyse. Springer. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 4/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Übersicht 1. Einführung 2. Parameterschätzung 3. Intervallschätzung 4. Testen von Hypothesen 5. Regressionsanalyse 6. Varianzanalyse Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 5/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Wiederholung Hauptthema von Statistik 1 =⇒ Charakterisierung von Verteilungen 0.6 0.4 0.2 0.0 rel. Häufigkeit 0.8 1.0 Beispiel Merkmalsausprägung Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 6/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Differenzierung der Charakterisierung Diese Charakterisierung kann in verschiedener Hinsicht vorgenommen werden: univariater oder multivariater Datensatz vollständige oder teilweise Charakterisierung der Verteilung vollständige Erhebung der Population oder Stichprobe (teilweise Erhebung) empirische oder theoretische Verteilungen empirische oder theoretische Maßzahlen bzw. Statistiken diskrete oder stetige Variablen Die einzelnen Aspekte nun im Detail: univariater Datensatz multivariater Datensatz Ein Merkmal bzw. eine Variable wird erhoben. Im Fokus steht die Randverteilung. Dr. Kilian Plank Mehrere Merkmale werden erhoben. Im Fokus steht die gemeinsame Verteilung bzw. die Abhängigkeiten. Statistik für Wirtschaftswissenschaftler 7/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Unterscheidung von vollständiger und teilweiser Charakterisierung teilweise Charakterisierung vollständige Charakterisierung Momente / Kennzahlen / Maße / Parameter Tabelle/(Ur)liste Funktion Wahrscheinlichkeitsfunktion f (x) Häufigkeitsfunktion Kum. Verteilungsfunktion F (x) Graph Säulendiagramm Histogramm Treppenfunktion Streudiagramm Mittelwert Varianz/Standardabweichung Schiefe Kurtosis Gini-Koeffizient Kovarianz/Korrelationskoeffizient Verdichtung / Klassierung Funktion Graph Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 8/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Unterscheidung nach dem Umfang der Erhebung Vollerhebung Teilerhebung (Stichprobe) Ein oder mehrere Merkmale werden von allen Elementen der Grundgesamtheit (= Population) erhoben Beispiele Ein oder mehrere Merkmale werden von einem Teil der Population erhoben Beispiele 1000 deutsche Bundesbürger werden zu ihrem Wahlverhalten befragt 50 Erstsemestler werden zu ihrer Meinung zum Studium befragt alle Bundesbürger alle Studenten alle BWL-Studenten des ersten Semesters Dies führt zum Hauptproblem der Statistik, nämlich: (Rück)schlüsse (= Inferenz) auf die Verteilung (bzw. die Verteilungsmomente) eines oder mehrerer Merkmale in der Population basierend auf der Verteilung bzw. den Momenten in der Stichprobe Beispiele: SP-Standardabw. s → Standardabw. σ arith. Mittel x̄ → Erwartungswert µ Histogramm → wahre Verteilung Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 9/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse 0.14 Unterscheidung von empirischer und theoretischer Verteilung f(x) 0.00 0.02 0.04 0.06 0.08 0.10 0.12 empirisch theoretisch 0.9 1.0 1.1 1.2 1.3 x empirisch theoretisch Funktion folgt aus den erhobenen Daten wird die Darstellung abgeleitet Funktion folgt aus ex-ante festgelegter mathematischer Formel Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 10/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Unterscheidung von empirischer und theoretischer Verteilung empirische Verteilung theoretische Verteilung Verwendung wenn konkrete Daten vorliegen X Y 1 5 10 2 12 7 3 2 14 .. .. .. . . . Dr. Kilian Plank Verwendung wenn konkrete Daten nicht vorhanden sind bzw. ein Modell konstruiert wird Berücksichtigung von Annahmen bzw. Erfahrungswerten (z.B. aus der Vergangenheit). Man wählt dann eine theoretische Verteilung zur Approximation der wahren Verteilung, die deren Charakteristika möglichst gut nachbildet (z.B. Noten in einem Fach folgen oft einer Normalverteilung). Statistik für Wirtschaftswissenschaftler 11/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Unterscheidung von empirischer und theoretischer Verteilung Funktionale Darstellung empirische Verteilung theoretische Verteilung relative Häufigkeitsfunktion 0.1 für x = a1 f (x) = 0.2 für x = a2 .. . die theor. Verteilungsfunktion wird vorgegeben bzw. angenommen, z.B. Normalverteilung (x−µ)2 f (x) = kumulative Häufigkeitsverteilung für x < 0 0.1 für ≤ x < F (x) = 0.3 für ≤ x < .. . Dr. Kilian Plank F (x) = −1 √ 1 e 2 σ2 2πσ 2 Rx f (t)dt → −∞ Statistik für Wirtschaftswissenschaftler → Dichte Tabelle 12/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Unterscheidung von empirischer und theoretischer Verteilung Momente empirische Momente theoretische Momente arithmetisches Mittel: x, y Stichproben-Standardabweichung s Häufig können die Momente über eine Formel berechnet werden Für die Normalverteilung gilt etwa Mittelwert: µ Varianz: σ 2 Die NV hat die schöne Eigenschaft, dass die ersten beiden Momente direkt als Parameter in die Funktion eingehen. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 13/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Unterscheidung von empirischer und theoretischer Verteilung Wertebereich des Merkmals Unterscheide: je nach Merkmal diskrete theoretische Verteilung z.B. Binomialverteilung, Poissonverteilung stetige theoretische Verteilung 0.5 1.0 z.B. Normalverteilung, χ2 Verteilung, Student-t Verteilung, F Verteilung 0.1 0.2 f(x) 0.3 0.4 Normal−Verteilung χ2−Verteilung Student t−Verteilung 0.0 0.2 0.4 f(x) 0.6 0.8 Binomial Poisson 0.0 theoretisch 0 1 2 3 4 5 6 7 −10 −5 x Dr. Kilian Plank 0 5 10 x Statistik für Wirtschaftswissenschaftler 14/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Empirische vs. Theoretische Verteilung Wertebereich des Merkmals empirisch auch hier kann das Merkmal stetig oder diskret sein Die Daten liegen aber immer als diskrete Beobachtungen vor. Ist das Merkmal stetig (z.B. Wasserstand eines Flusses, Aktienrenditen), werden sog. Klassen gebildet und zugehörige rel. Häufigkeiten, was einer quasi-Diskretisierung entspricht. 0.14 Histogramm 0.00 0.02 0.04 f(x) 0.06 0.08 0.10 0.12 empirisch theoretisch 0.9 1.0 1.1 x Dr. Kilian Plank 1.2 1.3 Statistik für Wirtschaftswissenschaftler 15/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Übersicht 1. Einführung 2. Parameterschätzung 2.1 Schätzfunktion und Schätzwert 2.2 Eigenschaften von Schätzern Erwartungstreue Varianz des Schätzers Konsistenz des Schätzers 2.3 Zusammenfassung Punktschätzer 3. Intervallschätzung 4. Testen von Hypothesen 5. Regressionsanalyse 6. Varianzanalyse Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 16/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Parameterschätzung 2 Parameterschätzung 2.1 Schätzfunktion und Schätzwert Hintergrund Vorgehen Schätzer Gewinnung von Information über eine Population (= Grundgesamtheit) ohne alle Elemente der Population zu untersuchen. 1 Stichprobe erheben (z.B. Aktienkurse) 2 Daten aufbereiten (z.B. Daten klassieren) 3 Statistiken bzw. Schätzer berechnen (z.B. arith. Mittel) 4 Statistiken beurteilen (NEU!) Ein Schätzer (Schätzstatistik) ist eine Statistik bzw. eine Funktion der Daten, die möglichst genaue Rückschlüsse auf den wahren Wert in der Population erlaubt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 17/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Parameterschätzung Beispiel Die Aktienkurse der Allianz AG der letzten 4 Tage (also eine Teilerhebung) wurden aufgezeichnet: Zeit(t) 1 2 3 4 .. . Kurs xt 124.7 127.2 130.3 125.2 .. . ⇒ Schätzer für den Erwartungswert für n = 4: x= Frage n 1X xt = 126.85 n t Ist x = 126.85 eine gute Schätzung für den wahren Wert? Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 18/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Parameterschätzung Mögliche Probleme Stichprobe ist nicht repräsentativ (kurzfristige Marktstörung vs. Strukturbruch) 145 Zeitreihe ist zu kurz oder zu lang 130 125 120 115 110 Kurs 135 140 Aktie A 0 20 40 60 80 100 Zeit Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 19/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 1 Beispiel 1 Merkmal X bezeichne das Einkommen in einem 4-Kopf Unternehmen in TSD EUR (vgl. Kugeln in einer Urne) X ∈ {20, 22, 80, 90} Mittleres Einkommen in der Population: µ = 14 (20 + 22 + 80 + 90) = 53 Schätzung des wahren Mittelwertes in der Population durch Anwendung eines Schätzers auf eine Stichprobe der Größe n = 2 Die Schätzstatistik (Schätzer, Schätzfunktion) ist von der gezogenen Stichprobe abhängig. Sie hat eine Varianz und ist somit selbst eine Zufallsvariable. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 20/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 1 SP-Größe n=2 Die Schätzstatistik hat folgende mögliche Realisierungen: x1 = 21 (20 + 22) = 42 2 x2 = 21 (20 + 80) = 100 2 = 50 x3 = 21 (20 + 90) = 110 2 = 55 x4 = 21 (22 + 80) = 102 2 = 51 x5 = 21 (22 + 90) = 112 2 = 56 x6 = 21 (80 + 90) = 170 2 = 85 = 21 Befragt man lediglich Personen aus der Chefetage, so ist die Stichprobe nicht mehr repräsentativ. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 21/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Schätzer und Schätzung Begriffe Ein Schätzer ist eine Funktion der Daten (d.h., der Beobachtungen aus einer Stichprobe), mit deren Hilfe eine Populationsparameter geschätzt werden soll. Eine Schätzung ist der konkrete Wert eines Schätzers für eine konkret erhobene Stichprobe. Die Realiserung der Variablen X im Rahmen der Stichprobe führt zu einer Realiserung des Schätzers. Schätzfunktion/Schätzer: T = g(X1 , X2 , X3 , . . . , Xn ) | {z } gezogene Stichprobe Schätzwert/Schätzung: t = g(x1 , x2 , x3 , . . . , xn ) | {z } Realisation des ZV Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 22/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 1: Kleine SP Beispiele für Schätzer arithmetisches Mittel für den Erwartungswert µ x= n 1 X · xi n i=1 Stichprobenvarianz für die Populationsvarianz σ 2 s2 = Kleine SP n=1 n X 1 · (xi − x)2 n − 1 i=1 mögliche Schätzungen für n = 1 (vgl. weiter oben n = 2): x1 x2 x3 x4 = = = = 20 22 80 90 Die Schätzwerte für µ streuen breit zwischen 20 u. 90. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 23/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 1: Große SP Große SP n=3 mögliche Schätzungen für n = 3: x1 = 1 (20 3 + 22 + 80) = 40.6 x2 = 1 (20 3 + 22 + 90) = 44 x3 = 1 (20 3 + 80 + 90) = 63.3 x4 = 1 (22 3 + 80 + 90) = 64 Schätzwerte für µ zwischen 40.6 und 64. Fazit Der Schätzer wird für große n immer genauer, d.h. er schwankt mit wachsendem n immer weniger um den wahren Wert. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 24/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 1: Zusammenfassung rel. Häufigkeit v. x n=1 n=2 n=3 n=3 n=2 n=1 1/6 1/4 µ=53 0 21 40.6 20 40 50 5355 63.3 60 85 80 100 x Literatur 1 Realisationen x̄ liegen um µ herum. 2 Für wachsende SP-Größe n nimmt die Varianz des Schätzers x ab. Fahrmeir Kapitel 9.1 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 25/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 1: Einkommen im 4-Kopf Unternehmen Population 4 Kopf Unternehmen Merkmal Einkommen (X) Populationsparameter Erwartungswert µ = E (X) Schätzer arithm. Mittel X̄ als Schätzer für µ basierend auf SP der Größe n = 2. Erkenntnis x variiert je nach zufällig gewählter Stichprobe (SP). x erreicht den wahren Wert µ für n = 4. x variiert immer weniger bzw. weicht immer weniger von µ ab, je größer n wird. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 26/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 2: Aktienkurs Aktienkurs 30 Merkmal SP2 20 10 15 Kurs 25 SP1 0 20 40 k 60 80 T 100 Zeit t Gesucht Stichprobenlänge Erkenntnis µ (Populationsparameter) geschätzt durch X̄ (Schätzer) Stichprobe 1 der Länge T − k Tage Stichprobe 2 der Länge T Tage Welche SP ist nun repräsentativ für das Niveau des Aktienkurses? Stichwort Strukturbruch. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 27/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel 3: Einkaufshäufigkeiten Gesucht Erwartungswert E (X) der Variable X: ’Einkaufshäufigkeit’ in einem Stadtviertel Daten SP der Größe n = 1000 Schätzer X̄ = Schätzung x̄ = 1 1000 1 1000 · P1000 i=1 Xi · (1 + 2 + 2 + 2 + . . . + 0 + 3 + 1) | {z } 1000 Summanden Die Summanden sind die Einkaufshäufigkeiten der befragten Personen. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 28/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Eigenschaften von Schätzern 2.2 Eigenschaften von Schätzern Schätzer sind Funktionen, mit denen man das Ziel verfolgt, möglichst viel Information aus den Daten herauszuholen“, um möglichst nah an den ” gesuchten Populationsparameter heranzukommen. Es stellt sich somit etwa die Frage Wie gut schätzt z.B. X̄ den Populationsparameter µ = E (X)? Wie gut schätzt s2 die Populationsvarianz σ 2 ? Erzielt man mit X̄ überhaupt im Mittel (bei wiederholter SP-Ziehung und Schätzung) den wahren Parameter? Letztere Frage ist leicht beantwortbar. n n 1 X 1 X 1 E X̄ = E( · Xi ) = · E (Xi ) = · n · µ = µ = E (X) n i=1 n i=1 | {z } n =µ Der Erwartungswert von X̄ entspricht dem Populationswert µ. Im Mittel erhält man also durch X̄ Werte um µ herum. Wir fragen nun etwas allgemeiner nach solchen Eigenschaften von Schätzern. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 29/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Eigenschaften von Schätzern Schätzer sind ZV X̄ bzw. jeder Schätzer T ist abhängig von der gezogenen SP und ist somit selbst eine ZV, d.h. die Realisierungen von T , bezeichnet mit t, variieren je nach SP. T hat somit ebenfalls eine Verteilung, die natürlich auch wieder durch Momente (Erwarungswert, Varianz, etc.) beschrieben werden kann. Beispiel 1 (Einkommen im 4-Kopf Unternehmen) X ∈ {20, 22, 80, 90} (Einkommen) Erwartungswert: µ = 1 4 · (20 + 22 + 80 + 90) = 53 Schätzer: T = x ergab unterschiedliche Realisierungen je nach SP Stabdiagramm der Verteilung von X Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 30/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Eigenschaften von Schätzern Stabdiagramm rel. Häufigkeit v. x n=1 n=2 n=3 n=3 n=2 n=1 1/6 1/4 µ=53 0 21 40.6 20 40 50 5355 63.3 60 85 80 100 x 1 Realisationen x̄ liegen um µ herum. 2 Für wachsende SP-Größe n nimmt die Varianz des Schätzers X ab. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 31/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Eigenschaften von Schätzern Schätzereigenschaften sind aus unterschiedlichen Gründen relevant. Ein Populationsparameter kann häufig mit verschiedenen Schätzern geschätzt werden. Diese unterscheiden sich u.U. hinsichtlich der impliziten Schätzunsicherheit (d.h., z.B. der Stärke ihrer Streuung). Die Eigenschaften eines Schätzers hängen zusammen mit seiner Verteilung. Letztere benötigt man, um Unsicherheitsaussagen bzgl. einer Schätzung zu machen. Beispiel 2 σX , die Varianz von X in der Population kann geschätzt werden mit Mittlere quadratische Abweichung (MQA): P 2 s2∗ = n1 · n i=1 (xi − x) (nicht erwartungstreu) Stichprobenvarianz: P 2 1 s2 = n−1 · n i=1 (xi − x) (erwartungstreu) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 32/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Erwartungstreue allgemein 2.2.1 Erwartungstreue Gilt t(x) ≈ E (t(x)) = θ, so ist t(x) erwartungstreu für θ. Dr. Kilian Plank 0.8 0.6 0.4 Bestimme den Mittelwert der Schätzungen: P (k) 1 · m ). t(x) = m k=1 t(x Dichte von T1 / erwartungstreu Dichte von T2 / biased 0.2 Berechne für jede Stichprobe die Statistik (den Schätzer) t(x(k) ). 1.0 Erwartungstreue und Bias Wir ziehen m Stichproben der Größe n. SP k(k = 1, · · · , m) sei bezeichnet durch x(k) = (x1k , · · · , xnk ). m sei groß. Bias 0.0 Vorgehen −4 −2 0 Statistik für Wirtschaftswissenschaftler 2 θ 4 33/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Erwartungstreue erwartungstreu bzw. unverzerrt im Mittel erhält man Schätzungen um θ erwartungstreu/unverzerrt E (T1 ) = θ nicht erwartungstreu bzw. verzerrt im Mittel erhält man Schätzungen, die von θ systematisch abweichen (z.B. systematisch kleiner) nicht erwartungstreu/verzerrt E (T2 ) 6= θ Bias = E (T2 ) − θ > 0 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 34/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Erwartungstreue Beispiel 1 (Einkommen im 4-Kopf Unternehmen) Erwartungswert der Verteilung von X̄ für n = 2. Verteilung von T = x t 21 50 51 55 56 85 f (T = t) 1 6 1 6 1 6 1 6 1 6 1 6 Frage: Wird der wahre Wert µ = 53 im Mittel erreicht? Antwort: ja, denn: E (T ) = 16 · 21 + 16 · 50 + . . . + 61 · 85 = 53 Somit gilt: T = x ist unverzerrt bzw. erwartungstreu bzgl. µ Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 35/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiele für erwartungstreue und nicht erwartungtreue Schätzer Schätzung von σ 2 Schätzung von µ P T1 = n1 · n i=1 Xi P E X̄P= E n1 n i=1 Xi = n1 n i=1 E (Xi ) = n1 · n · µ = µ T3 = s2∗ = 1 n · Pn i=1 (xi − x)2 E (T3 ) 6= σ 2 → verzerrt P 2 1 T4 = s2 = n−1 · n i=1 (xi − x) → unverzerrt P T2 = n1 · n i=1 Xi − 1 P 1 E (T2 ) = n · n i=1 E (Xi ) − 1 =µ−1 E (T4 ) = σ 2 → unverzerrt → systematische Abweichung / verzerrt Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 36/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer 1.0 Erwartungstreue und Varianz des Schätzers 0.2 0.4 0.6 0.8 Dichte von T1 / erwartungstreu Dichte von T2 / biased 0.0 Bias −4 Folgerung −2 0 2 θ 4 T1 offenbar besser als T2 T2 unterschätzt θ systematisch aber T2 hat kleinere Varianz als T1 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 37/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Effizienz des Schätzers Dichte von T1 / erwartungstreu Dichte von T2 / erwartungstreu Dichte von T3 / biased 0.2 0.4 0.6 0.8 1.0 2.2.2 Varianz des Schätzers 0.0 Bias −4 effiziente Schätzer −2 0 θ 2 4 man bevorzugt Schätzer mit niedriger Varianz, d.h. sog. effizientere Schätzer, da sie die Daten effizienter verarbeiten Trade-Off zw. Erwartungstreue und Effizienz Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 38/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Mean Squared Error Definition MSE ist ein zentrales Maß zur Beurteilung von Schätzern. MSE gibt den wahren Schätzfehler an. Definition: MSE = E (T − θ)2 MSE = E (T − E (T ))2 + (E (T ) − θ)2 2 MSE = V (T ) + Bias Der mittlere quadratische Fehler MSE (“Mean Squared Error”) zeigt den Trade-Off zwischen Bias und Varianz. Frage: Wie lautet der MSE von T = X̄? (E (T ) − θ)2 = 0 V (T ) = V X̄ = V MSE = 1 n P i Xi = 1 2 σ n 1 2 σ n Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 39/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel zur Effizienz Beispiel zur Effizienz Sei X eine poissonverteilte Zufallsvariable mit Parameter λ. X ∼ P (λ) Wir wissen, dass E (X) = λ V (X) = λ Folglich kann λ über T1 := X̄ oder auch über T2 := S 2 geschätzt werden. Man kann zeigen, dass in diesem Fall MSE(T1 , θ) < MSE(T2 , θ) Folglich ist T1 effizienter für λ als T2 . Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 40/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Konsistenz des Schätzers 2.2.3 Konsistenz des Schätzers Wie verhält sich der Schätzer für n → ∞? n=50 n=100 n=1000 0.2 0.4 0.6 0.8 1.0 Frage 0.0 θ −4 Konsistenz −2 0 2 4 MSE → 0 für n → ∞ Eine wichtige theoretische Eigenschaft denn Schätzer sind in kleinen SP oft verzerrt Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 41/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Zusammenfassung Punktschätzer 2.3 Zusammenfassung Modell mit Zurücklegen (MmZ) Mittelwert Anteilswert θ µ π Varianz σ2 T X X s2 s2∗ E(T ) µ π σ2 n−1 2 σ n V(T ) σ2 n σ2 n 1 2σ 4 n−1 2(n−1) 4 σ n2 Verteilung von T 2 X ∼ N (µ, σn ) nT ∼ B(n, π) n−1 2 s ∼ χ2 (n − 1) σ2 n 2 s ∼ χ2 (n − 1) σ2 ∗ Verteilung von T für X ∼ N (µ, σ 2 ) Unterscheide Schätzer für die Varianz (z.B. s2 oder s2∗ ) und Varianz eines Schätzers (V(X), V(P ), V(s2 ), V(s2∗ )) Stichprobenmodelle: Modell mit Zurücklegen (MmZ) und Modell ohne Zurücklegen (MoZ) Punktschätzer und Intervallschätzer (kommen später) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 42/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Zusammenfassung Punktschätzer Modell ohne Zurücklegen (MoZ) θ T E(T ) Mittelwert µ X µ Anteilswert π X s2 s2∗ π Varianz σ2 N σ2 N −1 N n−1 2 σ N −1 n V(T ) σ2 n σ2 n N −n N −1 N −n N −1 — — Verteilung von2 T −n X ∼ N µ, σn N N −1 nT ∼ H(n, N, N · π) — — Verteilung von T für X ∼ N (µ, σ 2 ), H bezeichnet die hypergeometrische Verteilung. Schätzer wie im MmZ Korrekturfaktoren bei Schätzervarianzformeln V(X) und V(P ): E(s2∗ ) und E(s2 ): N −n N −1 N N −1 → kleinere Varianz als bei MMZ → nur asymptotisch unverzerrt Ist die GG endlich, so sind die bekannten Varianzschätzer stets verzerrt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 43/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel: Stichprobenmodell ohne Zurücklegen Beispiel 1 (4-Kopf Unternehmen), MoZ n=1 x ∈ {20, 22, 80, 90} E X = 14 · (20 + 22 + 80 + 90) = 53 V X = 41 · (202 + 222 + 802 + 902 ) − 532 = 1037 n=2 x ∈ {21, 50, 51, 55, 56, 85} E X = 16 · (21 + · · · + 85) = 53 V X = 61 · (212 + · · · + 852 ) − 532 = 345.66 n=3 x ∈ 40.6, 44, 63.3, 64 1 E X = 4 · (40.6 + · · · + 64) = 53 2 V X = 41 · (40.6 + · · · + 642 ) − 532 = 115.02 n=4 x ∈ {53} E X = 53 V X =0 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 44/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel: Stichprobenmodell ohne Zurücklegen Beispiel 1, MoZ, Fortsetzung Varianz des Schätzers X̄: V ar(X) = σ 2 N −n n N −1 wobei σ 2 = 1037 und N = 4 n = 3: V ar(X) = 1037 4−3 3 4−1 = 1037 1 3 3 = 115.2 n = 2: V ar(X) = 1037 4−2 2 4−1 = 1037 2 2 3 = 345.6 n = 1: V ar(X) = 1037 4−1 1 4−1 = 1037 Fazit: Man sieht, die Werte (Berechnung über Formel und Berechnung aus den möglichen Schätzerrealisationen) stimmen überein. Frage Wie müsste obiges Einkommensbeispiel verändert werden, damit es sich um ein MmZ handelt? Antwort jede Person kann mehrmals befragt werden Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 45/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel: Stichprobenmodell mit Zurücklegen Beispiel 1 (4-Kopf Unternehmen), MmZ n=1 x ∈ {20, 22, 80, 90} E X = 14 · (20 + 22 + 80 + 90) = 53 V X = 41 · (202 + 222 + 802 + 902 ) − 532 = 1037 n=2 x ∈ {20, 22, 50, 51, 55, 56, 80, 85, 90} 21, 1 2 E X = 16 · (20 + 22 + 80 + 90) + 16 · (21 + 50 + 51 + 55 + 56 + 85) = 53 1 2 2 2 V X = 16 · (20 + 21 + 21 · · · + 902 ) − 532 = 518.5 n=3 x ∈ {· · · } E X =? V X =? n=4 x ∈ {53} E X = 53 V X =0 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 46/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Schätzfunktion und Schätzwert Eigenschaften von Schätzern Zusammenfassung Punktschätzer Beispiel: Stichprobenmodell mit Zurücklegen Beispiel 1, MmZ, Fortsetzung Varianz des Schätzers X̄: V ar(X) = σ2 n wobei σ 2 = 1037 n = 2: V ar(X) = n = 1: V ar(X) = 1037 2 1037 1 = 1037 2 = 518.5 = 1037 Fazit: Man sieht auch hier, die Werte (Berechnung über Formel und Berechnung aus den möglichen Schätzerrealisationen) stimmen überein. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 47/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Übersicht 1. Einführung 2. Parameterschätzung 3. Intervallschätzung 3.1 Konfidenzintervall für den Erwartungswert µ Fall 1 Fall 2 Fall 3 und 4 3.2 Konfidenzintervall für den Anteilswert π 4. Testen von Hypothesen 5. Regressionsanalyse 6. Varianzanalyse Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 48/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervallschätzung 3 Intervallschätzung Grundgedanken zur Intervallschätzung Der Punktschätzer T liefert eine Punktschätzung t(x1 , ..., xn ) für θ. Die Varianz des Schätzers kann als Maß für seine Genauigkeit interpretiert werden (einen möglichen Bias dabei ausgeschlossen). Optimalerweise kennt man nicht nur die Varianz sondern die Verteilung von T . Dies ist jedoch regelmäßig nicht der Fall, da sie vom unbekannten Parameter θ abhängt. Im Beispiel des Einkommens im 4-Kopf Unternehmen konnte man die Verteilung von T nur deswegen angeben, weil man die Grundgesamtheit und somit θ kannte. θ soll aber gerade geschätzt werden. Einen Ausweg bietet die Intervallschätzung in Verbindung mit der Normalverteilung. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 49/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π 0.5 Intervallschätzung - Beispiel Dichte von X 0.1 0.2 f(x) 0.3 0.4 Beispiel Verteilung Aktienrendite 0.0 x(1) −10 −5 x(3) x(2) µ 0 5 10 x Gesucht: µ. Gegeben: σ 2 oder s2 . Die Darstellung zeigt die (unbekannte) Verteilung von X sowie drei Punktschätzungen x für µ. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 50/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervallschätzung - Beispiel Zentrale Frage Lösung 1 Wie verlässlich ist x? 2 Wie sicher kann man sein, dass die Schätzung nicht allzu weit vom wahren Wert entfernt ist? Gesucht ist daher ein Intervall um x, in dem der wahre Wert θ mit einer gewissen Wahrscheinlichkeit 1 − α liegt. bzw. exakt gesprochen: Gesucht ist ein Intervall in dem der wahre Wert θ im Mittel nur in α Prozent der Stichproben (bei wiederholter Stichprobenziehung) nicht liegt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 51/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervallschätzung - Definitionen und Begriffe Definition: Irrtumswahrscheinlichkeit α wird als Irrtumswahrscheinlichkeit bezeichnet. 1 − α wird als Konfidenzniveau bezeichnet. Definition: Konfidenzintervall (KI) Das Intervall [gu , go ] wird als Vertrauensintervall bzw. Konfidenzintervall bezeichnet. Formale Beschreibung: P (Gu ≤ θ ≤ Go ) = 1 − α Die Intervallgrenzen Gu und Go (Gu < Go ) hängen von der Schätzfunktion T und somit von der Stichprobe ab. Sie sind also ebenso ZV und liefern für eine konkrete Stichprobe (x1 , . . . , xn ) eine Realisierung gu bzw. go . Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 52/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Ermittlung der Intervallgrenzen (u) (o) 10 Suche nach den µ0 und µ0 so dass x̄ mit höchstens α/2 bzw. mit mindestens 1 − α/2 Wkt. auftritt. 0.2 6 Schätzwert 0.3 8 0.4 0.5 2 Annahme: Xi ∼ N (µ, σ 2 ). D.h. das Merkmal in der Population is normalverteilt mit den Parametern µ und σ 2 . ● ● ● ● ● ● ● 4 1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 0.1 ● 0 Lösung Wie kann man nun gu und go für eine konkrete Stichprobe berechnen, basierend auf P (Gu ≤ θ ≤ Go ) = 1 − α? 0.0 Frage 26 28 (u) µ0 30 x 32 (o) µ0 Dr. Kilian Plank 34 5 10 15 20 # Wdh. des Zufallsvorgangs Statistik für Wirtschaftswissenschaftler 53/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für µ, Fall 1 Annahmen 3.1 Intervallschätzer für den Erwartungswert 3.1.1 Fall 1 Annahmen X ∼ N (µ, σ 2 ), wobei µ unbekannt/zu schätzen σ 2 bekannt Dann gilt X ∼ N (µ, σ2 ) n X −µ bzw. q ∼ N (0, 1) | {z } 1 2 σ n Standard NV | {z } Z denn 1 E(Z) = √ 1 n V(Z) = σ2 1 1 σ2 n (E(X) − µ) = 0 (V(X) − 0) = 1 → Vgl. FS S. 25 (Rechenregeln und Eigenschaften von Erwartungswerten) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 54/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für µ, Fall 1 Ansatz und Berechnung Ansatz P −z1− α2 ≤ X−µ √1 σ n ≤ z1− α2 =1−α z1− α2 und −z1− α2 sind die symmetrischen α2 Quantile (Ober- und Untergrenze der roten Bereiche) der Standard NV. Umstellung der Ungleichung ergibt: 1 − α = P(−z1− α2 ≤ = P(X − z1− α2 X −µ ≤ z1− α2 ) √1 σ n σ σ √ ≤ µ ≤ X + z1− α2 √ ) n n Konfidenzintervall, Fall 1 σ σ x − z1− α2 √ , x + z1− α2 √ = [gu , go ] n n Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 55/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Beispiel, Fall 1 Beispiel: Einkommen im Milieu Schätzung des mittleren Einkommens X in einem bestimmten Milieu. x = 300 Euro α = 0.1 σ = 10000 KI für n = 1000 10000 10000 300 − 1.65 √ ; 300 + 1.65 √ = 300 − 521; 300 + 521 1000 1000 = [29478; 30521] = x ± 521 KI für n = 100 0 30 − 1650; 300 + 1650 = [28350; 31650] = x ± 1650 KI für n = 10 0 30 − 5217.75; 300 + 5217.75 = [24782; 35217] = x ± 5217.75 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 56/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für µ, Fall 1 Merke Die Intervallbreite kann beeinflußt werden durch: α: wenn größer ⇒ Intervall kleiner n: wenn größer ⇒ Intervall kleiner 3.1.2 Fall 2 Bislang war σ 2 bekannt. Ist σ 2 jedoch unbekannt, muß es geschätzt werden. Ein erwartungstreuer Schätzer ist s2 . Annahmen X ∼ N (µ, σ 2 ), wobei µ unbekannt/zu schätzen σ 2 unbekannt, muss durch s2 geschätzt werden Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 57/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für µ, Fall 2 Ansatz Im Ansatz für das KI werden die Quantile der NV durch die der Student-t Verteilung ersetzt. ! X −µ 1 − α = P −t1− α2 ≤ 1 ≤ t1− α2 √ s n Begründung Die z-Quantile wurden durch t-Quantile ersetzt, weil X−µ nicht mehr normal verteilt ist. √1 s n Grund: Zufallsvariable ’s’ im Nenner Es gilt daher: X−µ √1 s ∼ t(n − 1) n In Worten: Student-t verteilt mit n-1 ” Freiheitsgraden“ Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 58/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Gaussdichte t−Dichte mit 1 Freiheitsgrad t−Dichte mit 10 Freiheitsgraden 0.0 0.1 0.2 0.3 0.4 0.5 Student-t Verteilung 0.6 Intervall für µ, Fall 2 −4 Eigenschaften 1 2 −2 0 2 4 nur ein Parameter ν ( Freiheitsgrade“) ” symmetrisch um Null 3 dickere Tails als die NV, da höheres Schätzrisiko aufgrund der Schätzung von σ 2 4 konvergiert gegen die NV für ν → ∞ Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 59/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für µ, Fall 2 Außer dem Ersatz von σ durch s und der Normalverteilung durch die t-Verteilung ändert sich nichts am formalen Aussehen des Intervalls. Konfidenzintervall, Fall 2 s s x − t1− α2 (n − 1) √ , x + t1− α2 (n − 1) √ n n Freiheitsgrade Die Student-t Verteilung wird durch die Anzahl der Freiheitsgrade ν = n − 1 charakterisiert. Quantile für unterschiedliche ν und α sind in der FS tabelliert (FS S. 79). Beispiel (Einkommen im Milieu) α = 0.1, n = 10 s wird geschätzt, sei aber zufällig gleich σ ⇒ t1− α2 (10 − 1) = 1.833 > 1.65 = z1−α/2 ⇒ KI: [x̄ ± 5796] (> [x̄ ± 5217] wenn σ 2 bekannt) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 60/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für µ, Fall 3 und 4 3.1.3 Fall 3 und 4 Besonderheiten von Fall 3 und 4: Zentraler Grenzwertsatz Fall 3 und 4 sind allgemeiner als Fall 1 und 2, weil die Verteilung von X in der Grundgesamtheit nicht bekannt sein muss. Dafür muss jedoch gelten: n > 30. Für n > 30 kann man aufgrund des zentralen Grenzwertsatzes folgende Verteilungsannahme treffen (falls Unabhängigkeit vorraussetzbar): σ2 ) n Daraus ergeben sich zwei verschiedene Fälle! X ∼ N (µ, Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 61/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für µ, Fall 3 und 4 Konfidenzintervall: Fall 3 wenn σ 2 bekannt ist KI: σ σ √ , x + z1− α2 √ n n s s x − z1− α2 √ , x + z1− α2 √ n n x−z 1− α 2 Konfidenzintervall: Fall 4 wenn σ 2 unbekannt ist wird es durch s2 geschätzt KI: Aufgrund des ZGWS bleiben die z-Quantile erhalten. Der Schätzfehler durch die Schätzung von s2 hat verschwindenen Einfluss. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 62/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Zentraler Grenzwertsatz (ZGWS) Im Fall 3 und 4 kam man bei der Berechnung des Intervalls ohne Verteilungsannahme bezüglich X aus. Dies war möglich aufgrund des zentralen Grenzwertsatzes. Zentraler Grenzwertsatz (ZGWS) Es sei n > 30 und die Stichprobenvariablen X1 , . . . , Xn seien beliebig aber identisch verteilt und unabhängig. Dann gilt: X −µ √σ n Fall 4 a ∼ N (0, 1) Im Fall 4 ist das σ im Nenner nicht bekannt und muss über s geschätzt werden. Für n > 30 fällt die Schätzunsicherheit von s2 nicht ins Gewicht. Somit kann auch hier die Normalverteilung approximativ verwendet werden. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 63/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π 0.12 0.25 Zentraler Grenzwertsatz am Beispiel 4-Kopf Unternehmen 0.08 0.06 Relative Häufigkeit 0.00 0.00 0.02 0.04 0.20 0.15 0.10 0.05 Relative Häufigkeit Empirische Schätzerverteilung (n=5) Theoretische Schätzerverteilung 0.10 Empirische Schätzerverteilung (n=1) Theoretische Schätzerverteilung 20 30 40 50 60 70 80 90 20 30 40 50 70 80 90 Empirische Schätzerverteilung (n=30) Theoretische Schätzerverteilung 0.06 0.04 0.00 0.00 0.02 0.02 0.04 Relative Häufigkeit 0.08 0.06 Empirische Schätzerverteilung (n=20) Theoretische Schätzerverteilung Relative Häufigkeit 60 x 0.10 x 30 40 50 60 x Dr. Kilian Plank 70 80 30 40 50 60 70 x Statistik für Wirtschaftswissenschaftler 64/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Zusammenfassung Intervallschätzung Punktschätzer Jeder Schätzer T (X1 , . . . , Xn ) ist selbst eine Zufallsvariable und hat somit eine Verteilung, die durch Erwartungswert, Varianz etc. charakterisierbar ist. Bei einer Punktschätzung bleibt diese Verteilung unberücksichtigt. Das sog. Schätzrisiko bzw. die Genauigkeit des Schätzers werden ignoriert. Wo kann µ im Extremfall liegen gegeben das vorliegende Schätzergebnis? Diese Frage kann beantwortet werden, wenn man die Schätzerverteilung zumindest teilweise charakterisieren kann. Intervallschätzer Angabe eines Intervalls, in dem der wahre Wert (bei häufiger Wiederholung des Zufallsvorgangs) mit Wahrscheinlichkeit 1 − α liegt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 65/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Zusammenfassung Intervallschätzung 6 ● ● ● ● ● ● ● 4 Schätzwert 8 10 f(x) f(x) ● ● ● ● ● ● ● ● ● ● ● ● ● 2 ● 0 ● gu go x2 gu µX go 5 x1 10 15 20 # Wdh. des Zufallsvorgangs Prinzip der Intervallbildung Die Grafiken zeigen, dass ein Intervall immer nur eine Schätzung ist. Daher sucht man ein Intervall, in dem gegeben die Beobachtung des Schätzwertes x̄ der wahre Wert bei Wdh. des Zufallsvorgangs mit hoher Wkt. (1 − α) liegt. Die Intervallgrenzen werden so festgelegt, dass das Schätzergebnis (x̄) aus Sicht der Schätzerverteilung gerade als unwahrscheinlich gilt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 66/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Zusammenfassung Intervallschätzung Die 4 Fälle Prinzip P µ∈X ±D =1−α Um die Intervallbreite D zu bestimmen, benötigt man die Verteilung von X. Dafür gibt es 4 Fälle: Die 4 Fälle für Schätzungen eines Erwartungswertintervalls n ≤ 30 und X normalverteilt σ 2 bekannt (Fall 1) σ 2 unbek. → durch s2 schätzen (Fall 2) n > 30 (X beliebig verteilt) σ 2 bekannt (Fall 3) σ 2 unbek. → durch s2 schätzen (Fall 4) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 67/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Zusammenfassung: Struktur der 4 Intervalle Prinzip x̄ ± D: Punktschätzung plus bzw. minus ein skaliertes Quantil der Standardnormalverteilung oder der Student tVerteilung. Struktur der 4 Intervalle h Fall 1 x − z(1 − α √σ ) n,x 2 + z(1 − α √σ ) n 2 i Fall 2 h x − tn−1 (1 − Fall 3 h x − z(1 − α √σ ) n,x 2 + z(1 − α √σ ) n 2 i Fall 4 h x − z(1 − α √s ) n,x 2 + z(1 − α √s ) n 2 i α √s ) n,x 2 Dr. Kilian Plank + tn−1 (1 − α √s ) n 2 i Statistik für Wirtschaftswissenschaftler 68/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervallgrenzen und Quantilskalierung Quantilskalierung Gesucht ist das α/2 bzw. 1 − α/2 Quantil von 2 X̄ ∼ N (µ, σn ). In der FS sind jedoch nur die Quantile der Standard-NV tabelliert. Das α/2 Quantil einer normalverteilten ZV Y mit Erwartungswert µ und Varianz σ 2 ist jedoch ganz einfach aus dem entsprechenden Quantil einer standardnormalverteilten ZV Z ermittelbar: FY−1 (α/2) = µ + z(α/2) · σ Folglich ergibt sich das α/2 Quantil von X̄ wie folgt (X̄ ∼ N (µ, σ 2 /n)): √ −1 FX̄ (α/2) = µ + z(α/2) · σ/ n Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 69/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervallgrenzen und Quantilskalierung Grafik Transformation 0.5 X ∼ N (0, 1) so transformieren, dass Y ∼ N (µ = −2, σ 2 = 4) Standardnormalverteilung gedehnte Dichte verschoben und gedehnte Dichte 1 0.4 2 0.3 Dehnung (gelb) und Verschiebung (blau) der Standardnormalverteilung (schwarz) 2. 0.2 X ·2 X ·2−2=Y 0.1 Diese Eigenschaft hat nicht jede Verteilung. 0.0 1. −6 −4 −2 0 2 4 6 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 70/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Beispiel zu Intervallgrenzen und Quantilskalierung Beispiel Einkommen, Fall 1 und 3 Daten: X = 300 α = 0.1 X normalverteilt σ = 100 KI für n = 100: 100 = x ± 1650 x ± 1.65 · √ 100 KI für n = 10: 100 x ± 1.65 · √ = x ± 5217 10 Bemerkung 0 √10 100 0 und √1010 sind die Faktoren (die Standardabweichungen des Schätzers) mit dem das Quantil skaliert wird Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 71/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Beispiel zu Intervallgrenzen und Quantilskalierung Beispiel Einkommen, Fall 2 und 4 Gleiche Daten wie oben, außer σ ist unbekannt und wird geschätzt: s = 100 KI für n = 100: 100 x ± 1.65 · √ = x ± 1650 100 mit z(1 − α ) 2 = 1.65 KI für n = 10: x ± t(1 − Bemerkung α 100 100 ; 10 − 1) · √ = x ± 1.833 · √ = x ± 5796 > 5217 2 10 10 Gleiche Skalierungseigenschaften bei der Student-t Verteilung wie bei der Normalverteilung. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 72/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π n-1 Wkt. der Student-t Verteilung via Tabelle 1 2 3 4 5 6 7 8 9 10 0,6 0,32492 0,28868 0,27667 0,27072 0,26718 0,26483 0,26317 0,26192 0,26096 0,26018 0,75 1,00000 0,81650 0,76489 0,74070 0,72669 0,71756 0,71114 0,70639 0,70272 0,69981 0,8 1,37638 1,06066 0,97847 0,94096 0,91954 0,90570 0,89603 0,88889 0,88340 0,87906 0,9 3,07768 1,88562 1,63774 1,53321 1,47588 1,43976 1,41492 1,39682 1,38303 1,37218 1-α 0,95 6,31375 2,91999 2,35336 2,13185 2,01505 1,94318 1,89458 1,85955 1,83311 1,81246 0,975 12,70620 4,30265 3,18245 2,77645 2,57058 2,44691 2,36462 2,30600 2,26216 2,22814 0,99 31,82052 6,96456 4,54070 3,74695 3,36493 3,14267 2,99795 2,89646 2,82144 2,76377 0,995 0,999 63,65674 318,30884 9,92484 22,32712 5,84091 10,21453 4,60409 7,17318 4,03214 5,89343 3,70743 5,20763 3,49948 4,78529 3,35539 4,50079 3,24984 4,29681 3,16927 4,14370 Es sei X ∼ t(10 − 1). Das 95% Quantil t(0.95; 10 − 1) lautet 1.833. Das 5% Quantil t(0.05; 10 − 1) lautet −1.833. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 73/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Einseitige Konfidenzintervalle Grafik Idee 2-seitiger Intervalle 0.5 Suche nach dem µ so dass x̄ mit höchstens α/2 bzw. mit mindestens 1 − α/2 Wkt. auftritt. 0.0 0.1 0.2 0.3 0.4 Die gelbe Dichte stellt die hypothetische Schätzerverteilung dar, bei der x̄ oder noch stärker nach unten abweichende Werte mit Wkt. α/2 auftreten. 26 28 (u) µ0 30 x 32 (o) 34 µ0 Dr. Kilian Plank Die rote Dichte stellt die hypothetische Schätzerverteilung dar, bei der x̄ oder noch stärker nach oben abweichende Werte mit Wkt. α/2 auftreten. Statistik für Wirtschaftswissenschaftler 74/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 Einseitige Konfidenzintervalle 26 28 (u) µ0 30 32 34 x 26 28 30 x [x̄ − D, +∞) 32 (o) 34 µ0 (−∞, x̄ + D] Unterschiede zu zweiseitigen Intervallen Eine der beiden Intervallgrenzen ist plus bzw. minus unendlich. Bei der Bestimmung von D wird α nicht halbiert, d.h., man verwendet z(1 − α) bzw. t(1 − α, n − 1). Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 75/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für den Anteilswert π 3.2 Intervallschätzer für den Anteilswert Grundgedanken Bisher wurden Intervalle für den Erwartungswert µ betrachtet. Jetzt werden speziell Intervalle für den Anteilswert π betrachtet, dem Erwartungswert einer Bernoulli-Variablen. Als Beispiel wurde oben der Marktanteil eines Unternehmens genannt. Dieser ist der Erwartungswert des dichotomen Merkmals X, wobei X ∈ {0, 1} für Nicht-Kunde bzw. Kunde steht. Gesucht ist nun ein Intervall für den Marktanteilswert π = E (X). Der zu x̄ analoge Punktschätzer ist P (Stichprobenanteilswert). Ist n genügend groß, kann wieder der ZGWS herangezogen werden: π(1 − π) P ∼ N π, n Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 76/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für den Anteilswert π Konfidenzintervall analog zu µ (Fall 4) ZGWS Approximation brauchbar, wenn: n > 30. KI: P ± z (1 − α/2) p P (1 − P ) /n Beispiel: Schätzung des Marktanteils eine Produkts Merkmal X dichotom. ( Xi = 1 0 wenn Produkt von i gekauft wird wenn Produkt von i nicht gekauft wird Die SP der Größe n = 100 ergab P = 30% (Punktschätzer) Gesucht ist ein Intervall um P = 30% mit Konfidenzniveau 0.90. Wir setzen α = 0.1. KI: r 0.3 · 0.7 = [0.224; 0.375] 100 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 0.3 ± z(1 − α/2) 77/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Konfidenzintervall für den Erwartungswert µ Konfidenzintervall für den Anteilswert π Intervall für den Anteilswert π Hinweis Beim Anteilswert entfallen die Fälle 1 und 3, bei denen die Varianz σ 2 bekannt ist. Der Grund ist, dass mit der Varianz auch π faktisch bekannt wäre. Ebenso entfallen Fall 1 und 2, weil X Bernoulli und nicht Gauss verteilt ist. Der Fall 4 wurde eben betrachtet. Der Fall 2 für kleine SP ist aufwändiger und wird hier nicht betrachtet. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 78/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Übersicht 1. Einführung 2. Parameterschätzung 3. Intervallschätzung 4. Testen von Hypothesen 4.1 Test von Erwartungs- und Anteilswert 4.2 Median Test 4.3 χ2 Tests χ2 Anpassungstest χ2 Unabhängigkeitstest 4.4 Vergleich von Mittelwerten/Anteilswerten 4.5 Test auf Korrelation 4.6 Varianzanalyse 5. Regressionsanalyse Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 79/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Testen von Hypothesen Bisher Bisher wurde um einen Schätzwert t ein Vertrauensintervall konstruiert, in dem der wahre Wert θ in (1 − α) · 100 Prozent der Fälle liegt. Oft will man jedoch ein eindeutiges Entscheidungskriterium dafür, ob man mit einer Schätzung nahe an einem hypothetischen/vermuteten Wert liegt. Lösung Man stellt eine Hypothese θ0 für θ auf und leitet daraus eine hypothetische Schätzerverteilung ab. Unter dieser Verteilung kann dann die Wahrscheinlichkeit für das Auftreten der beobachteten Schätzstatistik ermittelt werden. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 80/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 1 - Test auf den Anteilswert 4.1 Test von Erwartungs- und Anteilswert Beispiel 1 (Marktanteil) Zur Schätzung des Marktanteils eines Unternehmens werden n = 100 Personen befragt. Es ergab sich ein Schätzwert von P = 0.26. D.h. 26% in der SP waren Käufer. In der Vergangenheit war der Marktanteil des Unternehmens stets ca. 30 Prozent und die Geschäftsleitung geht davon aus, dass sich daran nichts geändert hat. Doch das Schätzergebnis erregt Zweifel beim Chef. Der Leiter des Marketing beruhigt und weist darauf hin, dass die 26% durchaus im Rahmen des üblichen Stichprobenfehlers liegen. Der Chef will nun prüfen lassen, ob ein Marktanteil von 30% mit den 26% aus der SP vereinbar ist. Da P eine ZV ist, könnte der Marktanteil tatsächlich höher oder (schlimmer) niedriger als 30% sein. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 81/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 1 2 4 6 8 Hypothetische Schätzerverteilung 0 Beispiel 0.0 0.1 0.2 0.3 P(2) P(1) π0 0.4 0.5 P(3) π0 : hypothetischer Marktanteil P : beobachteter Marktanteil Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 82/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 1 Frage Wie wahrscheinlich ist es unter der hypothetischen Verteilung (basierend auf π = π0 ), daß sich ein Schätzwert P = 0.26 oder kleiner ergibt? Ist der Schätzwert hinreichend auffällig“ (signifikant), dass die Nullhypothese nicht mehr ” haltbar ist? Die Frage kann auf 2 unterschiedliche Arten entschieden werden. Möglichkeit 1: Direkte Berechnung dieser Wahrscheinlicheit. Wenn der Wert sehr niedrig ist (z.B. kleiner als ein vorgegebenes α), ist die Null-Hypothese (bzw. die hypothetische Verteilung) nicht zu halten. H0 wird abgelehnt. Möglichkeit 2: Konstruktion eines KI in dem P in (1 − α) · 100 Prozent der Fälle liegt, wenn π = π0 , d.h. unter der Annahme der Korrektheit der H0 . Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 83/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 1: Test basierend auf KI Verteilung von P unter H0 Schritte Stichprobe der Größe n = 100 Empirischer Anteilswert: P = 26% AB KI bzw. NAB AB Vermutung/Hypothese: π0 = 30% α Fehler festlegen: α = 0.1 KI/NAB bestimmen: q 0) π0 ± z(1 − α2 ) · π0 (1−π n α σ π0 − Z(1 − ) 2 n π0=0.3 P=0.26 α σ π0 + Z(1 − ) 2 n Daraus ergibt sich unmittelbar der AB. Prüfung ob P ∈ KI (und somit P ∈ / AB) wenn ja, H0 nicht ablehnen wenn nein, H0 ablehnen Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 84/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 1 - Testdurchführung Schritt für Schritt Gegeben n = 100 π0 = 30% P = 26% α = 10% Schritt 1 Hypothesen formulieren H0 : π = π0 = 30% H1 : π 6= 30% Schritt 2 Konstruktion eines Intervalls um π0 , in dem P in (1−α)·100 Prozent der Fälle liegt. hier ZGWS Bedingungen erfüllt n · π0 n · (1 − π0 ) Dr. Kilian Plank = = 100 · 0.30 100 · 0.70 = = 30 > 5 70 > 5 Statistik für Wirtschaftswissenschaftler 85/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 1 - Testdurchführung Schritt für Schritt Schritt 2 Konfidenzintervall (Nichtablehnungsbereich NAB): q 0) π0 ± z(1 − α2 ) · π0 (1−π n q 0.3(1−0.3) = 0.3 ± 1.65 · 100 = [0.3 ± 0.0765] = [0.2243; 0.3756] Ablehnungsbereich (AB): [0; 0.2243) ∪ (0.3756; 1] Schritt 3: Ergebnis bzw. Inferenz P = 0.26 ∈ KI ⇒ H0 nicht ablehnen Ergebnis ist nicht statistisch signifikant. Gegeben H0 is das Auftreten von P nicht zu unwahrscheinlich. Die Daten sprechen nicht ausreichend gegen H0 . Wäre P ∈ / KI (P ∈ AB) ⇒ P zu unwahrscheinlich bzw. H0 ablehnen. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 86/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Unterschied zwischen Nicht-Ablehnung und Annahme MERKE Eine Nicht-Ablehnung von H0 bedeutet aber nicht unbedingt, daß H0 wahr ist! H0 Hypothese 1 H0 Hypothese 2 (1) θ0 (2) θ^ = t θ0 Der Schätzwert θ̂ = t liegt hier in beiden Annahmebereichen. (1) Keine der Hypothesen (θ = θ0 abgelehnt werden. Dr. Kilian Plank (2) u. θ = θ0 ) kann Statistik für Wirtschaftswissenschaftler 87/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 2 Beispiel 2 (Aktienrenditen) Es wird vermutet, daß die Wochenrenditen einer Aktie 4% im Durchschnitt über die letzten 3 Jahre (= Grundgesamtheit) betrugen. Es wurde eine Stichprobe über die letzten 2 Jahre erhoben: n = 2 · 52 = 104 Wochen α = 5% Stichprobenstatistiken: x = 0.02 s = 0.06 Unterschied zu Beispiel 1: jetzt Test des Erwartungswerts µ, vorher Test des Anteilswerts Schritt 1 Hypothesen formulieren: H0 : µ = 0.04 H1 : µ 6= 0.04 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 88/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 2 Schritt 2 KI um µ0 = 0.04 bestimmen: i h h 0.04 ± 1.96 · µ0 ± z(1 − α2 ) · √Sn = = 0.06 √ 104 i [0.0284; 0.0515] Alternativ Ablehnungsbereich (AB) bestimmen: (−∞; 0.0284) ∪ (0.0515; +∞) Schritt 3 Prüfung ob x ∈ KI oder ob x ∈ AB Hier: x ∈ / KI bzw. x ∈ AB Folglich: H0 ablehnen Ergebnis ist signifikant Die Hypothese einer mittleren Rendite von 4% ist aufgrund der Stichprobenergebnisse nicht haltbar. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 89/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse 1-seitige vs. 2-seitige Tests bislang jetzt 2-seitige Tests 1-seitige Tests Verteilung v. X unter H0 Verteilung v. X unter H0 AB AB θ0 H 0 : µ ≤ µ0 H1 : µ > µ0 Merke θ0 H 0 : µ ≥ µ0 H1 : µ < µ0 H0 wird stets so formuliert, dass sie durch die SP möglichst abgelehnt wird. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 90/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 2 mit einseitiger Hypothese Beispiel 2 mit einseitiger Hypothese Anders als vorher wird nun vermutet, dass die mittlere Aktienrendite größer 4% ist. Schritt 1 Hypothesen: H0 : µ ≤ 0.04 H1 : µ > 0.04 Schritt 2 Schritt 3 Konfidenzintervall −∞; µ0 + z1−α · S √ n i = h = [−∞; 0.0497] −∞; 0.04 + 1.65 · 0.06 √ 104 i Ergebnis: x̄ ∈ KI bzw. x̄ ∈ / AB ⇒ H0 nicht ablehnen, Ergebnis ist insignifikant Das Auftreten von x = 0.02 ist nicht unwahrscheinlich, falls µ = 0.04 oder kleiner. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 91/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 2 mit p-Value p-Value Alternativ zum Konfidenzintervall kann man die Testentscheidung auch dadurch herbeiführen, daß man die Wahrscheinlichkeit des Auftretens von X in Ablehnungsrichtung berechnet (p-Value bzw. empirisches Signifikanzniveau) Ist die Wahrscheinlichkeit dafür dass |X − µ0 | > |x̄ − µ0 | (Abweichungen von µ0 größer als beobachtet) kleiner als α, so wird H0 verworfen. Beispiel 2 (zweiseitig) mit p-Value Ansatz: unter H0 ist X̄ ∼ N (µ0 = 0.04, s2X̄ = 0.062 /104): P |X − 0.04| > 0.02 = 2 · Φ 0.02−0.04 = 2 · Φ [−3.3993] = 0.0006 < α 0.06 √ 104 Ergebnis: p-Value < α ⇒ H0 ablehnen Gegeben die Hypothese bzw. die hypothetische Schätzerverteilung ist x̄ zu unwahrschlich. Dies spricht für H1 . Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 92/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 2 mit P-Value und einseitiger Hypothese Schritt 1 Hypothesen: H0 : µ ≤ 0.04 H1 : µ > 0.04 Schritt 2 Was ist ex-ante zu erwarten gegeben x̄ = 0.02? Spricht dies für H0 ? P X > 0.02 | µ0 = 0.04; sX̄ = √0.06 104 = 1 − Φ 0.02−0.04 0.06 √ 104 = 1 − 0.0003 = 0.99966 Schritt 3 p-Value > α ⇒ H0 nicht ablehnen Gegeben die Hypothese bzw. die hypothetische Schätzerverteilung ist x̄ sehr wahrscheinlich. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 93/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Beispiel 2 mit P-Value Grafische Darstellung für Beispiel 2 2-seitig 1-seitig P − Value>α α P − Value< α 2 α x=0.02 µ0=0.04 x=0.02 µ0=0.04 H0 : µ ≤ 0.04 H1 : µ > 0.04 H0 : µ = 0.04 H1 : µ 6= 0.04 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 94/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Fehler beim Testen von Hypothesen Welche Fehler können bei einem Hypothesentest gemacht werden? α Fehler β Fehler hypothetisch wahr α α α α 2 2 2 2 x µ=µ µ0 x µ0 Dr. Kilian Plank µ Statistik für Wirtschaftswissenschaftler 95/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Fehler beim Testen von Hypothesen Fehler 1. Art µ0 wird abgelehnt obwohl es wahr ist. D.h. es trat zufällig ein Stichproben-ergebnis x auf, das sehr unwahrscheinlich ist. Ein Maß dafür, wann etwas als sehr ” unwahrscheinlich“ klassifiziert wird, ist α bzw. α/2. Fehler 2. Art µ0 wird nicht abgelehnt, obwohl es falsch ist. Dieser Fehler ist umso wahrscheinlicher, je näher µ an µ0 liegt. D.h. je näher die Verteilung von µ an der von µ0 liegt, umso wahrscheinlicher generiert sie x im KI von µ0 . Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 96/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Fehler beim Testen von Hypothesen Klassifikation von Testfehlern Der Fehler 1. Art ist kontrollierbar. Seine Wahrscheinlichkeit ist bekannt. Der Fehler 2. Art ist nur indirekt kontrollierbar. Seine Wahrscheinlichkeit kann nicht genau ermittelt werden. Es ergibt sich folgende Klassifikation der Testergebnisse: H0 wahr H0 falsch H0 beibehalten korrekte Entscheidung Fehler 2. Art β Fehler H0 verwerfen Fehler 1. Art α Fehler korrekte Entscheidung Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 97/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Wahl der Hypothesen und Aussagekraft des Testergebnisses Wahl der Hypothesen und Aussagekraft von Ablehnung und Nicht-Ablehnung Wenn also H0 abgelehnt wird, so weiß man, daß diese Entscheidung (d.h. Annahme von H1 ) mit der Wahrscheinlichkeit α falsch ist. Dagegen weiß man bei Nicht-Ablehnung von H0 wenig. H0 könnte zwar wahr sein, ebenso aber auch ein benachbarter Wert µ 6= µ0 . Man spricht daher nicht von Annahme“ der H0 . ” Das bedeutet, dass man den β Fehler nicht direkt unter Kontrolle hat. Zu seiner Berechnung benötigt man den wahren Parameter. Aus diesem Grund formuliert man das, was man beweisen möchte oder was bei Fehlentscheidung zu großem Schaden führt in der H1 . Hierzu folgendes Beispiel (nächste Folie). Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 98/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Wahl der Hypothesen und Aussagekraft des Testergebnisses Beispiel (Produktionsausschuss) Man möchte sicher gehen, dass die laufende Produktion nicht mehr als 1 Prozent Ausschuss enthält. Da ein Stillstand mit hohen Kosten verbunden ist, soll die Produktion nur dann stoppen, wenn man hinreichend sicher sein kann, dass der Ausschussanteil zu hoch ist. Die Hypothesen lauten: H0 : π ≤ 0.01 H1 : π > 0.01 Damit ist folgendes gewährleistet: Wenn die SP einen Ausschussanteil ergibt, der signifikant über 1% liegt, so soll dies der Test anzeigen. Bei Ablehnung von H0 kann man sagen, dass dies nur in α · 100 Prozent der Fälle geschieht obwohl H0 wahr ist. Die Wahrscheinlichkeit, die Produktion wegen falschem Alarm“ anzuhalten ” ist steuerbar. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 99/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Fehler beim Testen von Hypothesen β Fehler Indirekt hat man den β Fehler über den α Fehler unter Kontrolle. Erhöht man nämlich die Wahrscheinlichkeit eines α Fehlers (d.h. Erhöht man α), so sinkt damit die Wahrscheinlichkeit eines β Fehlers. Illustration hypotetische Verteilung v. X wahre Verteilung v. X α2 α1 µ0 2 2 µ Dr. Kilian Plank α1 > α2 Die Wkt. daß die wahre Verteilung SP-Ergebnisse x im blau-begrenzten Intervall generiert (was einem β Fehler entspricht) ist sehr viel kleiner als für x im rot-begrenzten KI. Statistik für Wirtschaftswissenschaftler 100/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Fehler beim Testen von Hypothesen idealer Test Bei einem idealen“ Test hat die Verteilung der Teststatistik ” eine sehr kleine Varianz. α und β Fehler können gleichzeitig sehr klein sein. hypothetisch wahr KI θ0 Trennschärfe Hier könnte α beliebig klein gesetzt werden, ohne damit die Wahrscheinlichkeit eines β Fehlers signifikant zu erhöhen. θ Die Wahrscheinlichkeit, daß die wahre (rechte) Verteilung x generiert, die ins KI von θ0 fallen, ist nahezu Null. D.h. die Wahrscheinlichkeit eines β Fehlers ist nahezu Null. Man sagt, der Test ist trennscharf“. ” Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 101/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Gütefunktion Zur Beurteilung der Güte eines Tests kann die Gütefunktion herangezogen werden. Die Gütefunktion g(θ) gibt für alle möglichen wahren Werte des gesuchten Parameters θ die Wahrscheinlichkeit an, die H0 abzulehnen: g(θ) = P (T ∈ AB | θ) Merke g(θ = θ0 ) = P (T ∈ AB | θ = θ0 ) = α 1 − g(θ) = β-Fehler Der Verlauf der Gütefunktion gibt Auskunft über die Power“ bzw. Trennschärfe des Tests. ” Die Gütefunktion hat für einseitige und zweiseitige Tests eine unterschiedliches Aussehen. Übung In der Übung wird die Berechnung der Gütefunktion für den Test auf µ behandelt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 102/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Gütefunktion Grafische Darstellung der Gütefunktion g(µ) für unterschiedliche einseitige und zweiseitige Tests. Hier: µ0 = 0. n = 10 n = 30 1.2 H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0 0.2 0.2 0.4 0.4 0.6 0.6 0.8 0.8 1.0 1.0 1.2 H0 : µ = µ0 H0 : µ ≤ µ0 H0 : µ ≥ µ0 α 0.0 0.0 α −2 −1 0 1 2 µ −2 −1 0 1 2 µ Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 103/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Überblick: Tests basierend auf einer oder zwei Stichproben 1-SP und 2-SP Tests Abhängigkeit von SP Man unterscheidet Tests für ein Merkmal basierend auf einer SP und Tests für ein oder zwei Merkmale basierend auf zwei SP. 1-SP Tests (FS Kap. 2.1) Erwartungswerttest Anteilswerttest Mediantest χ2 Anpassungstest 2-SP Tests (FS Kap. 2.2, 3, 4) SP unverbunden Mittelwertvergleich Varianzhomogenitättest SP verbunden (abhängig) Mittelwertvergleich χ2 Unabhängigkeitstest Test der Pearson Korrelation Varianzanalyse Regression Bei zwei Stichproben ist es möglich, dass bereits aufgrund der Art der Ziehung die Stichproben(vektoren) (X1 , . . . , Xn ) und (Y1 , . . . , Yn ) nicht unabhängig sind. Dies ist zu unterscheiden von Abhängigkeiten, die durch die gemeinsame Verteilung von X und Y entstehen. Ein Beispiel für abhängige SP ist etwa, wenn Xi und Yi an der selben Person erhoben wird. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 104/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Median Test 4.2 Median Test Eine Hypothese bezüglich des Medians eines Merkmals soll getestet werden. Es handelt sich dabei um einen verteilungsfreien Test d.h. es ist keine Verteilungsannahme bezüglich X nötig. Beispiel (Alter der Konzertbesucher) Eine Konzertagentur möchte den Median des (Merkmals) Alter“ ihrer ” Kunden zum Zwecke der Marktsegmentierung wissen. Es wird vermutet, daß etwa 50% der Konzertbesucher ein Alter kleiner als 48 haben. α wird auf 10% festgesetzt. Eine Stichprobe der Größe n = 29 wird erhoben. Es ergab sich, daß t = 17 Personen ein Alter ≥ 48 haben. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 105/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Median Test Die prinzipielle Vorgehensweise ist analog zum Test auf den Erwartungswert: 1 2 3 Schritt 1 Hypothesen formulieren Konfidenzintervall bzw. Ablehnungsbereich bestimmen Testergebnis bestimmen Hypothesen: H0 : x0.5 = 48 H1 : x0.5 6= 48 Schritt 2 Da die Stichprobenelemente unabhängig gezogen werden, gilt für die hypothetische Verteilung der Prüfgröße T0 (= Anzahl an Personen mit Alter größer gleich 48): T0 ∼ B(n, 0.5) T0 is binomial verteilt mit Parametern n und 0.5. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 106/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Median Test 0.10 0.05 Prob(T0 = t0) 0.15 0.20 Ermittlung des Ablehnungsbereichs basierend auf der hypothetischen Verteilung der Prüfgröße T0 ∼ B(n, π0 ) 0.037 0.037 0.00 Schritt 2 0 5 10 15 20 25 30 T0 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 107/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Median Test Schritt 2 Konfidenzintervall: → KI = (9; 20), denn P (T0 ≤ 9) = 0.0307 ≤ α/2 = 0.05 P (T0 ≥ 20) = 1 − 0.9693 = 0.0307 ≤ α/2 = 0.05 Das Signifikanzniveau α wird somit nicht voll ausgeschöpft. Der Test ist konservativ. Schritt 3 Ergebnis: t = 17 ∈ / AB ⇒ H0 nicht ablehnen t = 17 spricht nicht signifikant für einen höheren o. niedrigeren Anteil der Personen mit Alter größer gleich 48. Der Alters-Median kann durchaus bei 48 liegen. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 108/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Tests 4.3 Chi-Quadrat Tests Mit Hilfe eines sog. Anpassungstests“ / Verteilungstests“ bzw. ” ” Goodness-of-Fit“ Test kann geprüft werden, ob die empirische Verteilung ” eines Merkmals einer bestimmten theoretischen Verteilung entspricht. Man geht dabei grob wie folgt vor: Man zieht eine Stichprobe zu einem Merkmal X und bestimmt die (empirische) Häufigkeitsfunktion h(aj ), j = 1, · · · , J einer Menge an Ausprägungsklassen aj . Diese empirische relative Häufigkeitsfunktion soll anschließend mit einer theoretischen Wkt.funktion π(aj ) verglichen werden. Für π(aj ) kommen sowohl stetige als auch diskrete Verteilungen in Frage (z.B. Normalverteilung, Poissonverteilung). Ein Hypothesentest soll prüfen, ob die beobachteten Häufigkeiten signifikant von den erwarteten (theoretischen) Häufigkeiten (Wahrscheinlichkeiten) abweichen. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 109/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest 4.3.1 χ2 Anpassungstest Beispiel (Kundenverteilung über die Woche) Es soll geprüft werden, ob der Anteil an Besuchern eines Ladens über die Woche gleichverteilt ist. Die SP-Größe ist n = 100. Die SP ergab folgende relative Häufigkeiten (= empirische Verteilung) Wochentag h(aj )/n π0j 1 0.143 0.166 2 0.158 0.166 3 0.192 0.166 4 0.209 0.166 5 0.166 0.166 6 0.129 0.166 h(aj )/n sind die beobachteten relativen Häufigkeiten π0j sind die erwarteten Häufigkeiten bei gleichmäßiger Verteilung Hypothesen: H0 : P (X = aj ) = H1 : P (X = aj ) 6= 1 6 1 6 für aj ∈ {1, . . . , 6} (Wochentage) für mind. ein aj Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 110/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest Hypothesen allgemein H0 : P (X = aj ) = π0j für j = 1, . . . , J H1 : P (X = aj ) 6= π0j für mind. ein j Teststatistik/Prüfgröße T = 6 6 X X (h(aj ) − n · π0j )2 (n · f (aj ) − n · π0j )2 = n · π0j n · π0j j=1 j=1 (h(aj ) − n · π0j )2 : quadrierte Abweichung zwischen beobachteter Häufigkeit und erwarteter Häufigkeit Häufig wird die Prüfgröße auch mit χ2 bezeichnet. Beispiel (Kundenverteilung) T = (100·0.143−100·0.166)2 100·0.166 + (100·0.158−100·0.166)2 100·0.166 Dr. Kilian Plank + · · · = 2.6816 Statistik für Wirtschaftswissenschaftler 111/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest Verteilung der Teststatistik/Prüfgröße unter H0 Die Verteilung von T bzw. χ2 kann über den ZGWS approximiert werden. Wenn n · π0j ≥ 1 ∀j n · π0j ≥ 5 für mindestens 80% der Summanden so ist T approximativ Chi-Quadrat verteilt mit J − 1 Freiheitsgraden: T ∼ χ2 (J − 1) Beispiel (Kundenverteilung im Laufe der Woche) Im Beispiel: T0 ∼ χ2 (5) J = 6 Klassen J − 1 = 6 − 1 = 5 Freiheitsgrade Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 112/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest χ2 Verteilung 0.5 χ2(2) χ2(5) χ2(10) χ2(20) 0.4 Dichte f(x) 0.3 0.0 0.1 0.2 0.1 0.0 f(x) 0.4 Normal N(0,1) Student t(2) χ2(5) 0.3 0.5 Dichte Wenn Xi ∼ N (0, 1) und unabhängig, dann Pn 2 2 i=1 Xi ∼ χ (n) 0.2 χ2 Verteilung −5 0 5 10 0 10 20 x 30 40 x Vergleich Verteilungen von Prüfgrößen/Teststatistiken Dr. Kilian Plank Vergleich von χ2 Verteilungen mit unterschiedlichen Freiheitsgraden Statistik für Wirtschaftswissenschaftler 113/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse J-1 Quantile der χ2 Verteilung via Tabelle 1 2 3 4 5 6 7 8 9 10 0,75 1,32330 2,77259 4,10834 5,38527 6,62568 7,84080 9,03715 10,21885 11,38875 12,54886 0,9 2,70554 4,60517 6,25139 7,77944 9,23636 10,64464 12,01704 13,36157 14,68366 15,98718 0,95 3,84146 5,99146 7,81473 9,48773 11,07050 12,59159 14,06714 15,50731 16,91898 18,30704 1-α 0,975 5,02389 7,37776 9,34840 11,14329 12,83250 14,44938 16,01276 17,53455 19,02277 20,48318 0,99 6,63490 9,21034 11,34487 13,27670 15,08627 16,81189 18,47531 20,09024 21,66599 23,20925 0,995 7,87944 10,59663 12,83816 14,86026 16,74960 18,54758 20,27774 21,95495 23,58935 25,18818 0,999 10,82757 13,81551 16,26624 18,46683 20,51501 22,45774 24,32189 26,12448 27,87716 29,58830 Das 90% Quantil χ2 (0.90; 6 − 1) lautet 9.236. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 114/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest Ablehnungsbereich und Konfidenzintervall Konfidenzintervall (KI/NAB): 0; χ2 (1 − α; J − 1) Ablehnungsbereich (AB): χ2 (1 − α; J − 1); +∞ Beispiel (Kundenverteilung im Laufe der Woche) für α = 10% KI: 0; χ2 (0.9; 5) = [0; 9.236] AB: (9.236; +∞) T = 2.6816 ∈ / AB H0 nicht ablehnen Die beobachteten Häufigkeiten sprechen nicht signifikant gegen die H0 . Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 115/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest Merke Höhere Werte von T führen tendenziell zur Ablehnung der H0 . 0.5 Dies macht Sinn, denn höhere T bedeuten höhere quadratische Differenzen zwischen beobachteter und theoretischer Verteilung. 0.3 0.2 0.1 0.0 χ2(0.95,20) χ2(0.95,10) χ2(0.95,5) χ2(0.95,2) Dichte f(x) 0.4 χ2(2) χ2(5) χ2(10) χ2(20) 0 10 20 30 40 x Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 116/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest Test einer stetigen Verteilung stetige Verteilungen Bei stetigen Verteilungen muß der Ergebnisraum von X in Teilintervalle zerlegt werden und die theoretische Wahrscheinlichkeit für jedes dieser Intervalle berechnet werden. Vorgehen bei Test auf Normalverteilung: H0 : X ∼ N (µ, σ 2 ) Festlegung von Klassen bzw. Intervallen aj := (cj , cj+1 ) Berechnung der theoretischen Wkt. π0j = P (X ∈ (cj−1 , cj )) = Φ( cj−1 − µ cj − µ ) − Φ( ) σ σ Berechnung der Teststatistik T = J X (h (aj ) − n · π0j )2 n · π0j j=1 Vergleich mit dem 1 − α Quantil der passenden χ2 Verteilung, χ2 (1 − α, J − 1). Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 117/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Anpassungstest 0.5 Test einer stetigen Verteilung 0.3 0.2 0.0 0.1 Dichte f(x) 0.4 c3 c2 N(0,1) Dichte c1 c6 c5 c4 c3 c2 c1 Grafik −4 −2 0 2 4 x Merke Sind die Parameter der hypothetischen Verteilung unbekannt, müssen sie aus der SP geschätzt werden. Für jeden geschätzten Parameter sinkt die Anzahl der Freiheitsgrade von χ2 um 1. Beispiel: Test auf Normalverteilung (H0 : X ∼ N (µ, σ 2 )) Schätzung von µ und σ 2 durch X̄ bzw. S 2 Folglich ist T ∼ χ2 (J − 1 − 2). Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 118/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Unabhängigkeitstest 4.3.2 χ2 Unabhängigkeitstest Grundgedanken zum Unabhängigkeitstest Bei obigen Anpassungstest wurde eine 1-dimensionale Verteilung geprüft. Mit demselben χ2 Test können aber auch 2-dimensionale Verteilungen geprüft werden. Nachfolgend soll der χ2 Test dazu verwendet werden zu testen, ob zwei Merkmale X und Y unabhängig sind. Hierzu wird geprüft, ob die gemeinsame Verteilung von X und Y der Verteilung bei Unabhängigkeit entspricht. Es handelt sich hierbei um einen Test zweier Merkmale basierend auf zwei verbundenen Stichproben. Bislang betrachteten wir lediglich ein Merkmal basierend auf einer Stichprobe. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 119/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Unabhängigkeitstest Vorgehen beim Test auf eine gemeinsame Verteilung 1 Ermittlung der gemeinsamen empirischen Häufigkeiten hjk = h(aj , bk ) von X und Y (j = 1, · · · , J, k = 1, · · · , K). 2 Ermittlung der gemeinsamen theoretischen (erwarteten) Häufigkeiten π0jk von X und Y . Da auf Unabhängigkeit getestet werden soll, ist π0jk die Tabelle der gemeinsamen Verteilung bei Unabhängigkeit (Produkt der Randwahrscheinlichkeiten). 3 Ermittlung der Teststatistik T = J X K hjk − X j=1 k=1 4 h(aj )·h(bk ) n 2 h(aj )·h(bk ) n Vergleich mit dem χ2 -Quantil. H0 ablehnen, wenn: T > χ2 (1 − α; (J − 1)(K − 1)) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 120/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Unabhängigkeitstest Beispiel (Kaufabsichten der Geschlechter) Zum Zwecke der Marktforschung werden Frauen und Männer bezüglich ihrer Kaufabsichten für ein neues Produkt befragt. Merkmal X ∈ {Mann, Frau} Merkmal Y ∈ {Kauf, Nicht-Kauf} Die Befragung ergab folgende absolute Häufigkeiten (genauer: Kontingenztabelle der beobachteten absoluten Häufigkeiten hjk ) P Mann Frau Kauf 350 50 400 Nicht-Kauf P 0 350 100 150 100 500 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 121/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Unabhängigkeitstest Beispiel (Geschlechterspezifische Kaufabsichten) 1 Hypothesen H0 : X, Y unabhängig H1 : X, Y abhängig 2 Erwartete Häufigkeiten h(aj )h(bk )/n bei Unabhängigkeit: Kauf Nicht-Kauf P 3 Mann Frau P 400·350 = 280 500 350·100 = 70 500 400·150 = 120 500 100·150 = 30 500 400 350 150 500 100 Teststatistik/Prüfgröße T = J X K 2 X 2 X X (hjk − h(aj )h(bk )/n)2 (350 − 280)2 = + ··· h(aj )h(bk )/n 280 j=1 j=1 k=1 k=1 = 17.5 + 70 + 40.83̄ + 163.3̄ = 291.6̄ Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 122/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse χ2 Unabhängigkeitstest Beispiel (Geschlechterspezifische Kaufabsichten) Hinweis zur Teststatistik T : In der Formelsammlung findet sich n · π̂ij = h(aj )h(bk )/n. Der Grund für das Dach ist die Tatsache, dass die gemeinsamen Verteilung bei Unabhängigkeit aus den empirischen Randverteilungen geschätzt wird. KI: [0; χ2 (0.95; 1 · 1)] = [0; 3.841] AB: (χ2 (0.95; 1 · 1); +∞) = (3.841; +∞) Testentscheidung: T weit im Ablehnungsbereich H0 ablehnen Dies ist zu erwarten, da sich die Mehrheit ( 23 ) der Frauen für Nicht-Kauf und alle Männer für Kauf entschieden. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 123/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Vergleich zweier Mittelwerte 4.4 Vergleich von Mittelwerten/Anteilswerten Ein weiterer Test basierend auf zwei Stichproben ist der Vergleich von Mittelwerten. Beispiel (Benzinpreisniveau) Es wird behauptet, daß das Benzinpreisniveau in Regensburg über dem in München liegt. 2 Stichproben der Größen n = 10 bzw. m = 10 ergaben: x̄ = 1.49 (Regensburg) ȳ = 1.45 (München) Wir unterscheiden folgende Fälle Varianzen sind bekannt, X, Y sind normalverteilt (NV) (1. Fall). Varianzen sind unbekannt, X, Y sind normalverteilt (NV) und σX = σY (Varianzhomogenität) (2. Fall) σX 6= σY X, Y sind beliebig verteilt und n > 30. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 124/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Vergleich zweier Mittelwerte Beispiel 1. Fall Es ist bekannt σX = 0.03, σY = 0.03 α sei 10% Hypothesen H0 : µY ≥ µX H1 : µY < µX Für D̄ = X̄ − Ȳ kann man die Hypothesen wie folgt umformulieren: H0 : µD̄ ≤ 0 H1 : µD̄ > 0 Verteilung von D̄ allgemein 2 X und Y werden als NV und unabh. angenommen =⇒ D̄ ∼ N (µD̄ , σD̄ ) Varianz von D̄ σ2 σ2 2 σD̄ = V D̄ = V X̄ − Ȳ = V X̄ + V Ȳ = X + Y n m Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 125/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Vergleich zweier Mittelwerte Teststatistik allgemein Sei δ0 die (max./min.) hypothetische Differenz: H0 : µD̄ S δ0 im Beispiel also δ0 = 0. Teststatistik X̄ − Ȳ − 0 X̄ − Ȳ − δ0 = q 2 Z= q 2 2 σX σY σX σ2 + m + mY n n Beispiel (Benzinpreisniveau) Z= q1.49−1.45−0 0.032 + 0.032 10 10 = 2.9814 KI: [−∞; 1.28] AB: (1.28; +∞] Z ∈ AB H0 ablehnen Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 126/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Vergleich zweier Mittelwerte hypothetische Verteilung v. D 0.1 0.2 0.3 0.4 Grafik zum Benzinpreis Beispiel 0.0 AB δ0 1.28 X − Y Var(D) Dr. Kilian Plank = 2.98 Statistik für Wirtschaftswissenschaftler 127/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Vergleich zweier Mittelwerte Beispiel 2. Fall Im Fall 2 sind X und Y wieder normalverteilt und unabhängig, 2 X ∼ N (µX , σX ), Y ∼ N (µY , σY2 ). 2 Die Varianzen sind unbekannt aber identisch: σX = σY2 Schätzung der Varianz über die Stichprobenvarianzen → sX = 0.03 und sY = 0.04 Prüfgröße im 2. Fall Prüfgröße: X̄ − Ȳ − δ0 X̄ − Ȳ − 0 T = q = q 1 1 1 s2 n + m s2 n1 + m wobei s2 = 2 (n−1)·s2 X +(m−1)·sY n+m−2 Verteilung der Prüfgröße ist von der Stichprobengröße abhängig bei großer SP: T ∼ N (0, 1) bei kleiner SP: T ∼ t(n + m − 2) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 128/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Vergleich zweier Mittelwerte Beispiel (Benzinpreisniveau) T = 1.49−1.45−0 q 1 + 1 s2 ·( 10 10 ) = 2.529, wobei s2 = 0.00125 t(n + m − 2; 1 − α) = t(18; 1 − α) = 1.33 KI:(−∞; 1.33] bzw. AB:(1.33, +∞) T ∈ AB H0 ablehnen Merke weitere Fälle bzw. Varianten: (Fahrmeir 11.2.1, FS S. 41) Fall 3: σX 6= σY Fall 4: X, Y beliebig verteilt einseitige / zweiseitige Tests verbundene Stichproben (FS S. 48), obige Teststatistiken basieren auf unverbundenen SP. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 129/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Test auf Korrelation 4.5 Test auf Korrelation Beispiel Die logarithmierten Returns zweier Aktien seien normalverteilt: 2 ) X ∼ N (µX , σX 2 ) Y ∼ N (µY , σY Bei gemeinsam normal verteilten ZV (X, Y ) impliziert Unkorreliertheit Unabhängigkeit und umgekehrt. Es soll geprüft werden, ob die Returns abhängig sind. Test der Pearson Korrelation Test auf Unabhängigkeit normalverteilter Merkmale via Pearson Korrelationskoeffizient: ρXY = p Cov(X, Y ) V ar(X) · V ar(Y ) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 130/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Test auf Korrelation Test der Pearson Korrelation auf Null Hypothesen H0 : ρXY = 0 H1 : ρXY 6= 0 Teststatistik s T = rXY · n−2 ∼ t(n − 2) 2 1 − rXY AB |T | > t1− α2 (n − 2) Beispiel (Aktienrenditen) Es ist gegeben: Stichprobe der Größe n = 25 2-seitiger Test α = 0.05 empirischer Korrelationskoeffizient aus der SP: rXY = 0.2 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 131/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Test auf Korrelation Beispiel (Aktienrenditen) Hypothesen H0 : ρXY = 0 H1 : ρXY 6= 0 T = 0.2 · q 25−2 1−0.22 = 0.9789 KI: [0 ± t0.975 (n − 2)] = [−2.069; +2.069] AB: (−∞; −2.069) ∪ (+2.069; +∞) T ∈ / AB H0 nicht ablehnen rXY nicht signifikant von Null verschieden Beachte für den allgemeinen Fall H0 : ρXY = ρ0 - siehe Fahrmeir 11.4.2 bzw. FS. 2.2.2.4 Für X und Y wird die Normalverteilung vorausgesetzt! Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 132/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Test von Erwartungs- und Anteilswert Median Test χ2 Tests Vergleich von Mittelwerten/Anteilswerten Test auf Korrelation Varianzanalyse Varianzanalyse 4.6 Varianzanalyse vorher Im Beispiel zum Vergleich von Mittelwerten (4.4) wurde getestet, ob sich in zwei Regionen der mittlere Benzinpreis signifikant unterscheidet. jetzt Die Varianzanalyse erweitert diese Fragestellung. Mit ihrer Hilfe kann geprüft werden, ob sich die mittleren Benzinpreise in mehr als zwei Regionen unterscheiden. Hypothese H 0 : µ1 = µ2 = . . . = µm H1 : mindestens zwei µk sind unterschiedlich Verweis Die Varianzanalyse wird später behandelt. Sie wird hier erwähnt aufgrund des Bezugs zu den Mittelwertvergleichstests. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 133/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Übersicht 1. Einführung 2. Parameterschätzung 3. Intervallschätzung 4. Testen von Hypothesen 5. Regressionsanalyse 5.1 Beispiele 5.2 Ordinary Least Squares 5.3 Modellgüte 5.4 Hypothesentests 5.5 Prognosen 6. Varianzanalyse Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 134/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Einführung in die Regressionsanalyse 5 Regressionsanalyse Ziel Ein wesentliches Erkenntnisziel der Statistik und insbesondere der Ökonometrie ist die Aufdeckung von Zusammenhängen zwischen Variablen. Korrelationsanalyse Regression symmetrisch asymmetrisch Korrelationsanalyse: symmetrisch Eine symmetrische Form der Analyse von Zusammenhängen wurde bereits eingeführt, die Korrelationsanalyse. Dabei wurden Abhängigkeiten zwischen zwei Variablen X und Y aufgedeckt. X und Y waren gleichrangig, daher symmetrisch“. ” Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 135/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Einführung in die Regressionsanalyse Regression: asymmetrisch Frage Demgegenüber sollen nun asymmetrische Beziehungen von X und Y geklärt werden. Beantwortet werden soll also die Frage, ob eine (oder mehrere) Variable(n) X eine andere Variable Y beeinflussen bzw. erklären kann. Kann Y im Mittel als Funktion von X1 , · · · , Xp geschrieben werden? Y = f (X1 , · · · , Xp ) Genauer: Lässt sich gegeben X1 , · · · , Xp die Variable Y oder zumindest deren Mittelwert vorhersagen? X1 , · · · , Xp sind unterschiedliche Variablen, d.h. Merkmale. Die Beobachtung jeder dieser Variablen (und auch von Y ) erfolgt am gleichen Merkmalsträger (z.B. eine Person wird nach Alter (X1 ), Geschlecht (X2 ), etc. befragt). Wir beschränken uns nun auf eine Variable X (p = 1). Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 136/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiel 1 5.1 Beispiele Beispiel 1 Erklärung von Aktienrenditen durch die Renditen eines Index X: (Log-)Rendite eines Unternehmens (wöchentlich) (z.B. Deutsche Bank) Y : (Log-)Rendite eines Index (z.B. DAX) Daten Obs. 1 2 3 .. . Y y1 y2 y3 .. . X x1 x2 x3 .. . Dr. Kilian Plank “verbundene Stichprobe” Statistik für Wirtschaftswissenschaftler 137/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiel 1 Scatterplot ● ● ● 3 ● ● Gerade: β0 + β1x ● ● ● ● ● 2 1 ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● −1 ● ● ● ●●● ●●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● −2 ● ● ● ● ● −3 Y ● ● ● ● ● ● ● ● ● −3 −2 −1 0 1 2 3 X Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 138/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiel 1 Feststellungen 1 Es liegt tendenziell ein positiver Zusammenhang vor. Größere xi gehen einher mit größeren yi . 2 Eine Gerade y = β0 + β1 x kann den Trend recht gut approximieren. Für ein gegebenes x können unterschiedliche y Werte auftreten. Z.B. kann eine DBK Rendite von 3% einmal mit einer DAX Rendite von 2% und einmal mit 1.5% auftreten. 3 Es scheint jedoch als könne man durch die Gerade das mittlere y für ein bestimmtes x vorhersagen. 4 Die Punkte (xi , yi ) liegen nicht auf einer Geraden yi = β0 + β1 · xi d.h., der Zusammenhang ist nicht perfekt linear. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 139/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiel 2 Beispiel 2 Erklärung des Einkommens durch den Bildungsstand Y : (Log-)Jahreseinkommen X: Anzahl Ausbildungsjahre Fragen Kann das Jahreseinkommens in der Bevölkerung durch das Bildungsniveau erklärt werden? Ist die Anzahl der Ausbildungsjahre eine passende Variable zur Messung bzw. Vorhersage des Ausbildungsniveaus? Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 140/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiel 2 Scatterplot ● ● 60 70 Gerade: β0 + β1x Bedingter Mittelwert y | x ● ● ● ● 50 ● ● 40 ● Y ● ● 30 ● ● ● ● 20 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 10 ● 0 ● ● 0 5 10 15 20 25 X Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 141/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiel 2 Feststellungen 1 Es liegt tendenziell ein positiver Zusammenhang vor. Höhere Einkommen scheinen durch längere Ausbildungszeiten erklärbar. 2 Für ein gegebenes x können unterschiedliche y Werte auftreten. Einzelne yi sind schlecht vorhersagbar. 3 Aber: Betrachtung des mittleren y gegeben x. 4 Die Punkte (xi , yi ) liegen nicht auf einer Geraden. Es gibt eine gewisse Abweichung von der Geraden. 5 Der bedingte Mittelwert ȳ | x scheint jedoch ähnlich einer Geraden zu verlaufen (man vergleiche blaue und rote Kurve). Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 142/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiel 3 Beispiel 3 Erklärung von Absatzzahlen durch den Preis yi : Absatzmenge in Periode i (z.B. Tag) xi : Preis in Periode i 100 Scatterplot Gerade: β0 + β1x Y 60 80 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Der Scatterplot impliziert, daß Preiserhöhungen zu reduzierten Absatzzahlen führen ● ● ● ● 40 ● ● 0 20 ● 0 5 10 15 X Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 143/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regression: Beispiele Fazit In allen drei Beispielen ist ein nicht unerheblicher Einfluß von X auf Y gemäß Streudiagramm zu vermuten. Jedoch können die Punkte (xi , yi ) nicht durch eine Gerade erklärt werden. Mögliche Ansätze zur Abbildung bzw. Messung des Zusammenhangs: 1 Ansatz 1: Korrelation von X und Y schätzen 2 Ansatz 2: Bedingter Mittelwert durch Gerade approximieren plus Fehler 3 Ansatz 3: Gerade suchen, die die Punktemenge möglichst gut repräsentiert Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 144/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Wie bestimmt man die Regressionsgerade? ● 15 10 15 10 10 15 Erklärung von n Beobachtungen mittels einer Geraden. ● ● ● y y y ● ● 5 5 5 ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ●● ●● ●● ●● ● ● ●● ● ● ● ● ●● ● ●● ●● ● ●● ●● ● ● ● ● ●● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● 0 5 10 15 0 0 ● 0 ● 0 5 x n=2 Fazit 10 15 0 5 x 10 15 x n=3 n = 100 Eine exakte Erklärung der Punkte durch eine Gerade ist nur möglich, wenn n = 2 bzw. wenn alle Punkte auf einer Geraden liegen. Bei n > 2 benötigt man ein anderes Kriterium. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 145/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Ordinary Least Squares 5.2 Ordinary Least Squares Gesucht ist ein Kriterium, mit dem durch ein lineares Modell y = f (x) = β0 + β1 · x die Punktewolke optimal erklärt wird. 10 15 f(xi) = β0 + β1xi Man kann jede Beobachtung yi nur mit einem Fehler εi erklären. ● y ● ● 5 ● Störterm: εi = yi − f(xi) X : Regressor Y : Regressand ● 0 ● 0 1 2 3 4 5 6 7 x Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 146/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Schätzer für die Regressionsgerade Schätzer 1 Schätzer 2 Es wurden verschiedene Methoden bzw. Kriterien untersucht, um die Parameter β0 u. β1 und somit die Lage der Geraden festzulegen. P (βˆ0 , βˆ1 ) = argminβ0 ,β1 i |εi | Wähle β0 u. β1 so, daß die Summe der absoluten Abweichungen von der Geraden minimal ist. P (βˆ0 , βˆ1 ) = argminβ0 ,β1 i ε2i Wähle β0 u. β1 so, daß die Summe der quadrierten Abweichungen von der Geraden minimal ist. (sog. Ordinary Least Squares (OLS)“ oder kleinste ” ” Quadrate (KQ)“ Schätzer von β0 u. β1 ) Ausreisser Wegen des Quadrats ist der OLS Schätzer stärker durch sog. Ausreisser“ (d.h. ungewöhlich stark abweichende Be” obachtungen) beeinflußt. Aufgrund seiner mathematischen Einfachheit und einiger optimaler statistischer Eigenschaften ist er dennoch der bedeutendste Schätzer in der Praxis. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 147/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Herleitung des Schätzers Herleitung KQ/OLS Schätzer Kriterium: Minimiere die Fehlerquadratsumme S(β0 , β1 ) = n X (yi − (β0 + β1 · xi ))2 i=1 1. Ableitungen Null setzen: ∂S ∂β0 ∂S ∂β1 = P 2 · (yi − (β0 + β1 · xi )) · (−1) = 0 = P 2 · (yi − (β0 + β1 · xi )) · (−xi ) = 0 i i Nach Umformung ergibt sich: βˆ0 = ȳ − βˆ1 · x̄ P Pi −x̄)(yi 2−ȳ) = βˆ1 = (x (xi −x̄) sxy s2x Überprüfung der 2. Ableitungen zeigt, dass es sich um ein Minimum handelt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 148/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Geschätzte und Wahre Gerade Grafik Man unterscheide: 15 f (xi ) = β0 + β1 · xi (wahre (unbek.) Gerade) f(xi) = β0 + β1xi ^ ^ y^ = β + β x yi = β0 + β1 · xi + εi (wahres Gesamtmodell) yˆi = βˆ0 + βˆ1 · xi (geschätzte Gerade) 1 i 0 10 i ● y ● ε̂i = yi − ŷi (geschätzte Fehler, Residuen) ● 5 ● Unterscheide: Fehler ε vs. Residuum ε̂ εi ^εi ● 0 ● 0 1 2 3 4 5 6 7 x Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 149/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Beispiel Beispiel (Preis-Absatz) Variablen y: Absatz x: Preis → Daten: siehe Folie Modell y = β0 + β1 · x + ε ε ∼ N (0, σε2 ) Schätzung β1 β̂1 = P (xi −x̄)(yi −ȳ) iP 2 i (xi −x̄) = −81.63 308.69 = −0.2644 mit x̄ = 11.72 und ȳ = 96.09 negativer Zusammenhang zwischen Preis und Absatz Schätzung β0 β̂0 = ȳ − βˆ1 · x̄ β̂0 = 96.09 − (−0.2644) · 11.72 β̂0 = 99.19 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 150/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Datenarten Datenarten Im letzten Beispiel sollte der Absatz Yi durch den Preis Xi erklärt werden. Dabei können die Daten auf unterschiedliche Arten erhoben werden. (Xt , Yt ) werden zu unterschiedlichen Zeitpunkten t aber im gleichen Supermarkt gemessen (Zeitreihe) (Xi , Yi ) werden zum gleichen Zeitpunkt aber in unterschiedlichen Supermärkten gemessen (Querschnitt) Ein Querschnitt wird zu unterschiedlichen Zeitpunkten gemessen, d.h., eine Mischung aus 1. und 2. (Panel) Diesen unterschiedlichen Datengrundlagen wird in der Ökonometrie durch unterschiedliche Regressionsmodelle Schätzung getragen. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 151/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Modellgüte 5.3 Modellgüte Über die Güte des geschätzten Modells gibt eine Streuungszerlegung Auskunft. Herleitung der Streuungszerlegung Es gilt: 1 2 yi = βˆ0 + βˆ1 · xi + ˆi ȳ = β̂0 + βˆ1 · x̄ Subtraktion der Gleichungen ergibt: yi − ȳ = βˆ1 · (xi − x̄) + ˆi Quadrieren und Summieren (über alle i): X X 2 X X 2 2 X (yi − ȳ)2 = βˆ1 · (xi − x̄)2 + ˆi = (ŷi − ȳ)2 + ˆi i i Dr. Kilian Plank i i Statistik für Wirtschaftswissenschaftler i 152/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Streuungszerlegung unter Verwendung P Gemäß Optimalbedingung ist i (xi − x̄) · ˆi = 0 P Somit auch 2β̂1 i (xi − x̄) · ˆi = 0 Der Mittelterm der Binomialformel entfällt oben. ergibt sich die folgende Zerlegung: Streuungszerlegung P 2 i (yi − ȳ) SST (Total Sum of Squares) SQT = = = P ˆi i (y − ȳ)2 SSE (Explained Sum of Squares) SQE Dr. Kilian Plank − yi )2 + P + SSR (Residual Sum of Squares) SQR + ˆi i (y Statistik für Wirtschaftswissenschaftler 153/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Bestimmtheitsmaß Die Summen sind skalenabhängig, daher wird die Erklärungsgüte relativ gemessen: Bestimmtheitsmaß R2 = SSE Varianz = erklärte SST Gesamtvarianz 2 P 2 ˆ β · (x −x̄) i R2 = 1P (yi −ȳ) 2 i i P [ (xi −x̄)(yi −ȳ)]2 R2 = P (xi −x̄)2 ·P (y −ȳ)2 i i i i R2 = Cov(X,Y )2 V ar(X)·V ar(Y ) 2 R2 = rXY Da −1 ≤ rXY ≤ +1 ⇒ 0 ≤ R2 ≤ 1 Interpretation Werte nah bei 1 sprechen für ein sehr gutes Modell. Für R2 → 0 wird nur sehr wenig Varianz in den Daten erklärt. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 154/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Beispiel Beispiel (Preis-Absatz) P SST = i (yi − ȳ)2 = 27.22 2 P SSE = βˆ1 · i (xi − x̄)2 = 21.59 R2 = SSE SST = 21.59 27.22 = 0.7929 Ergebnis: 80% der Gesamtvarianz werden durch das Modell erklärt. Dies spricht für eine hohe Anpassungsgüte bzw. einen guten Fit. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 155/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Hypothesentests 5.4 Hypothesentests für β0 und β1 Grafik 15 Fazit β̂0 und β̂1 und somit auch die geschätzte Regressionsgerade sind Zufallsvariablen. f(xi) = β0 + β1xi (1) ^ ^ y^i = β0 + β1xi (2) ^ ^ y^ = β + β x 10 i 0 Erneut stellt sich somit die Frage, ob die geschätzten Parameter β̂0 und β̂1 nahe am wahren Wert β0 bzw. β1 liegen. 1 i ● y ● 5 ● ● Quantifizierung der Unsicherheit via KI/Hypothesentests. ● zusätzliche Beobachtung ● 0 ● 0 1 2 3 4 5 6 7 x Dr. Kilian Plank Besonders interessant bzw. wichtig ist die Frage, ob βˆ1 statistisch signifikant von Null verschieden ist, und somit die Variable X einen Einfluss auf Y hat. Statistik für Wirtschaftswissenschaftler 156/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Hypothesentests Beispiel (Preis-Absatz) Hypothesen für den Test eines signifikanten Einfluss von X auf Y : H0 : β1 = 0 H1 : β1 = 6 0 Bei Ablehnung von H0 schlussfolgert man: Der Preis hat einen signifikanten Einfluss auf den Absatz. Der geschätzte Einfluss ist nicht nur zufällig (aufgrund der SP) von Null verschieden. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 157/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Modellannahmen Grafik 5 Fazit Um Hypothesen über den Schätzer zu prüfen, muss wie immer die Schätzerverteilung bekannt sein. E(Y | xi) 3 4 Diese ermittelt man basierend auf den folgenden Modellannahmen: E (Y |xi ) = β0 + β1 · xi 2 εi ∼ N (0, σε2 ) 3 ⇒ Y | xi ∼ N (β0 + β1 · xi , σε2 ) 0 1 2 y 1 0 2 4 6 8 10 x Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 158/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Regressionsmodell Zusammenfassung Modell und Annahmen Yi | xi ∼ N β0 + β1 · xi , σε2 unabh. Variable: xi ist deterministisch, Störterme εi sind stochastisch V (εi ) = σε2 (Varianzhomogenität, Homoskedastizität) Cov(εi , εj ) = 0 (unkorrelierte Störterme) εi ∼ N (0, σε2 ) (Normalverteilung) Bemerkungen Die Annahmen bezüglich der Störterme werden anhand der Residuen einer ersten Schätzung geprüft. Die Annahme der Normalverteilung kann für hinreichend große Stichproben und bei ausreichender Streuung der xi fallen gelassen werden. Sind die Annahmen verletzt, so ist entweder der OLS Schätzer für β0 oder β1 verzerrt oder der Schätzer für die Schätzervarianz ist verzerrt. Ist xi stochastisch, so muss zusätzlich garantiert werden, dass xi und der Störterm unabhängig sind. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 159/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Bestimmung der Schätzerverteilung Momente Basierend auf der Linearität der Schätzer lassen sich die Momente der Schätzer leicht berechnen. Momente von βˆ0 , βˆ1 , σ̂ε2 E β̂0 = E Ȳ − β̂1 · x̄ = E (Y ) + β1 · E (x̄) = β0 P 2 i xi V β̂0 = σε2 · n·P (x −x̄)2 i i P −x̄)(Yi −Ȳ ) i (x Pi E β̂1 = E = 2 (x −x̄) i i V β̂1 = σε2 · P (x1−x̄)2 i E σ̂ε2 = P (x −x̄) Pi i 2 E (Y i (xi −x̄) ) = β1 i σε2 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 160/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Bestimmung der Schätzerverteilung Verteilung von β̂1 Momente reichen nicht aus, um Wahrscheinlichkeiten zu berechnen, daher die Verteilungsannahme für ε. ∼N ∼N }| { }| { z konst. z }| { ∼N ∼N X X X z}|{ z}|{ 1 1 1 · xi · yi − · xi · · yi n i n i n i P P β1 = 1 · i x2i − ( n1 · i xi )2 n | {z } z ∼N Zähler: Eine Linearkombination normalverteilter Zufallsvariablen ist wieder normalverteilt. Nenner: nicht stochastisch (Konstante) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 161/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Bestimmung der Schätzerverteilung Schlussfolgerung Somit kann gefolgert werden: Da per Annahme εi ∼ N (0, σε2 ) 2 ⇒ yi | xi ∼N (β0 + β 1 · xi , σ ε ) ⇒ βˆ0 ∼ N β0 , V βˆ0 bzw. βˆ1 ∼ N β1 , V βˆ1 Zum Testen von Hypothesen standardisiert man den Schätzer mit dem hypothetischen Erwartungswert und der Standardabweichung (Wurzel der Varianz) des Schätzers. Unter der H0 gilt für die Teststatistik H β̂0 −β0 0 q V(β̂0 ) ∼ N (0, 1) H β̂1 −β1 0 q V(β̂1 ) ∼ N (0, 1) Die Varianzen der Schätzer im Nenner sind unbekannt und müssen ebenfalls geschätzt werden! Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 162/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Bestimmung der Schätzerverteilung Verteilung der Teststatistik unter der H0 ( βˆ0 − β0H0 ∼ t(n − 2) Tβ0 = q b βˆ ) ∼ N (0, 1) V( 0 Tβ1 βˆ1 − β1H0 = q b βˆ1 ) V( ( ∼ t(n − 2) ∼ N (0, 1) für n ≤ 30 für n > 30 für n ≤ 30 für n > 30 wobei für die Schätzer der Schätzervarianz gilt: P 2 x b βˆ0 ) = σ̂ε2 · P i i V( n · i (xi − x̄)2 1 (x − x̄)2 i i b βˆ1 ) = σ̂ε2 · P V( Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 163/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Preis-Absatz Beispiel Beispiel (Preis-Absatz) Hypothesen H0 : β1 = 0 H1 : β1 6= 0 Bei Ablehnung schließt man: der Preis hat einen signifikanten Einfluß auf den Absatz. Schätzung Die geschätzten Werte waren: βˆ0 = 99.19 βˆ1 = −0.2644 Teststatistik Für die Berechnung der Teststatistik Tβˆ1 benötigt man b βˆ1 ) und dafür wiederum V( σ̂ε = q 1 (n−2) σ̂ε = q 1 (9−2) · P i ε̂2i · P i ε̂2i = 0.8975 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 164/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Preis-Absatz Beispiel Beispiel (Preis-Absatz) P 2 i (xi − x̄) = 308.69 Somit ergibt sich die geschätzte Standardabweichung des Schätzers (sog. Standard Error“) ” q b βˆ1 ) = 0.8975 · √ 1 V( = 0.05108 308.69 −0.2644 0.05108 Teststatistik Tβˆ1 = KI [0 ± t1− α2 (9 − 2)] = [0 ± 1.895] für α = 0.1 u. n = 9 Ergebnis = −5.177 Tβˆ1 (“beobachteter” Wert der Teststatistik) weit im Ablehnungsbereich H0 ablehnen Ist der Einfluss des Preises also signifikant? Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 165/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Absatz - Preis Beispiel Beispiel (Preis-Absatz) p-Value Einealternative Berechnung ist über den p-Value möglich = P βˆ1 ≤ −0.2644 | β1 = 0 = Ft ( √−0.2644 ) Vd ar(βˆ1 ) = Ft ( −0.2644 ) = 0.000642 0.05108 Ergebnis p-Value (2-seitig) = 0.000642 · 2 = 0.00128 sehr viel kleiner als α = 0.1 somit hochsignifikant (auch auf dem α = 5% und α = 1% Niveau!) Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 166/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen F-Test Neben dem Test einzelner Koeffizienten kann auch die gesamte Modellspezifikation auf Signifikanz geprüft werden (sog. F-Test) Hypothese H0 : βi = 0 für alle i > 0 H1 : mind. ein βi 6= 0 Test-statistik F= = 1 1 1 n−2 · SSE SSR SSE SST 1 ·(1− SSE ) n−2 SST = = SSE SST 1 · SSR n−2 SST R2 1 ·(1−R2 ) n−2 1 ∼ Fn−2 F-Verteilung Die F-Verteilung ergibt sich aus dem Quotienten zweier χ2 verteilter ZV. Sie wird charakterisiert durch 2 Parameter, die Zähler- und Nennerfreiheitsgrade (DF1 und DF2 ). Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 167/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen F-Test Beispiel (Preis-Absatz) Mit R2 = 0.7929 (siehe letzte Vorlesung) folgt: F = 0.7929 1 ·(1−0.7929) 9−2 = 26.805 Dieser Wert ist sehr hoch. p-Value P (F > 26.805; DF1 = 1, DF2 = 7) = 0.00128 Dieser Wert ist sehr viel kleiner als α Ergebnis: H0 verwerfen Merke Der Testwert F = 26.805 entspricht genau dem quadrierten T -Wert für den zweiseitigen β1 Test: F = 26.805 = Tβ2ˆ 1 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 168/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognosen 5.5 Prognosen Beispiel (Preis-Absatz) Im Preis-Absatz Beispiel wird der mittlere Absatz ȳ durch den Preis xi erklärt. Zur Schätzung mit OLS standen n Beobachtungspaare (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) zur Verfügung. Nun soll für einen bislang unbeobachteten Preis xn+1 die Absatzmenge yn+1 prognostiziert werden. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 169/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognosen Nimmt man an, dass die lineare Regressionsbeziehung y = β0 + β1 · x + ε auch für Werte xn+1 zwischen den beobachteten xi bzw. ausserhalb der beobachteten xi gilt, so ergibt sich eine einfache Punktprognose wie folgt: Punktprognose ŷn+1 = βˆ0 + βˆ1 · xn+1 genauer: da E (εn+1 ) = 0 somit: E (ŷn+1 |xn+1 ) = β0 + β1 · xn+1 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 170/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognosen Beispiel (Preis-Absatz) Wir kennen die geschätzte Regressionsgerade mit βˆ0 = 99.19 βˆ1 = −0.2644 Setzt man xn+1 = 2 (Euro) in die Geradengleichung ein so ergibt sich eine Punktschätzung für den Absatz ŷn+1 = βˆ0 + βˆ1 · xn+1 = 99.19 − 0.2644 · 2 = 98.6612 Dies ist ein Prognosewert (Punkt-Prognose) für den bedingten Erwartungswert von Y an der Stelle x = 2. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 171/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognoseintervall für die Gerade Fazit Wir wissen, dass Punktschätzungen nichts über die Schätzunsicherheit aussagen. Da die Schätzwerte βˆ0 und βˆ1 jedoch unsicher sind, d.h. Varianz aufweisen, ist die Prognose ŷn+1 ebenfalls varianzbehaftet. Mit Hilfe der (geschätzten) Schätzervarianz lässt sich ein Konfidenzintervall um ŷn+1 erzeugen. Prognoseintervall I Zunächst soll ein Konfidenzintervall für den bedingten Erwartungswert E (Y | xn+1 ) um ŷn+1 bzw. die geschätzte Regressionsgerade ŷn+1 = β̂0 + β̂1 · xn+1 gefunden werden. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 172/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen 15 Prognoseintervall für die Gerade (1) y^ (2) y^ (3) y^ ^y(4) 5 Y 10 (5) y^ 0 xn+1 0 5 10 15 X Man erkennt deutlich die Varianz der geschätzten Regressionsgeraden an der Stelle xn+1 . Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 173/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognoseintervall für die Gerade Varianz der Prognose σ̂ŷ2n+1 = V βˆ0 + βˆ1 · xn+1 (x −x̄)2 = σˆε 2 · n1 + P n+1 2 2 x −n·x̄ i i Hinw.: V βˆ0 + βˆ1 · xn+1 = V β̂0 + V β̂1 · x2n+1 + 2 · xn+1 · Cov β̂0 , β̂1 Konfidenzintervall für die Regressionsgerade h i βˆ0 + βˆ1 · xn+1 ± t1− α2 (n − 2) · σ̂ŷn+1 r = βˆ0 + βˆ1 · xn+1 ± t1− α2 (n − 2) · σ̂ε · n1 + Dr. Kilian Plank (x −x̄)2 P n+1 2 2 i xi −n·x̄ Statistik für Wirtschaftswissenschaftler 174/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognoseintervall für die Gerade 15 Je weiter entfernt von x̄ der Mittelwert vorhergesagt werden soll, umso größer die Varianz bzw. umso breiter das KI. Für xn+1 → x̄ nimmt die Breite des KI ab. (1) y^ ^y(2) (3) y^ ^y(4) 5 Y 10 (5) y^ 0 xn+1 0 5 10 xn+2 15 X Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 175/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognoseintervall für die bedingte Verteilung Beispiel (Preis-Absatz) KI um den Punktschätzer ŷn+1 für α = 5%: " 98.6612 ± t1− 0.05 (9 − 2) · 0.8975 · 2 r (2 − 11.72)2 1 + 9 9 · 34.29 # = [98.6612 ± 1.3708] Prognoseintervall II Neben einem KI für den bedingten Erwartungswert E (Y | xn+1 ) kann auch ein KI für die bedingte Verteilung Y | xn+1 angegeben werden. Dieses beinhaltet neben der Unsicherheit bezüglich der Regressionsgerade auch noch die Unsicherheit bezüglich der Streuung um die Gerade. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 176/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen 15 Prognoseintervall für die bedingte Verteilung 5 Y 10 (1) y^ (2) y^ 0 xn+1 0 5 10 15 X vorher Intervall für die Regressionsgerade jetzt Intervall für die bedingte Verteilung um die Regressionsgerade herum. Kilian Plank Statistik für Wirtschaftswissenschaftler → enthaltDr. mehr Unsicherheit (Varianz der Regressionsgera- 177/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognoseintervall für die bedingte Verteilung Varianz-schätzung für die bedingte Verteilung +ε V ŷn+1 = V (ŷn+1 + ε̂) = σˆε 2 · 1 + 1 n + (x −x̄)2 P n+1 2 −n·x̄2 x i i Konfidenzintervall für die bedingte Verteilung s " # (xn+1 − x̄)2 1 ˆ ˆ β0 + β1 · xn+1 ± t1− α2 (n − 2) · σ̂ε · 1 + + P 2 2 n i xi − n · x̄ Beispiel (Preis-Absatz) KI um den Punktschätzer ŷn+1 für α = 5%: " r 98.66 ± t1− 0.05 (9 − 2) · 0.8975 · 2 (2 − 11.72)2 1 1+ + 9 9 · 34.29 # = [98.66 ± 2.5263] Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 178/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Beispiele Ordinary Least Squares Modellgüte Hypothesentests Prognosen Prognoseintervalle - Vergleich 15 Aus den Formeln für die beiden KI´s kann man sehen, daß sich die Grenzen parabelförmig vom Mittelwert entfernen. 10 geschätzte Regressionsgerade KI für Regressionsgerade KI für die bedingte Verteilung ● 5 Y ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● 0 Grenzen 0 5 Dr. Kilian Plank 10 Statistik für Wirtschaftswissenschaftler 15 179/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Übersicht 1. Einführung 2. Parameterschätzung 3. Intervallschätzung 4. Testen von Hypothesen 5. Regressionsanalyse 6. Varianzanalyse Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 180/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse 6 Varianzanalyse (Analysis of Variance - ANOVA) Rückblick Im Abschnitt zu Hypothesentests wurde u.a. auch die Gleichheit zweier Mittelwerte getestet. Im Benzinpreisbeispiel war die Frage, ob sich der Benzinpreis in zwei Regionen signifikant unterscheidet. jetzt Nun soll geprüft werden, ob der mittlere Benzinpreis in mehr als zwei Regionen derselbe ist. Hypothesen H 0 : µ1 = µ2 = . . . = µm H1 : mind. 2 der µi sind verschieden Annahme Das Merkmal X ist in jeder der m SP normalverteilt mit gleicher Varianz. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 181/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse Beispiel (Benzinpreis) Der Erhebung des Benzinpreises in 5 Regionen ergab folgende Statistiken: SP1 SP2 SP3 SP4 SP5 P SP-Größe n1 = 10 n2 = 15 n3 = 10 n4 = 11 n5 = 9 n = 55 Mittelwerte x̄1 = 1.48 x̄2 = 1.49 x̄3 = 1.49 x̄4 = 1.41 x̄5 = 1.42 x̄G = 1.4607 Varianzen s2∗1 = 0.02 s2∗2 = 0.03 s2∗3 = 0.03 s2∗4 = 0.04 s2∗5 = 0.01 wobei: n= x̄G = = P5 i=1 1 n 1 55 P5 ni i=1 ni · x̄i · (10 · 1.48 + . . .) Dr. Kilian Plank = 1.4607 Statistik für Wirtschaftswissenschaftler 182/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse Gesamtvarianz (über alle 55 Tankstellen) P P i 2 s2∗G = n1 · 5i=1 n j=1 (xij − x̄G ) − x̄i ) + (x̄i − x̄G ))2 = 1 n = P P · i j [(xij − x̄i )2 +2 · (xij − x̄i ) · (x̄i − x̄G )) + (x̄i − x̄G ))2 ] = P P 2 i P j (xij − x̄i ) P + n1 · 2 · i (x̄i − x̄G )) · j (xij − x̄i ) P P 2 1 + n · i j (x̄i − x̄G )) · P P i j ((xij 1 n 1 n · Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 183/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse s2∗G = = = P P 2 i P j (xij − x̄i ) 1 + n · 2 · i (x̄i − x̄G )) · (ni · x̄i − ni · x̄i ) | {z } =0 P P + n1 · i j (x̄i − x̄G ))2 1 n · P P 2 i j (xij − x̄i ) P 1 + n · i ni · (x̄i − x̄G ))2 1 n · 5 5 1 X 1 X · ni · s2∗i + · ni · (x̄i − x̄G ))2 n i=1 n i=1 | {z } | {z } s2 ∗,int Dr. Kilian Plank s2 ∗,ext Statistik für Wirtschaftswissenschaftler 184/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse Teil-varianzen s2∗,int mittlere Varianz (um die Mittelwerte) sog. “interne Varianz” mittlere Streuung um den mittleren Benzinpreis in der Region s2∗,ext Varianz der Mittelwerte sog. “externe Varianz” Streuung der mittleren Benzinpreise der Regionen um den Gesamtmittelwert Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 185/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzzerlegung 1.25 Die folgende Grafik stellt erhobene Dieselpreise in unterschiedlichen Regionen dar. ni = 50 Beobachtungen aus jeder Region i 1.10 n = n1 + n2 + n3 = 150 1.00 1.05 Dieselpreis 1.15 1.20 Region A Region B Region C 0.95 xij : beob. Preis an Tankstelle j in Region i 0 10 20 30 40 50 Tankstelle regionale MW x̄i : farbig gestrichelte Linien. Gesamt-MW über alle Regionen x̄G : dicke, schwarz gestrichelte Linie. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 186/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzzerlegung Interpretation Im obigen Beispiel erkennt man, dass die Streuungen um die Mittelwerte vergleichsweise klein sind. Demgegenüber sind die Abweichungen der Mittelwerte vom Gesamtmittelwert sehr hoch. Dies spricht dafür, dass die Preisunterschiede nicht ausschließlich ein Zufallsergebnis der Stichprobenziehungen sind sondern dass sie systematisch sind. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 187/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzzerlegung 1.25 Die folgende Grafik zeigt ein Gegenbeispiel 1.20 Region A Region B Region C 1.10 0.95 1.00 1.05 Dieselpreis 1.15 Die einzelnen Farben sind nicht mehr klar trennbar. Die Streuung der Mittelwerte erscheint kleiner als die Streuung um die Mittelwerte. 0 10 20 30 40 50 Tankstelle Zur statistischen Untersuchung systematischer Erwartungswertdifferenzen verwendet man die Varianzanalyse. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 188/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse Beispiel (Benzinpreis) Für interne, externe und gesamte Varianz ergeben sich: P s2∗,ext = n1 · 5i=1 ni · (x̄i − x̄G ))2 1 = 55 · (10 · (1.48 − 1.4607)2 + 15 · (1.49 − 1.4607)2 + . . .) = 0.0012 s2∗,int s2∗G P = n1 · 5i=1 ni · s2∗i 1 = 55 · (10 · 0.02 + 15 · 0.03 + . . .) = 0.0269 = s2∗,int + s2∗,ext = 0.0012 + 0.0269 = 0.0281 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 189/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse Teststatistik Die Teststatistik basiert auf dem Verhältnis von interner und externen Varianz: T = 1 ·s2 m−1 ∗,ext 1 ·s2 n−m ∗,int m−1 ∼ Fn−m F : Fisher Verteilung mit 2 Freiheitsgradparametern m − 1: Summe über m Quadrate mit einer Restriktion n − m: Summe über n Quadrate mit m Restriktionen Aussehen der Dichte der F-Verteilung ähnlich der χ2 Verteilung Beispiel (Benzinpreis) T = 1 · 0.0012 5−1 1 · 0.0269 55−5 Dr. Kilian Plank = 0.577 Statistik für Wirtschaftswissenschaftler 190/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse Beispiel (Benzinpreis) AB Hohe Werte von T implizieren eine hohe externe Varianz relativ zur internen Varianz. Dies spricht gegen die H0 . Somit beinhaltet der Ablehnungsbereich (AB) m−1 hohe Werte von T : AB = [Fn−m (1 − α); +∞). 5−1 AB: [F55−5 (0.95); +∞) = [2.56; +∞) 5−1 KI: [0; F55−5 (0.95)) = [0; 2.56) für α = 0.05 Ergebnis: T ∈ KI ⇒ keine Ablehnung der H0 Die Hypothese gleicher Mittelwerte in den Regionen kann nicht widerlegt werden. Dies war zu erwarten, da die mittleren Benzinpreise in den Regionen nur wenig um den Gesamtmittelwert streuen. Relativ dazu streuen die Preise in den Regionen stark um ihren Mittelwert. Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 191/192 Einführung Parameterschätzung Intervallschätzung Testen von Hypothesen Regressionsanalyse Varianzanalyse Varianzanalyse Bemerkungen Für m = 2 wird die F-Verteilung zur t-Verteilung und man erhält den Mittelwertvergleichstest von oben. Die Varianzanalyse kommt dann zum Einsatz wenn man ein metrisches Merkmal Y durch ein kategoriales oder nominales Merkmal X erklärt. Im Beispiel: Y : Benzinpreis (metrisch), X: Region (nominal). Zum Vergleich bei der Regression: sowohl Y als auch X metrisch. Analogie zur Regression Gesamtstreuung P SST 2 i (yi − ȳ) = erklärte Streuung P SSE 2 i (ŷi − ȳ) + Reststreuung P SSR 2 i (yi − ŷi ) ŷi : geschätzter bedingter Mittelwert (bedingt auf xi ) SSE: Streuung des bed. Mittelwerts um den Gesamtmittelwert SSR: Streuung um den bedingten Mittelwert Vgl.: Regression: F = 1 SSE 2−1 1 SSR n−2 und ANOVA: F = 1 s2 m−1 ∗,ext 1 s2 n−m ∗,int siehe auch Fahrmeir et al. (2007), Kap. 13.1 Dr. Kilian Plank Statistik für Wirtschaftswissenschaftler 192/192