Statistik für Wirtschaftswissenschaftler

Werbung
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Statistik für Wirtschaftswissenschaftler
Dr. Kilian Plank
ehemals Wirtschaftswissenschaftliche Fakultät
Universität Regensburg
SS 2013
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
1/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Statistik 2, Induktive Statistik I
1. Einführung
2. Parameterschätzung
2.1 Schätzfunktion und Schätzwert
2.2 Eigenschaften von Schätzern
Erwartungstreue
Varianz des Schätzers
Konsistenz des Schätzers
2.3 Zusammenfassung Punktschätzer
3. Intervallschätzung
3.1 Konfidenzintervall für den Erwartungswert µ
Fall 1
Fall 2
Fall 3 und 4
3.2 Konfidenzintervall für den Anteilswert π
4. Testen von Hypothesen
4.1 Test von Erwartungs- und Anteilswert
4.2 Median Test
4.3 χ2 Tests
χ2 Anpassungstest
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
2/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Statistik 2, Induktive Statistik II
χ2 Unabhängigkeitstest
4.4 Vergleich von Mittelwerten/Anteilswerten
4.5 Test auf Korrelation
4.6 Varianzanalyse
5. Regressionsanalyse
5.1 Beispiele
5.2 Ordinary Least Squares
5.3 Modellgüte
5.4 Hypothesentests
5.5 Prognosen
6. Varianzanalyse
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
3/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Statistik 2 - Überblick
Vorlesung Statistik 2
Übungen (siehe Aushang)
regulär
Excel Zusatzkurs
Übung für ausländische Studenten
Repetitorium zu Statistik 1
Marterial und Information über e-Learning (GRIPS)
Literatur: Fahrmeir (2007/2010), Statistik - Der Weg
zur Datenanalyse. Springer.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
4/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Übersicht
1. Einführung
2. Parameterschätzung
3. Intervallschätzung
4. Testen von Hypothesen
5. Regressionsanalyse
6. Varianzanalyse
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
5/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Wiederholung
Hauptthema von Statistik 1
=⇒ Charakterisierung von Verteilungen
0.6
0.4
0.2
0.0
rel. Häufigkeit
0.8
1.0
Beispiel
Merkmalsausprägung
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
6/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Differenzierung der Charakterisierung
Diese Charakterisierung kann in verschiedener Hinsicht vorgenommen werden:
univariater oder multivariater Datensatz
vollständige oder teilweise Charakterisierung der Verteilung
vollständige Erhebung der Population oder Stichprobe (teilweise Erhebung)
empirische oder theoretische Verteilungen
empirische oder theoretische Maßzahlen bzw. Statistiken
diskrete oder stetige Variablen
Die einzelnen Aspekte nun im Detail:
univariater Datensatz
multivariater Datensatz
Ein Merkmal bzw. eine Variable
wird erhoben.
Im Fokus steht die Randverteilung.
Dr. Kilian Plank
Mehrere Merkmale werden erhoben.
Im Fokus steht die gemeinsame
Verteilung bzw. die Abhängigkeiten.
Statistik für Wirtschaftswissenschaftler
7/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Unterscheidung von vollständiger und teilweiser Charakterisierung
teilweise Charakterisierung
vollständige Charakterisierung
Momente / Kennzahlen / Maße /
Parameter
Tabelle/(Ur)liste
Funktion
Wahrscheinlichkeitsfunktion f (x)
Häufigkeitsfunktion
Kum. Verteilungsfunktion F (x)
Graph
Säulendiagramm
Histogramm
Treppenfunktion
Streudiagramm
Mittelwert
Varianz/Standardabweichung
Schiefe
Kurtosis
Gini-Koeffizient
Kovarianz/Korrelationskoeffizient
Verdichtung / Klassierung
Funktion
Graph
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
8/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Unterscheidung nach dem Umfang der Erhebung
Vollerhebung
Teilerhebung (Stichprobe)
Ein oder mehrere Merkmale werden
von allen Elementen der
Grundgesamtheit (= Population)
erhoben
Beispiele
Ein oder mehrere Merkmale werden
von einem Teil der Population
erhoben
Beispiele
1000 deutsche Bundesbürger
werden zu ihrem Wahlverhalten
befragt
50 Erstsemestler werden zu ihrer
Meinung zum Studium befragt
alle Bundesbürger
alle Studenten
alle BWL-Studenten des ersten
Semesters
Dies führt zum Hauptproblem der Statistik, nämlich: (Rück)schlüsse (=
Inferenz) auf die Verteilung (bzw. die Verteilungsmomente) eines oder
mehrerer Merkmale in der Population basierend auf der Verteilung bzw.
den Momenten in der Stichprobe
Beispiele:
SP-Standardabw. s → Standardabw. σ
arith. Mittel x̄ → Erwartungswert µ
Histogramm → wahre Verteilung
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
9/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
0.14
Unterscheidung von empirischer und theoretischer Verteilung
f(x)
0.00
0.02
0.04
0.06
0.08
0.10
0.12
empirisch
theoretisch
0.9
1.0
1.1
1.2
1.3
x
empirisch
theoretisch
Funktion folgt aus den erhobenen Daten
wird die Darstellung abgeleitet
Funktion folgt aus ex-ante festgelegter
mathematischer Formel
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
10/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Unterscheidung von empirischer und theoretischer Verteilung
empirische Verteilung
theoretische Verteilung
Verwendung wenn konkrete Daten
vorliegen
X
Y
1
5
10
2 12
7
3
2
14
..
..
..
.
.
.
Dr. Kilian Plank
Verwendung wenn konkrete Daten
nicht vorhanden sind bzw. ein
Modell konstruiert wird
Berücksichtigung von Annahmen
bzw. Erfahrungswerten (z.B. aus
der Vergangenheit). Man wählt
dann eine theoretische Verteilung
zur Approximation der wahren
Verteilung, die deren
Charakteristika möglichst gut
nachbildet (z.B. Noten in einem
Fach folgen oft einer
Normalverteilung).
Statistik für Wirtschaftswissenschaftler
11/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Unterscheidung von empirischer und theoretischer Verteilung
Funktionale Darstellung
empirische Verteilung
theoretische Verteilung
relative 
Häufigkeitsfunktion
0.1 für x = a1


f (x) = 0.2 für x = a2

..


.
die theor. Verteilungsfunktion wird
vorgegeben bzw. angenommen, z.B.
Normalverteilung
(x−µ)2
f (x) =
kumulative Häufigkeitsverteilung

für x <
0



0.1 für ≤ x <
F (x) = 0.3 für ≤ x <




..

.
Dr. Kilian Plank
F (x) =
−1
√ 1
e 2 σ2
2πσ 2
Rx
f (t)dt →
−∞
Statistik für Wirtschaftswissenschaftler
→ Dichte
Tabelle
12/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Unterscheidung von empirischer und theoretischer Verteilung
Momente
empirische Momente
theoretische Momente
arithmetisches Mittel: x, y
Stichproben-Standardabweichung s
Häufig können die Momente über
eine Formel berechnet werden
Für die Normalverteilung gilt etwa
Mittelwert: µ
Varianz: σ 2
Die NV hat die schöne Eigenschaft,
dass die ersten beiden Momente
direkt als Parameter in die
Funktion eingehen.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
13/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Unterscheidung von empirischer und theoretischer Verteilung
Wertebereich des Merkmals
Unterscheide: je nach Merkmal
diskrete theoretische Verteilung
z.B. Binomialverteilung, Poissonverteilung
stetige theoretische Verteilung
0.5
1.0
z.B. Normalverteilung, χ2 Verteilung, Student-t
Verteilung, F Verteilung
0.1
0.2
f(x)
0.3
0.4
Normal−Verteilung
χ2−Verteilung
Student t−Verteilung
0.0
0.2
0.4
f(x)
0.6
0.8
Binomial
Poisson
0.0
theoretisch
0
1
2
3
4
5
6
7
−10
−5
x
Dr. Kilian Plank
0
5
10
x
Statistik für Wirtschaftswissenschaftler
14/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Empirische vs. Theoretische Verteilung
Wertebereich des Merkmals
empirisch
auch hier kann das Merkmal stetig oder diskret sein
Die Daten liegen aber immer als diskrete
Beobachtungen vor.
Ist das Merkmal stetig (z.B. Wasserstand eines
Flusses, Aktienrenditen), werden sog. Klassen gebildet
und zugehörige rel. Häufigkeiten, was einer
quasi-Diskretisierung entspricht.
0.14
Histogramm
0.00
0.02
0.04
f(x)
0.06
0.08
0.10
0.12
empirisch
theoretisch
0.9
1.0
1.1
x
Dr. Kilian Plank
1.2
1.3
Statistik für Wirtschaftswissenschaftler
15/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Übersicht
1. Einführung
2. Parameterschätzung
2.1 Schätzfunktion und Schätzwert
2.2 Eigenschaften von Schätzern
Erwartungstreue
Varianz des Schätzers
Konsistenz des Schätzers
2.3 Zusammenfassung Punktschätzer
3. Intervallschätzung
4. Testen von Hypothesen
5. Regressionsanalyse
6. Varianzanalyse
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
16/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Parameterschätzung
2 Parameterschätzung
2.1 Schätzfunktion und Schätzwert
Hintergrund
Vorgehen
Schätzer
Gewinnung von Information über eine Population (= Grundgesamtheit) ohne alle Elemente der Population zu untersuchen.
1
Stichprobe erheben (z.B. Aktienkurse)
2
Daten aufbereiten (z.B. Daten klassieren)
3
Statistiken bzw. Schätzer berechnen (z.B. arith.
Mittel)
4
Statistiken beurteilen (NEU!)
Ein Schätzer (Schätzstatistik) ist eine Statistik bzw. eine
Funktion der Daten, die möglichst genaue Rückschlüsse auf
den wahren Wert in der Population erlaubt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
17/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Parameterschätzung
Beispiel
Die Aktienkurse der Allianz AG der letzten 4 Tage (also
eine Teilerhebung) wurden aufgezeichnet:
Zeit(t)
1
2
3
4
..
.
Kurs xt
124.7
127.2
130.3
125.2
..
.
⇒ Schätzer für den Erwartungswert für n = 4:
x=
Frage
n
1X
xt = 126.85
n t
Ist x = 126.85 eine gute Schätzung für den wahren Wert?
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
18/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Parameterschätzung
Mögliche
Probleme
Stichprobe ist nicht repräsentativ (kurzfristige
Marktstörung vs. Strukturbruch)
145
Zeitreihe ist zu kurz oder zu lang
130
125
120
115
110
Kurs
135
140
Aktie A
0
20
40
60
80
100
Zeit
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
19/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 1
Beispiel 1
Merkmal X bezeichne das Einkommen in einem
4-Kopf Unternehmen in TSD EUR (vgl. Kugeln in
einer Urne)
X ∈ {20, 22, 80, 90}
Mittleres Einkommen in der Population:
µ = 14 (20 + 22 + 80 + 90) = 53
Schätzung des wahren Mittelwertes in der Population
durch Anwendung eines Schätzers auf eine Stichprobe
der Größe n = 2
Die Schätzstatistik (Schätzer, Schätzfunktion) ist von
der gezogenen Stichprobe abhängig. Sie hat eine
Varianz und ist somit selbst eine Zufallsvariable.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
20/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 1
SP-Größe
n=2
Die Schätzstatistik hat folgende mögliche Realisierungen:
x1 = 21 (20 + 22) =
42
2
x2 = 21 (20 + 80) =
100
2
= 50
x3 = 21 (20 + 90) =
110
2
= 55
x4 = 21 (22 + 80) =
102
2
= 51
x5 = 21 (22 + 90) =
112
2
= 56
x6 = 21 (80 + 90) =
170
2
= 85
= 21
Befragt man lediglich Personen aus der Chefetage, so
ist die Stichprobe nicht mehr repräsentativ.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
21/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Schätzer und Schätzung
Begriffe
Ein Schätzer ist eine Funktion der Daten (d.h., der
Beobachtungen aus einer Stichprobe), mit deren Hilfe
eine Populationsparameter geschätzt werden soll.
Eine Schätzung ist der konkrete Wert eines Schätzers
für eine konkret erhobene Stichprobe. Die Realiserung
der Variablen X im Rahmen der Stichprobe führt zu
einer Realiserung des Schätzers.
Schätzfunktion/Schätzer:
T = g(X1 , X2 , X3 , . . . , Xn )
|
{z
}
gezogene Stichprobe
Schätzwert/Schätzung:
t = g(x1 , x2 , x3 , . . . , xn )
|
{z
}
Realisation des ZV
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
22/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 1: Kleine SP
Beispiele
für
Schätzer
arithmetisches Mittel für den Erwartungswert µ
x=
n
1 X
·
xi
n i=1
Stichprobenvarianz für die Populationsvarianz σ 2
s2 =
Kleine SP
n=1
n
X
1
·
(xi − x)2
n − 1 i=1
mögliche Schätzungen für n = 1 (vgl. weiter oben
n = 2):
x1
x2
x3
x4
=
=
=
=
20
22
80
90
Die Schätzwerte für µ streuen breit zwischen 20 u. 90.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
23/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 1: Große SP
Große SP
n=3
mögliche Schätzungen für n = 3:
x1
=
1
(20
3
+ 22 + 80)
=
40.6
x2
=
1
(20
3
+ 22 + 90)
=
44
x3
=
1
(20
3
+ 80 + 90)
=
63.3
x4
=
1
(22
3
+ 80 + 90)
=
64
Schätzwerte für µ zwischen 40.6 und 64.
Fazit
Der Schätzer wird für große n immer genauer, d.h. er
schwankt mit wachsendem n immer weniger um den wahren
Wert.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
24/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 1: Zusammenfassung
rel. Häufigkeit v. x
n=1
n=2
n=3
n=3
n=2
n=1
1/6 1/4
µ=53
0
21
40.6
20
40
50 5355
63.3
60
85
80
100
x
Literatur
1
Realisationen x̄ liegen um µ herum.
2
Für wachsende SP-Größe n nimmt die Varianz des
Schätzers x ab.
Fahrmeir Kapitel 9.1
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
25/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 1: Einkommen im 4-Kopf Unternehmen
Population
4 Kopf Unternehmen
Merkmal
Einkommen (X)
Populationsparameter
Erwartungswert µ = E (X)
Schätzer
arithm. Mittel X̄ als Schätzer für µ basierend auf SP der
Größe n = 2.
Erkenntnis
x variiert je nach zufällig gewählter Stichprobe (SP).
x erreicht den wahren Wert µ für n = 4.
x variiert immer weniger bzw. weicht immer weniger
von µ ab, je größer n wird.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
26/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 2: Aktienkurs
Aktienkurs
30
Merkmal
SP2
20
10
15
Kurs
25
SP1
0
20
40
k
60
80
T
100
Zeit t
Gesucht
Stichprobenlänge
Erkenntnis
µ (Populationsparameter) geschätzt durch X̄ (Schätzer)
Stichprobe 1 der Länge T − k Tage
Stichprobe 2 der Länge T Tage
Welche SP ist nun repräsentativ für das Niveau des Aktienkurses? Stichwort Strukturbruch.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
27/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel 3: Einkaufshäufigkeiten
Gesucht
Erwartungswert E (X) der Variable X: ’Einkaufshäufigkeit’
in einem Stadtviertel
Daten
SP der Größe n = 1000
Schätzer
X̄ =
Schätzung
x̄ =
1
1000
1
1000
·
P1000
i=1
Xi
· (1 + 2 + 2 + 2 + . . . + 0 + 3 + 1)
|
{z
}
1000 Summanden
Die Summanden sind die Einkaufshäufigkeiten der befragten
Personen.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
28/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Eigenschaften von Schätzern
2.2 Eigenschaften von Schätzern
Schätzer sind Funktionen, mit denen man das Ziel verfolgt, möglichst viel
Information aus den Daten herauszuholen“, um möglichst nah an den
”
gesuchten Populationsparameter heranzukommen.
Es stellt sich somit etwa die Frage
Wie gut schätzt z.B. X̄ den Populationsparameter µ = E (X)?
Wie gut schätzt s2 die Populationsvarianz σ 2 ?
Erzielt man mit X̄ überhaupt im Mittel (bei wiederholter SP-Ziehung und
Schätzung) den wahren Parameter?
Letztere Frage ist leicht beantwortbar.
n
n
1 X
1 X
1
E X̄ = E( ·
Xi ) = ·
E (Xi ) = · n · µ = µ = E (X)
n i=1
n i=1 | {z }
n
=µ
Der Erwartungswert von X̄ entspricht dem Populationswert µ. Im Mittel
erhält man also durch X̄ Werte um µ herum.
Wir fragen nun etwas allgemeiner nach solchen Eigenschaften von
Schätzern.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
29/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Eigenschaften von Schätzern
Schätzer sind
ZV
X̄ bzw. jeder Schätzer T ist abhängig von der
gezogenen SP und ist somit selbst eine ZV, d.h. die
Realisierungen von T , bezeichnet mit t, variieren je
nach SP.
T hat somit ebenfalls eine Verteilung, die natürlich
auch wieder durch Momente (Erwarungswert,
Varianz, etc.) beschrieben werden kann.
Beispiel 1 (Einkommen im 4-Kopf Unternehmen)
X ∈ {20, 22, 80, 90} (Einkommen)
Erwartungswert: µ =
1
4
· (20 + 22 + 80 + 90) = 53
Schätzer: T = x ergab unterschiedliche Realisierungen je nach SP
Stabdiagramm der Verteilung von X
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
30/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Eigenschaften von Schätzern
Stabdiagramm
rel. Häufigkeit v. x
n=1
n=2
n=3
n=3
n=2
n=1
1/6 1/4
µ=53
0
21
40.6
20
40
50 5355
63.3
60
85
80
100
x
1
Realisationen x̄ liegen um µ herum.
2
Für wachsende SP-Größe n nimmt die Varianz des
Schätzers X ab.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
31/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Eigenschaften von Schätzern
Schätzereigenschaften sind aus unterschiedlichen Gründen relevant.
Ein Populationsparameter kann häufig mit verschiedenen Schätzern
geschätzt werden. Diese unterscheiden sich u.U. hinsichtlich der impliziten
Schätzunsicherheit (d.h., z.B. der Stärke ihrer Streuung).
Die Eigenschaften eines Schätzers hängen zusammen mit seiner
Verteilung. Letztere benötigt man, um Unsicherheitsaussagen bzgl. einer
Schätzung zu machen.
Beispiel
2
σX
, die Varianz von X in der Population kann geschätzt werden mit
Mittlere quadratische Abweichung (MQA):
P
2
s2∗ = n1 · n
i=1 (xi − x) (nicht erwartungstreu)
Stichprobenvarianz:
P
2
1
s2 = n−1
· n
i=1 (xi − x) (erwartungstreu)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
32/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Erwartungstreue allgemein
2.2.1 Erwartungstreue
Gilt t(x) ≈ E (t(x)) = θ, so ist t(x)
erwartungstreu für θ.
Dr. Kilian Plank
0.8
0.6
0.4
Bestimme den Mittelwert der
Schätzungen:
P
(k)
1
· m
).
t(x) = m
k=1 t(x
Dichte von T1 / erwartungstreu
Dichte von T2 / biased
0.2
Berechne für jede Stichprobe die
Statistik (den Schätzer) t(x(k) ).
1.0
Erwartungstreue und Bias
Wir ziehen m Stichproben der
Größe n. SP k(k = 1, · · · , m) sei
bezeichnet durch
x(k) = (x1k , · · · , xnk ). m sei groß.
Bias
0.0
Vorgehen
−4
−2
0
Statistik für Wirtschaftswissenschaftler
2
θ
4
33/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Erwartungstreue
erwartungstreu bzw.
unverzerrt
im Mittel erhält man Schätzungen um θ
erwartungstreu/unverzerrt
E (T1 ) = θ
nicht
erwartungstreu bzw.
verzerrt
im Mittel erhält man Schätzungen, die von θ systematisch
abweichen (z.B. systematisch kleiner)
nicht erwartungstreu/verzerrt
E (T2 ) 6= θ
Bias = E (T2 ) − θ > 0
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
34/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Erwartungstreue
Beispiel 1 (Einkommen im 4-Kopf Unternehmen)
Erwartungswert der Verteilung von X̄ für n = 2.
Verteilung von T = x
t
21
50
51
55
56
85
f (T = t)
1
6
1
6
1
6
1
6
1
6
1
6
Frage: Wird der wahre Wert µ = 53 im Mittel erreicht?
Antwort: ja, denn:
E (T ) = 16 · 21 + 16 · 50 + . . . + 61 · 85 = 53
Somit gilt: T = x ist unverzerrt bzw. erwartungstreu bzgl. µ
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
35/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiele für erwartungstreue und nicht erwartungtreue Schätzer
Schätzung von σ 2
Schätzung von µ
P
T1 = n1 · n
i=1 Xi
P
E X̄P= E n1 n
i=1 Xi
= n1 n
i=1 E (Xi )
= n1 · n · µ = µ
T3 = s2∗ =
1
n
·
Pn
i=1 (xi
− x)2
E (T3 ) 6= σ 2 → verzerrt
P
2
1
T4 = s2 = n−1
· n
i=1 (xi − x)
→ unverzerrt
P
T2 = n1 · n
i=1 Xi − 1
P
1
E (T2 ) = n · n
i=1 E (Xi ) − 1
=µ−1
E (T4 ) = σ 2 → unverzerrt
→ systematische Abweichung /
verzerrt
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
36/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
1.0
Erwartungstreue und Varianz des Schätzers
0.2
0.4
0.6
0.8
Dichte von T1 / erwartungstreu
Dichte von T2 / biased
0.0
Bias
−4
Folgerung
−2
0
2
θ
4
T1 offenbar besser als T2
T2 unterschätzt θ systematisch
aber T2 hat kleinere Varianz als T1
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
37/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Effizienz des Schätzers
Dichte von T1 / erwartungstreu
Dichte von T2 / erwartungstreu
Dichte von T3 / biased
0.2
0.4
0.6
0.8
1.0
2.2.2 Varianz des Schätzers
0.0
Bias
−4
effiziente
Schätzer
−2
0
θ
2
4
man bevorzugt Schätzer mit niedriger Varianz, d.h.
sog. effizientere Schätzer, da sie die Daten effizienter
verarbeiten
Trade-Off zw. Erwartungstreue und Effizienz
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
38/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Mean Squared Error
Definition
MSE ist ein zentrales Maß zur Beurteilung von
Schätzern. MSE gibt den wahren Schätzfehler an.
Definition:
MSE = E (T − θ)2
MSE = E (T − E (T ))2 + (E (T ) − θ)2
2
MSE = V (T ) + Bias
Der mittlere quadratische Fehler MSE (“Mean
Squared Error”) zeigt den Trade-Off zwischen Bias
und Varianz.
Frage: Wie lautet der MSE von T = X̄?
(E (T ) − θ)2 = 0
V (T ) = V X̄ = V
MSE =
1
n
P
i
Xi =
1 2
σ
n
1 2
σ
n
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
39/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel zur Effizienz
Beispiel zur Effizienz
Sei X eine poissonverteilte Zufallsvariable mit Parameter λ.
X ∼ P (λ)
Wir wissen, dass
E (X) = λ
V (X) = λ
Folglich kann λ über T1 := X̄ oder auch über T2 := S 2 geschätzt werden.
Man kann zeigen, dass in diesem Fall
MSE(T1 , θ) < MSE(T2 , θ)
Folglich ist T1 effizienter für λ als T2 .
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
40/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Konsistenz des Schätzers
2.2.3 Konsistenz des Schätzers
Wie verhält sich der Schätzer für n → ∞?
n=50
n=100
n=1000
0.2
0.4
0.6
0.8
1.0
Frage
0.0
θ
−4
Konsistenz
−2
0
2
4
MSE → 0 für n → ∞
Eine wichtige theoretische Eigenschaft denn
Schätzer sind in kleinen SP oft verzerrt
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
41/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Zusammenfassung Punktschätzer
2.3 Zusammenfassung
Modell mit Zurücklegen (MmZ)
Mittelwert
Anteilswert
θ
µ
π
Varianz
σ2
T
X
X
s2
s2∗
E(T )
µ
π
σ2
n−1 2
σ
n
V(T )
σ2
n
σ2
n
1
2σ 4
n−1
2(n−1) 4
σ
n2
Verteilung von T
2
X ∼ N (µ, σn )
nT ∼ B(n, π)
n−1 2
s ∼ χ2 (n − 1)
σ2
n 2
s ∼ χ2 (n − 1)
σ2 ∗
Verteilung von T für X ∼ N (µ, σ 2 )
Unterscheide
Schätzer für die Varianz (z.B. s2 oder s2∗ ) und
Varianz eines Schätzers (V(X), V(P ), V(s2 ), V(s2∗ ))
Stichprobenmodelle: Modell mit Zurücklegen (MmZ)
und Modell ohne Zurücklegen (MoZ)
Punktschätzer und Intervallschätzer (kommen später)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
42/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Zusammenfassung Punktschätzer
Modell ohne Zurücklegen (MoZ)
θ
T
E(T )
Mittelwert
µ
X
µ
Anteilswert
π
X
s2
s2∗
π
Varianz
σ2
N
σ2
N −1
N n−1 2
σ
N −1 n
V(T )
σ2
n
σ2
n
N −n
N −1
N −n
N −1
—
—
Verteilung
von2 T −n
X ∼ N µ, σn N
N −1
nT ∼ H(n, N, N · π)
—
—
Verteilung von T für X ∼ N (µ, σ 2 ), H bezeichnet die hypergeometrische
Verteilung.
Schätzer wie im MmZ
Korrekturfaktoren bei Schätzervarianzformeln
V(X) und V(P ):
E(s2∗ )
und
E(s2 ):
N −n
N −1
N
N −1
→ kleinere Varianz als bei MMZ
→ nur asymptotisch unverzerrt
Ist die GG endlich, so sind die bekannten Varianzschätzer stets verzerrt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
43/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel: Stichprobenmodell ohne Zurücklegen
Beispiel 1 (4-Kopf Unternehmen), MoZ
n=1
x ∈ {20,
22, 80, 90}
E X = 14 · (20 + 22 + 80 + 90) = 53
V X = 41 · (202 + 222 + 802 + 902 ) − 532 = 1037
n=2
x ∈ {21,
50, 51, 55, 56, 85}
E X = 16 · (21 + · · · + 85) = 53
V X = 61 · (212 + · · · + 852 ) − 532 = 345.66
n=3
x ∈ 40.6, 44, 63.3, 64
1
E X = 4 · (40.6 + · · · + 64) = 53
2
V X = 41 · (40.6 + · · · + 642 ) − 532 = 115.02
n=4
x ∈ {53}
E X = 53
V X =0
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
44/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel: Stichprobenmodell ohne Zurücklegen
Beispiel 1, MoZ, Fortsetzung
Varianz des Schätzers X̄: V ar(X) =
σ 2 N −n
n N −1
wobei σ 2 = 1037 und N = 4
n = 3: V ar(X) =
1037 4−3
3 4−1
=
1037 1
3 3
= 115.2
n = 2: V ar(X) =
1037 4−2
2 4−1
=
1037 2
2 3
= 345.6
n = 1: V ar(X) =
1037 4−1
1 4−1
= 1037
Fazit: Man sieht, die Werte (Berechnung über Formel und Berechnung aus
den möglichen Schätzerrealisationen) stimmen überein.
Frage
Wie müsste obiges Einkommensbeispiel verändert werden,
damit es sich um ein MmZ handelt?
Antwort
jede Person kann mehrmals befragt werden
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
45/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel: Stichprobenmodell mit Zurücklegen
Beispiel 1 (4-Kopf Unternehmen), MmZ
n=1
x ∈ {20,
22, 80, 90}
E X = 14 · (20 + 22 + 80 + 90) = 53
V X = 41 · (202 + 222 + 802 + 902 ) − 532 = 1037
n=2
x ∈ {20,
22, 50, 51, 55, 56, 80, 85, 90}
21,
1
2
E X = 16
· (20 + 22 + 80 + 90) + 16
· (21 + 50 + 51 + 55 + 56 + 85) = 53
1
2
2
2
V X = 16 · (20 + 21 + 21 · · · + 902 ) − 532 = 518.5
n=3
x ∈ {· · · }
E X =?
V X =?
n=4
x ∈ {53}
E X = 53
V X =0
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
46/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Schätzfunktion und Schätzwert
Eigenschaften von Schätzern
Zusammenfassung Punktschätzer
Beispiel: Stichprobenmodell mit Zurücklegen
Beispiel 1, MmZ, Fortsetzung
Varianz des Schätzers X̄: V ar(X) =
σ2
n
wobei σ 2 = 1037
n = 2: V ar(X) =
n = 1: V ar(X) =
1037
2
1037
1
=
1037
2
= 518.5
= 1037
Fazit: Man sieht auch hier, die Werte (Berechnung über Formel und
Berechnung aus den möglichen Schätzerrealisationen) stimmen überein.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
47/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Übersicht
1. Einführung
2. Parameterschätzung
3. Intervallschätzung
3.1 Konfidenzintervall für den Erwartungswert µ
Fall 1
Fall 2
Fall 3 und 4
3.2 Konfidenzintervall für den Anteilswert π
4. Testen von Hypothesen
5. Regressionsanalyse
6. Varianzanalyse
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
48/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervallschätzung
3 Intervallschätzung
Grundgedanken zur Intervallschätzung
Der Punktschätzer T liefert eine Punktschätzung t(x1 , ..., xn ) für θ.
Die Varianz des Schätzers kann als Maß für seine Genauigkeit interpretiert
werden (einen möglichen Bias dabei ausgeschlossen).
Optimalerweise kennt man nicht nur die Varianz sondern die Verteilung
von T .
Dies ist jedoch regelmäßig nicht der Fall, da sie vom unbekannten
Parameter θ abhängt.
Im Beispiel des Einkommens im 4-Kopf Unternehmen konnte man die
Verteilung von T nur deswegen angeben, weil man die Grundgesamtheit
und somit θ kannte. θ soll aber gerade geschätzt werden.
Einen Ausweg bietet die Intervallschätzung in Verbindung mit der
Normalverteilung.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
49/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
0.5
Intervallschätzung - Beispiel
Dichte von X
0.1
0.2
f(x)
0.3
0.4
Beispiel
Verteilung
Aktienrendite
0.0
x(1)
−10
−5
x(3) x(2)
µ
0
5
10
x
Gesucht: µ. Gegeben: σ 2 oder s2 .
Die Darstellung zeigt die (unbekannte) Verteilung von
X sowie drei Punktschätzungen x für µ.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
50/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervallschätzung - Beispiel
Zentrale Frage
Lösung
1
Wie verlässlich ist x?
2
Wie sicher kann man sein, dass die Schätzung nicht
allzu weit vom wahren Wert entfernt ist?
Gesucht ist daher ein Intervall um x, in dem der
wahre Wert θ mit einer gewissen Wahrscheinlichkeit
1 − α liegt.
bzw. exakt gesprochen:
Gesucht ist ein Intervall in dem der wahre Wert θ
im Mittel nur in α Prozent der Stichproben (bei
wiederholter Stichprobenziehung) nicht liegt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
51/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervallschätzung - Definitionen und Begriffe
Definition: Irrtumswahrscheinlichkeit
α wird als Irrtumswahrscheinlichkeit bezeichnet.
1 − α wird als Konfidenzniveau bezeichnet.
Definition: Konfidenzintervall (KI)
Das Intervall [gu , go ] wird als Vertrauensintervall bzw. Konfidenzintervall
bezeichnet.
Formale Beschreibung:
P (Gu ≤ θ ≤ Go ) = 1 − α
Die Intervallgrenzen Gu und Go (Gu < Go ) hängen von der
Schätzfunktion T und somit von der Stichprobe ab. Sie sind also ebenso
ZV und liefern für eine konkrete Stichprobe (x1 , . . . , xn ) eine Realisierung
gu bzw. go .
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
52/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Ermittlung der Intervallgrenzen
(u)
(o)
10
Suche nach den µ0 und µ0 so dass x̄ mit höchstens
α/2 bzw. mit mindestens 1 − α/2 Wkt. auftritt.
0.2
6
Schätzwert
0.3
8
0.4
0.5
2
Annahme: Xi ∼ N (µ, σ 2 ). D.h. das Merkmal in der
Population is normalverteilt mit den Parametern µ
und σ 2 .
●
●
●
●
●
●
●
4
1
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
0.1
●
0
Lösung
Wie kann man nun gu und go für eine konkrete Stichprobe
berechnen, basierend auf P (Gu ≤ θ ≤ Go ) = 1 − α?
0.0
Frage
26
28
(u)
µ0
30
x
32
(o)
µ0
Dr. Kilian Plank
34
5
10
15
20
# Wdh. des Zufallsvorgangs
Statistik für Wirtschaftswissenschaftler
53/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für µ, Fall 1
Annahmen
3.1 Intervallschätzer für den Erwartungswert
3.1.1 Fall 1
Annahmen
X ∼ N (µ, σ 2 ), wobei
µ unbekannt/zu schätzen
σ 2 bekannt
Dann gilt
X ∼ N (µ,
σ2
)
n
X −µ
bzw. q
∼ N (0, 1)
| {z }
1 2
σ
n
Standard NV
| {z }
Z
denn
1
E(Z) = √ 1
n
V(Z) =
σ2
1
1 σ2
n
(E(X) − µ) = 0
(V(X) − 0) = 1
→ Vgl. FS S. 25 (Rechenregeln und Eigenschaften von Erwartungswerten)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
54/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für µ, Fall 1
Ansatz und Berechnung
Ansatz
P −z1− α2 ≤
X−µ
√1 σ
n
≤ z1− α2
=1−α
z1− α2 und −z1− α2 sind die symmetrischen α2 Quantile (Ober- und
Untergrenze der roten Bereiche) der Standard NV.
Umstellung der Ungleichung ergibt:
1 − α = P(−z1− α2 ≤
= P(X − z1− α2
X −µ
≤ z1− α2 )
√1 σ
n
σ
σ
√ ≤ µ ≤ X + z1− α2 √ )
n
n
Konfidenzintervall, Fall 1
σ
σ
x − z1− α2 √ , x + z1− α2 √
= [gu , go ]
n
n
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
55/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Beispiel, Fall 1
Beispiel: Einkommen im Milieu
Schätzung des mittleren Einkommens X in einem bestimmten Milieu.
x = 300 Euro
α = 0.1
σ = 10000
KI für n = 1000
10000
10000
300 − 1.65 √
; 300 + 1.65 √
= 300 − 521; 300 + 521
1000
1000
= [29478; 30521] = x ± 521
KI für n = 100
0
30 − 1650; 300 + 1650 = [28350; 31650] = x ± 1650
KI für n = 10
0
30 − 5217.75; 300 + 5217.75 = [24782; 35217] = x ± 5217.75
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
56/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für µ, Fall 1
Merke
Die Intervallbreite kann beeinflußt werden durch:
α: wenn größer ⇒ Intervall kleiner
n: wenn größer ⇒ Intervall kleiner
3.1.2 Fall 2
Bislang war σ 2 bekannt.
Ist σ 2 jedoch unbekannt, muß es geschätzt werden.
Ein erwartungstreuer Schätzer ist s2 .
Annahmen
X ∼ N (µ, σ 2 ), wobei
µ unbekannt/zu schätzen
σ 2 unbekannt, muss durch s2 geschätzt werden
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
57/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für µ, Fall 2
Ansatz
Im Ansatz für das KI werden die Quantile der NV durch die der Student-t
Verteilung ersetzt.
!
X −µ
1 − α = P −t1− α2 ≤ 1
≤ t1− α2
√ s
n
Begründung
Die z-Quantile wurden durch t-Quantile ersetzt, weil
X−µ
nicht mehr normal verteilt ist.
√1 s
n
Grund: Zufallsvariable ’s’ im Nenner
Es gilt daher:
X−µ
√1 s
∼ t(n − 1)
n
In Worten: Student-t verteilt mit n-1
”
Freiheitsgraden“
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
58/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Gaussdichte
t−Dichte mit 1 Freiheitsgrad
t−Dichte mit 10 Freiheitsgraden
0.0
0.1
0.2
0.3
0.4
0.5
Student-t
Verteilung
0.6
Intervall für µ, Fall 2
−4
Eigenschaften
1
2
−2
0
2
4
nur ein Parameter ν ( Freiheitsgrade“)
”
symmetrisch um Null
3
dickere Tails als die NV, da höheres Schätzrisiko
aufgrund der Schätzung von σ 2
4
konvergiert gegen die NV für ν → ∞
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
59/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für µ, Fall 2
Außer dem Ersatz von σ durch s und der Normalverteilung
durch die t-Verteilung ändert sich nichts am formalen Aussehen des Intervalls.
Konfidenzintervall, Fall 2
s
s
x − t1− α2 (n − 1) √ , x + t1− α2 (n − 1) √
n
n
Freiheitsgrade
Die Student-t Verteilung wird durch die Anzahl der Freiheitsgrade ν = n − 1 charakterisiert. Quantile für unterschiedliche ν und α sind in der FS tabelliert (FS S. 79).
Beispiel (Einkommen im Milieu)
α = 0.1, n = 10
s wird geschätzt, sei aber zufällig gleich σ
⇒ t1− α2 (10 − 1) = 1.833 > 1.65 = z1−α/2
⇒ KI: [x̄ ± 5796] (> [x̄ ± 5217] wenn σ 2 bekannt)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
60/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für µ, Fall 3 und 4
3.1.3 Fall 3 und 4
Besonderheiten von Fall 3 und 4: Zentraler Grenzwertsatz
Fall 3 und 4 sind allgemeiner als Fall 1 und 2, weil die Verteilung von X in
der Grundgesamtheit nicht bekannt sein muss.
Dafür muss jedoch gelten: n > 30.
Für n > 30 kann man aufgrund des zentralen Grenzwertsatzes folgende
Verteilungsannahme treffen (falls Unabhängigkeit vorraussetzbar):
σ2
)
n
Daraus ergeben sich zwei verschiedene Fälle!
X ∼ N (µ,
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
61/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für µ, Fall 3 und 4
Konfidenzintervall: Fall 3
wenn σ 2 bekannt ist
KI:
σ
σ
√ , x + z1− α2 √
n
n
s
s
x − z1− α2 √ , x + z1− α2 √
n
n
x−z
1− α
2
Konfidenzintervall: Fall 4
wenn σ 2 unbekannt ist
wird es durch s2 geschätzt
KI:
Aufgrund des ZGWS bleiben die z-Quantile erhalten. Der Schätzfehler
durch die Schätzung von s2 hat verschwindenen Einfluss.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
62/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Zentraler Grenzwertsatz (ZGWS)
Im Fall 3 und 4 kam man bei der Berechnung des Intervalls ohne Verteilungsannahme bezüglich X aus. Dies war
möglich aufgrund des zentralen Grenzwertsatzes.
Zentraler Grenzwertsatz (ZGWS)
Es sei n > 30 und die Stichprobenvariablen X1 , . . . , Xn seien beliebig aber
identisch verteilt und unabhängig. Dann gilt:
X −µ
√σ
n
Fall 4
a
∼ N (0, 1)
Im Fall 4 ist das σ im Nenner nicht bekannt und muss über
s geschätzt werden. Für n > 30 fällt die Schätzunsicherheit von s2 nicht ins Gewicht. Somit kann auch hier die
Normalverteilung approximativ verwendet werden.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
63/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
0.12
0.25
Zentraler Grenzwertsatz am Beispiel 4-Kopf Unternehmen
0.08
0.06
Relative Häufigkeit
0.00
0.00
0.02
0.04
0.20
0.15
0.10
0.05
Relative Häufigkeit
Empirische Schätzerverteilung (n=5)
Theoretische Schätzerverteilung
0.10
Empirische Schätzerverteilung (n=1)
Theoretische Schätzerverteilung
20
30
40
50
60
70
80
90
20
30
40
50
70
80
90
Empirische Schätzerverteilung (n=30)
Theoretische Schätzerverteilung
0.06
0.04
0.00
0.00
0.02
0.02
0.04
Relative Häufigkeit
0.08
0.06
Empirische Schätzerverteilung (n=20)
Theoretische Schätzerverteilung
Relative Häufigkeit
60
x
0.10
x
30
40
50
60
x
Dr. Kilian Plank
70
80
30
40
50
60
70
x
Statistik für Wirtschaftswissenschaftler
64/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Zusammenfassung Intervallschätzung
Punktschätzer
Jeder Schätzer T (X1 , . . . , Xn ) ist selbst eine
Zufallsvariable und hat somit eine Verteilung, die
durch Erwartungswert, Varianz etc. charakterisierbar
ist.
Bei einer Punktschätzung bleibt diese Verteilung
unberücksichtigt. Das sog. Schätzrisiko bzw. die
Genauigkeit des Schätzers werden ignoriert.
Wo kann µ im Extremfall liegen gegeben das vorliegende Schätzergebnis? Diese Frage kann beantwortet werden,
wenn man die Schätzerverteilung zumindest teilweise charakterisieren kann.
Intervallschätzer
Angabe eines Intervalls, in dem der wahre Wert (bei häufiger
Wiederholung des Zufallsvorgangs) mit Wahrscheinlichkeit
1 − α liegt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
65/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Zusammenfassung Intervallschätzung
6
●
●
●
●
●
●
●
4
Schätzwert
8
10
f(x)
f(x)
●
●
●
●
●
●
●
●
●
●
●
●
●
2
●
0
●
gu
go
x2
gu
µX
go
5
x1
10
15
20
# Wdh. des Zufallsvorgangs
Prinzip der Intervallbildung
Die Grafiken zeigen, dass ein Intervall immer nur eine Schätzung ist.
Daher sucht man ein Intervall, in dem gegeben die Beobachtung des
Schätzwertes x̄ der wahre Wert bei Wdh. des Zufallsvorgangs mit hoher
Wkt. (1 − α) liegt.
Die Intervallgrenzen werden so festgelegt, dass das Schätzergebnis (x̄) aus
Sicht der Schätzerverteilung gerade als unwahrscheinlich gilt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
66/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Zusammenfassung Intervallschätzung
Die 4 Fälle
Prinzip
P µ∈X ±D =1−α
Um die Intervallbreite D zu bestimmen, benötigt man
die Verteilung von X. Dafür gibt es 4 Fälle:
Die 4 Fälle für Schätzungen eines Erwartungswertintervalls
n ≤ 30 und X normalverteilt
σ 2 bekannt (Fall 1)
σ 2 unbek. → durch s2 schätzen (Fall 2)
n > 30 (X beliebig verteilt)
σ 2 bekannt (Fall 3)
σ 2 unbek. → durch s2 schätzen (Fall 4)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
67/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Zusammenfassung: Struktur der 4 Intervalle
Prinzip
x̄ ± D: Punktschätzung plus bzw. minus ein skaliertes
Quantil der Standardnormalverteilung oder der Student tVerteilung.
Struktur der 4 Intervalle
h
Fall 1
x − z(1 −
α √σ
) n,x
2
+ z(1 −
α √σ
) n
2
i
Fall 2
h
x − tn−1 (1 −
Fall 3
h
x − z(1 −
α √σ
) n,x
2
+ z(1 −
α √σ
) n
2
i
Fall 4
h
x − z(1 −
α √s
) n,x
2
+ z(1 −
α √s
) n
2
i
α √s
) n,x
2
Dr. Kilian Plank
+ tn−1 (1 −
α √s
) n
2
i
Statistik für Wirtschaftswissenschaftler
68/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervallgrenzen und Quantilskalierung
Quantilskalierung
Gesucht ist das α/2 bzw. 1 − α/2 Quantil von
2
X̄ ∼ N (µ, σn ). In der FS sind jedoch nur die
Quantile der Standard-NV tabelliert.
Das α/2 Quantil einer normalverteilten ZV Y mit
Erwartungswert µ und Varianz σ 2 ist jedoch ganz
einfach aus dem entsprechenden Quantil einer
standardnormalverteilten ZV Z ermittelbar:
FY−1 (α/2) = µ + z(α/2) · σ
Folglich ergibt sich das α/2 Quantil von X̄ wie folgt
(X̄ ∼ N (µ, σ 2 /n)):
√
−1
FX̄
(α/2) = µ + z(α/2) · σ/ n
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
69/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervallgrenzen und Quantilskalierung
Grafik
Transformation
0.5
X ∼ N (0, 1) so transformieren,
dass Y ∼ N (µ = −2, σ 2 = 4)
Standardnormalverteilung
gedehnte Dichte
verschoben und gedehnte Dichte
1
0.4
2
0.3
Dehnung (gelb) und Verschiebung
(blau) der
Standardnormalverteilung
(schwarz)
2.
0.2
X ·2
X ·2−2=Y
0.1
Diese Eigenschaft hat nicht jede
Verteilung.
0.0
1.
−6
−4
−2
0
2
4
6
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
70/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Beispiel zu Intervallgrenzen und Quantilskalierung
Beispiel Einkommen, Fall 1 und 3
Daten:
X = 300
α = 0.1
X normalverteilt
σ = 100
KI für n = 100:
100
= x ± 1650
x ± 1.65 · √
100
KI für n = 10:
100
x ± 1.65 · √ = x ± 5217
10
Bemerkung
0
√10
100
0
und √1010 sind die Faktoren (die Standardabweichungen des Schätzers) mit dem das Quantil skaliert wird
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
71/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Beispiel zu Intervallgrenzen und Quantilskalierung
Beispiel Einkommen, Fall 2 und 4
Gleiche Daten wie oben, außer
σ ist unbekannt und wird geschätzt: s = 100
KI für n = 100:
100
x ± 1.65 · √
= x ± 1650
100
mit z(1 −
α
)
2
= 1.65
KI für n = 10:
x ± t(1 −
Bemerkung
α
100
100
; 10 − 1) · √ = x ± 1.833 · √ = x ± 5796 > 5217
2
10
10
Gleiche Skalierungseigenschaften bei der Student-t Verteilung wie bei der Normalverteilung.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
72/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
n-1
Wkt. der Student-t Verteilung via Tabelle
1
2
3
4
5
6
7
8
9
10
0,6
0,32492
0,28868
0,27667
0,27072
0,26718
0,26483
0,26317
0,26192
0,26096
0,26018
0,75
1,00000
0,81650
0,76489
0,74070
0,72669
0,71756
0,71114
0,70639
0,70272
0,69981
0,8
1,37638
1,06066
0,97847
0,94096
0,91954
0,90570
0,89603
0,88889
0,88340
0,87906
0,9
3,07768
1,88562
1,63774
1,53321
1,47588
1,43976
1,41492
1,39682
1,38303
1,37218
1-α
0,95
6,31375
2,91999
2,35336
2,13185
2,01505
1,94318
1,89458
1,85955
1,83311
1,81246
0,975
12,70620
4,30265
3,18245
2,77645
2,57058
2,44691
2,36462
2,30600
2,26216
2,22814
0,99
31,82052
6,96456
4,54070
3,74695
3,36493
3,14267
2,99795
2,89646
2,82144
2,76377
0,995
0,999
63,65674 318,30884
9,92484 22,32712
5,84091 10,21453
4,60409
7,17318
4,03214
5,89343
3,70743
5,20763
3,49948
4,78529
3,35539
4,50079
3,24984
4,29681
3,16927
4,14370
Es sei X ∼ t(10 − 1).
Das 95% Quantil t(0.95; 10 − 1) lautet 1.833.
Das 5% Quantil t(0.05; 10 − 1) lautet −1.833.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
73/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Einseitige Konfidenzintervalle
Grafik
Idee 2-seitiger Intervalle
0.5
Suche nach dem µ so dass x̄ mit
höchstens α/2 bzw. mit mindestens
1 − α/2 Wkt. auftritt.
0.0
0.1
0.2
0.3
0.4
Die gelbe Dichte stellt die
hypothetische Schätzerverteilung
dar, bei der x̄ oder noch stärker
nach unten abweichende Werte mit
Wkt. α/2 auftreten.
26
28
(u)
µ0
30
x
32
(o)
34
µ0
Dr. Kilian Plank
Die rote Dichte stellt die
hypothetische Schätzerverteilung
dar, bei der x̄ oder noch stärker
nach oben abweichende Werte mit
Wkt. α/2 auftreten.
Statistik für Wirtschaftswissenschaftler
74/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.1
0.2
0.3
0.4
0.5
Einseitige Konfidenzintervalle
26
28
(u)
µ0
30
32
34
x
26
28
30
x
[x̄ − D, +∞)
32
(o)
34
µ0
(−∞, x̄ + D]
Unterschiede zu zweiseitigen Intervallen
Eine der beiden Intervallgrenzen ist plus bzw. minus unendlich.
Bei der Bestimmung von D wird α nicht halbiert, d.h., man verwendet
z(1 − α) bzw. t(1 − α, n − 1).
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
75/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für den Anteilswert π
3.2 Intervallschätzer für den Anteilswert
Grundgedanken
Bisher wurden Intervalle für den Erwartungswert µ betrachtet. Jetzt
werden speziell Intervalle für den Anteilswert π betrachtet, dem
Erwartungswert einer Bernoulli-Variablen.
Als Beispiel wurde oben der Marktanteil eines Unternehmens genannt.
Dieser ist der Erwartungswert des dichotomen Merkmals X, wobei
X ∈ {0, 1} für Nicht-Kunde bzw. Kunde steht.
Gesucht ist nun ein Intervall für den Marktanteilswert π = E (X).
Der zu x̄ analoge Punktschätzer ist P (Stichprobenanteilswert).
Ist n genügend groß, kann wieder der ZGWS herangezogen werden:
π(1 − π)
P ∼ N π,
n
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
76/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für den Anteilswert π
Konfidenzintervall analog zu µ (Fall 4)
ZGWS Approximation brauchbar, wenn: n > 30.
KI:
P ± z (1 − α/2)
p
P (1 − P ) /n
Beispiel: Schätzung des Marktanteils eine Produkts
Merkmal X dichotom.
(
Xi =
1
0
wenn Produkt von i gekauft wird
wenn Produkt von i nicht gekauft wird
Die SP der Größe n = 100 ergab P = 30% (Punktschätzer)
Gesucht ist ein Intervall um P = 30% mit Konfidenzniveau 0.90.
Wir setzen α = 0.1.
KI:
r
0.3 · 0.7
= [0.224; 0.375]
100
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
0.3 ± z(1 − α/2)
77/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Konfidenzintervall für den Erwartungswert µ
Konfidenzintervall für den Anteilswert π
Intervall für den Anteilswert π
Hinweis
Beim Anteilswert entfallen die Fälle 1 und 3, bei
denen die Varianz σ 2 bekannt ist. Der Grund ist, dass
mit der Varianz auch π faktisch bekannt wäre.
Ebenso entfallen Fall 1 und 2, weil X Bernoulli und
nicht Gauss verteilt ist.
Der Fall 4 wurde eben betrachtet.
Der Fall 2 für kleine SP ist aufwändiger und wird hier
nicht betrachtet.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
78/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Übersicht
1. Einführung
2. Parameterschätzung
3. Intervallschätzung
4. Testen von Hypothesen
4.1 Test von Erwartungs- und Anteilswert
4.2 Median Test
4.3 χ2 Tests
χ2 Anpassungstest
χ2 Unabhängigkeitstest
4.4 Vergleich von Mittelwerten/Anteilswerten
4.5 Test auf Korrelation
4.6 Varianzanalyse
5. Regressionsanalyse
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
79/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Testen von Hypothesen
Bisher
Bisher wurde um einen Schätzwert t ein
Vertrauensintervall konstruiert, in dem der wahre
Wert θ in (1 − α) · 100 Prozent der Fälle liegt.
Oft will man jedoch ein eindeutiges
Entscheidungskriterium dafür, ob man mit einer
Schätzung nahe an einem hypothetischen/vermuteten
Wert liegt.
Lösung
Man stellt eine Hypothese θ0 für θ auf und leitet
daraus eine hypothetische Schätzerverteilung ab.
Unter dieser Verteilung kann dann die
Wahrscheinlichkeit für das Auftreten der
beobachteten Schätzstatistik ermittelt werden.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
80/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 1 - Test auf den Anteilswert
4.1 Test von Erwartungs- und Anteilswert
Beispiel 1 (Marktanteil)
Zur Schätzung des Marktanteils eines Unternehmens werden n = 100
Personen befragt.
Es ergab sich ein Schätzwert von P = 0.26. D.h. 26% in der SP waren
Käufer.
In der Vergangenheit war der Marktanteil des Unternehmens stets ca. 30
Prozent und die Geschäftsleitung geht davon aus, dass sich daran nichts
geändert hat.
Doch das Schätzergebnis erregt Zweifel beim Chef. Der Leiter des
Marketing beruhigt und weist darauf hin, dass die 26% durchaus im
Rahmen des üblichen Stichprobenfehlers liegen.
Der Chef will nun prüfen lassen, ob ein Marktanteil von 30% mit den 26%
aus der SP vereinbar ist.
Da P eine ZV ist, könnte der Marktanteil tatsächlich höher oder
(schlimmer) niedriger als 30% sein.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
81/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 1
2
4
6
8
Hypothetische Schätzerverteilung
0
Beispiel
0.0
0.1
0.2
0.3
P(2) P(1) π0
0.4
0.5
P(3)
π0 : hypothetischer Marktanteil
P : beobachteter Marktanteil
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
82/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 1
Frage
Wie wahrscheinlich ist es unter der hypothetischen Verteilung (basierend auf π = π0 ), daß sich ein Schätzwert
P = 0.26 oder kleiner ergibt? Ist der Schätzwert hinreichend
auffällig“ (signifikant), dass die Nullhypothese nicht mehr
”
haltbar ist?
Die Frage kann auf 2 unterschiedliche Arten entschieden
werden.
Möglichkeit 1: Direkte Berechnung dieser
Wahrscheinlicheit. Wenn der Wert sehr niedrig ist
(z.B. kleiner als ein vorgegebenes α), ist die
Null-Hypothese (bzw. die hypothetische Verteilung)
nicht zu halten. H0 wird abgelehnt.
Möglichkeit 2: Konstruktion eines KI in dem P in
(1 − α) · 100 Prozent der Fälle liegt, wenn π = π0 ,
d.h. unter der Annahme der Korrektheit der H0 .
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
83/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 1: Test basierend auf KI
Verteilung von P unter H0
Schritte
Stichprobe der Größe n = 100
Empirischer Anteilswert: P = 26%
AB
KI bzw. NAB
AB
Vermutung/Hypothese: π0 = 30%
α Fehler festlegen: α = 0.1
KI/NAB bestimmen:
q
0)
π0 ± z(1 − α2 ) · π0 (1−π
n
α σ
π0 − Z(1 − )
2 n
π0=0.3
P=0.26
α σ
π0 + Z(1 − )
2 n
Daraus ergibt sich unmittelbar der
AB.
Prüfung ob P ∈ KI (und somit
P ∈
/ AB)
wenn ja, H0 nicht ablehnen
wenn nein, H0 ablehnen
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
84/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 1 - Testdurchführung Schritt für Schritt
Gegeben
n = 100
π0 = 30%
P = 26%
α = 10%
Schritt 1
Hypothesen formulieren
H0 : π = π0 = 30%
H1 : π 6= 30%
Schritt 2
Konstruktion eines Intervalls um π0 , in dem P in (1−α)·100
Prozent der Fälle liegt.
hier ZGWS Bedingungen erfüllt
n · π0
n · (1 − π0 )
Dr. Kilian Plank
=
=
100 · 0.30
100 · 0.70
=
=
30 > 5
70 > 5
Statistik für Wirtschaftswissenschaftler
85/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 1 - Testdurchführung Schritt für Schritt
Schritt 2
Konfidenzintervall (Nichtablehnungsbereich NAB):
q
0)
π0 ± z(1 − α2 ) · π0 (1−π
n
q
0.3(1−0.3)
=
0.3 ± 1.65 ·
100
=
[0.3 ± 0.0765] = [0.2243; 0.3756]
Ablehnungsbereich (AB): [0; 0.2243) ∪ (0.3756; 1]
Schritt 3:
Ergebnis bzw.
Inferenz
P = 0.26 ∈ KI ⇒ H0 nicht ablehnen
Ergebnis ist nicht statistisch signifikant.
Gegeben H0 is das Auftreten von P nicht zu
unwahrscheinlich. Die Daten sprechen nicht
ausreichend gegen H0 .
Wäre P ∈
/ KI (P ∈ AB) ⇒ P zu unwahrscheinlich
bzw. H0 ablehnen.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
86/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Unterschied zwischen Nicht-Ablehnung und Annahme
MERKE
Eine Nicht-Ablehnung von H0 bedeutet aber nicht unbedingt, daß H0 wahr ist!
H0 Hypothese 1
H0 Hypothese 2
(1)
θ0
(2)
θ^ = t θ0
Der Schätzwert θ̂ = t liegt hier in beiden
Annahmebereichen.
(1)
Keine der Hypothesen (θ = θ0
abgelehnt werden.
Dr. Kilian Plank
(2)
u. θ = θ0 ) kann
Statistik für Wirtschaftswissenschaftler
87/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 2
Beispiel 2 (Aktienrenditen)
Es wird vermutet, daß die Wochenrenditen einer Aktie 4% im
Durchschnitt über die letzten 3 Jahre (= Grundgesamtheit) betrugen.
Es wurde eine Stichprobe über die letzten 2 Jahre erhoben:
n = 2 · 52 = 104 Wochen
α = 5%
Stichprobenstatistiken:
x = 0.02
s = 0.06
Unterschied zu Beispiel 1: jetzt Test des Erwartungswerts µ, vorher Test
des Anteilswerts
Schritt 1
Hypothesen formulieren:
H0 : µ = 0.04
H1 : µ 6= 0.04
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
88/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 2
Schritt 2
KI um µ0 = 0.04 bestimmen:
i
h
h
0.04 ± 1.96 ·
µ0 ± z(1 − α2 ) · √Sn =
=
0.06
√
104
i
[0.0284; 0.0515]
Alternativ Ablehnungsbereich (AB) bestimmen:
(−∞; 0.0284) ∪ (0.0515; +∞)
Schritt 3
Prüfung ob x ∈ KI oder ob x ∈ AB
Hier: x ∈
/ KI bzw. x ∈ AB
Folglich: H0 ablehnen
Ergebnis ist signifikant
Die Hypothese einer mittleren Rendite von 4% ist
aufgrund der Stichprobenergebnisse nicht haltbar.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
89/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
1-seitige vs. 2-seitige Tests
bislang
jetzt
2-seitige Tests
1-seitige Tests
Verteilung v. X unter H0
Verteilung v. X unter H0
AB
AB
θ0
H 0 : µ ≤ µ0
H1 : µ > µ0
Merke
θ0
H 0 : µ ≥ µ0
H1 : µ < µ0
H0 wird stets so formuliert, dass sie durch die SP möglichst
abgelehnt wird.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
90/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 2 mit einseitiger Hypothese
Beispiel 2 mit einseitiger Hypothese
Anders als vorher wird nun vermutet, dass die mittlere Aktienrendite
größer 4% ist.
Schritt 1
Hypothesen:
H0 : µ ≤ 0.04
H1 : µ > 0.04
Schritt 2
Schritt 3
Konfidenzintervall
−∞; µ0 + z1−α ·
S
√
n
i
=
h
=
[−∞; 0.0497]
−∞; 0.04 + 1.65 ·
0.06
√
104
i
Ergebnis: x̄ ∈ KI bzw. x̄ ∈
/ AB
⇒ H0 nicht ablehnen, Ergebnis ist insignifikant
Das Auftreten von x = 0.02 ist nicht
unwahrscheinlich, falls µ = 0.04 oder kleiner.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
91/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 2 mit p-Value
p-Value
Alternativ zum Konfidenzintervall kann man die Testentscheidung auch
dadurch herbeiführen, daß man die Wahrscheinlichkeit des Auftretens von
X in Ablehnungsrichtung berechnet (p-Value bzw. empirisches
Signifikanzniveau)
Ist die Wahrscheinlichkeit dafür dass |X − µ0 | > |x̄ − µ0 | (Abweichungen
von µ0 größer als beobachtet) kleiner als α, so wird H0 verworfen.
Beispiel 2 (zweiseitig) mit p-Value
Ansatz: unter H0 ist X̄ ∼ N (µ0 = 0.04, s2X̄ = 0.062 /104):
P |X − 0.04| > 0.02 = 2 · Φ 0.02−0.04
= 2 · Φ [−3.3993] = 0.0006 < α
0.06
√
104
Ergebnis:
p-Value < α ⇒ H0 ablehnen
Gegeben die Hypothese bzw. die hypothetische Schätzerverteilung ist x̄ zu
unwahrschlich.
Dies spricht für H1 .
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
92/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 2 mit P-Value und einseitiger Hypothese
Schritt 1
Hypothesen:
H0 : µ ≤ 0.04
H1 : µ > 0.04
Schritt 2
Was ist ex-ante zu erwarten gegeben x̄ = 0.02? Spricht dies
für H0 ?
P X > 0.02 | µ0 = 0.04; sX̄ = √0.06
104
= 1 − Φ 0.02−0.04
0.06
√
104
= 1 − 0.0003 = 0.99966
Schritt 3
p-Value > α ⇒ H0 nicht ablehnen
Gegeben die Hypothese bzw. die hypothetische
Schätzerverteilung ist x̄ sehr wahrscheinlich.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
93/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Beispiel 2 mit P-Value
Grafische Darstellung für Beispiel 2
2-seitig
1-seitig
P − Value>α
α
P − Value<
α
2
α
x=0.02 µ0=0.04
x=0.02 µ0=0.04
H0 : µ ≤ 0.04
H1 : µ > 0.04
H0 : µ = 0.04
H1 : µ 6= 0.04
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
94/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Fehler beim Testen von Hypothesen
Welche Fehler können bei einem Hypothesentest gemacht werden?
α Fehler
β Fehler
hypothetisch
wahr
α
α
α
α
2
2
2
2
x
µ=µ
µ0
x µ0
Dr. Kilian Plank
µ
Statistik für Wirtschaftswissenschaftler
95/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Fehler beim Testen von Hypothesen
Fehler
1. Art
µ0 wird abgelehnt obwohl es wahr ist. D.h. es trat
zufällig ein Stichproben-ergebnis x auf, das sehr
unwahrscheinlich ist.
Ein Maß dafür, wann etwas als sehr
”
unwahrscheinlich“ klassifiziert wird, ist α bzw. α/2.
Fehler
2. Art
µ0 wird nicht abgelehnt, obwohl es falsch ist.
Dieser Fehler ist umso wahrscheinlicher, je näher µ an
µ0 liegt. D.h. je näher die Verteilung von µ an der
von µ0 liegt, umso wahrscheinlicher generiert sie x im
KI von µ0 .
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
96/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Fehler beim Testen von Hypothesen
Klassifikation von Testfehlern
Der Fehler 1. Art ist kontrollierbar. Seine Wahrscheinlichkeit ist bekannt.
Der Fehler 2. Art ist nur indirekt kontrollierbar. Seine Wahrscheinlichkeit
kann nicht genau ermittelt werden.
Es ergibt sich folgende Klassifikation der Testergebnisse:
H0 wahr
H0 falsch
H0 beibehalten
korrekte
Entscheidung
Fehler 2. Art
β Fehler
H0 verwerfen
Fehler 1. Art
α Fehler
korrekte
Entscheidung
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
97/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Wahl der Hypothesen und Aussagekraft des Testergebnisses
Wahl der Hypothesen und Aussagekraft von Ablehnung und Nicht-Ablehnung
Wenn also H0 abgelehnt wird, so weiß man, daß diese Entscheidung (d.h.
Annahme von H1 ) mit der Wahrscheinlichkeit α falsch ist.
Dagegen weiß man bei Nicht-Ablehnung von H0 wenig. H0 könnte zwar
wahr sein, ebenso aber auch ein benachbarter Wert µ 6= µ0 . Man spricht
daher nicht von Annahme“ der H0 .
”
Das bedeutet, dass man den β Fehler nicht direkt unter Kontrolle hat. Zu
seiner Berechnung benötigt man den wahren Parameter.
Aus diesem Grund formuliert man das, was man beweisen möchte
oder was bei Fehlentscheidung zu großem Schaden führt in der H1 .
Hierzu folgendes Beispiel (nächste Folie).
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
98/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Wahl der Hypothesen und Aussagekraft des Testergebnisses
Beispiel (Produktionsausschuss)
Man möchte sicher gehen, dass die laufende Produktion nicht mehr als 1
Prozent Ausschuss enthält.
Da ein Stillstand mit hohen Kosten verbunden ist, soll die Produktion nur
dann stoppen, wenn man hinreichend sicher sein kann, dass der
Ausschussanteil zu hoch ist.
Die Hypothesen lauten:
H0 : π ≤ 0.01
H1 : π > 0.01
Damit ist folgendes gewährleistet:
Wenn die SP einen Ausschussanteil ergibt, der signifikant über 1% liegt, so
soll dies der Test anzeigen.
Bei Ablehnung von H0 kann man sagen, dass dies nur in α · 100 Prozent
der Fälle geschieht obwohl H0 wahr ist.
Die Wahrscheinlichkeit, die Produktion wegen falschem Alarm“ anzuhalten
”
ist steuerbar.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
99/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Fehler beim Testen von Hypothesen
β Fehler
Indirekt hat man den β Fehler über den α Fehler
unter Kontrolle.
Erhöht man nämlich die Wahrscheinlichkeit eines α
Fehlers (d.h. Erhöht man α), so sinkt damit die
Wahrscheinlichkeit eines β Fehlers.
Illustration
hypotetische Verteilung v. X
wahre Verteilung v. X
α2 α1 µ0
2 2
µ
Dr. Kilian Plank
α1 > α2
Die Wkt. daß die wahre
Verteilung
SP-Ergebnisse x im
blau-begrenzten Intervall
generiert (was einem β
Fehler entspricht) ist
sehr viel kleiner als für x
im rot-begrenzten KI.
Statistik für Wirtschaftswissenschaftler
100/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Fehler beim Testen von Hypothesen
idealer
Test
Bei einem idealen“ Test hat die Verteilung der Teststatistik
”
eine sehr kleine Varianz. α und β Fehler können gleichzeitig
sehr klein sein.
hypothetisch
wahr
KI
θ0
Trennschärfe
Hier könnte α beliebig klein
gesetzt werden, ohne damit die Wahrscheinlichkeit eines β Fehlers signifikant zu
erhöhen.
θ
Die Wahrscheinlichkeit, daß die wahre (rechte) Verteilung
x generiert, die ins KI von θ0 fallen, ist nahezu Null. D.h.
die Wahrscheinlichkeit eines β Fehlers ist nahezu Null. Man
sagt, der Test ist trennscharf“.
”
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
101/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Gütefunktion
Zur Beurteilung der Güte eines Tests kann die
Gütefunktion herangezogen werden.
Die Gütefunktion g(θ) gibt für alle möglichen wahren
Werte des gesuchten Parameters θ die
Wahrscheinlichkeit an, die H0 abzulehnen:
g(θ) = P (T ∈ AB | θ)
Merke
g(θ = θ0 ) = P (T ∈ AB | θ = θ0 ) = α
1 − g(θ) = β-Fehler
Der Verlauf der Gütefunktion gibt Auskunft über die
Power“ bzw. Trennschärfe des Tests.
”
Die Gütefunktion hat für einseitige und zweiseitige
Tests eine unterschiedliches Aussehen.
Übung
In der Übung wird die Berechnung der Gütefunktion für den
Test auf µ behandelt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
102/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Gütefunktion
Grafische Darstellung der Gütefunktion g(µ) für unterschiedliche einseitige
und zweiseitige Tests. Hier: µ0 = 0.
n = 10
n = 30
1.2
H0 : µ = µ0
H0 : µ ≤ µ0
H0 : µ ≥ µ0
0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.8
1.0
1.0
1.2
H0 : µ = µ0
H0 : µ ≤ µ0
H0 : µ ≥ µ0
α
0.0
0.0
α
−2
−1
0
1
2
µ
−2
−1
0
1
2
µ
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
103/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Überblick: Tests basierend auf einer oder zwei Stichproben
1-SP und 2-SP Tests
Abhängigkeit von SP
Man unterscheidet Tests für ein
Merkmal basierend auf einer SP
und Tests für ein oder zwei
Merkmale basierend auf zwei SP.
1-SP Tests (FS Kap. 2.1)
Erwartungswerttest
Anteilswerttest
Mediantest
χ2 Anpassungstest
2-SP Tests (FS Kap. 2.2, 3, 4)
SP unverbunden
Mittelwertvergleich
Varianzhomogenitättest
SP verbunden (abhängig)
Mittelwertvergleich
χ2 Unabhängigkeitstest
Test der Pearson Korrelation
Varianzanalyse
Regression
Bei zwei Stichproben ist es möglich,
dass bereits aufgrund der Art der
Ziehung die Stichproben(vektoren)
(X1 , . . . , Xn ) und (Y1 , . . . , Yn )
nicht unabhängig sind.
Dies ist zu unterscheiden von
Abhängigkeiten, die durch die
gemeinsame Verteilung von X und
Y entstehen.
Ein Beispiel für abhängige SP ist
etwa, wenn Xi und Yi an der
selben Person erhoben wird.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
104/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Median Test
4.2 Median Test
Eine Hypothese bezüglich des Medians eines
Merkmals soll getestet werden.
Es handelt sich dabei um einen verteilungsfreien
Test d.h. es ist keine Verteilungsannahme bezüglich
X nötig.
Beispiel (Alter der Konzertbesucher)
Eine Konzertagentur möchte den Median des (Merkmals) Alter“ ihrer
”
Kunden zum Zwecke der Marktsegmentierung wissen.
Es wird vermutet, daß etwa 50% der Konzertbesucher ein Alter kleiner als
48 haben.
α wird auf 10% festgesetzt.
Eine Stichprobe der Größe n = 29 wird erhoben.
Es ergab sich, daß t = 17 Personen ein Alter ≥ 48 haben.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
105/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Median Test
Die prinzipielle Vorgehensweise ist analog zum Test
auf den Erwartungswert:
1
2
3
Schritt 1
Hypothesen formulieren
Konfidenzintervall bzw. Ablehnungsbereich
bestimmen
Testergebnis bestimmen
Hypothesen:
H0 : x0.5 = 48
H1 : x0.5 6= 48
Schritt 2
Da die Stichprobenelemente unabhängig gezogen
werden, gilt für die hypothetische Verteilung der
Prüfgröße T0 (= Anzahl an Personen mit Alter größer
gleich 48):
T0 ∼ B(n, 0.5)
T0 is binomial verteilt mit Parametern n und 0.5.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
106/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Median Test
0.10
0.05
Prob(T0 = t0)
0.15
0.20
Ermittlung des Ablehnungsbereichs basierend auf der hypothetischen Verteilung der Prüfgröße T0 ∼ B(n, π0 )
0.037
0.037
0.00
Schritt 2
0
5
10
15
20
25
30
T0
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
107/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Median Test
Schritt 2
Konfidenzintervall: → KI = (9; 20), denn
P (T0 ≤ 9) = 0.0307 ≤ α/2 = 0.05
P (T0 ≥ 20) = 1 − 0.9693 = 0.0307 ≤ α/2 = 0.05
Das Signifikanzniveau α wird somit nicht voll
ausgeschöpft. Der Test ist konservativ.
Schritt 3
Ergebnis:
t = 17 ∈
/ AB
⇒ H0 nicht ablehnen
t = 17 spricht nicht signifikant für einen höheren o.
niedrigeren Anteil der Personen mit Alter größer
gleich 48.
Der Alters-Median kann durchaus bei 48 liegen.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
108/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Tests
4.3 Chi-Quadrat Tests
Mit Hilfe eines sog. Anpassungstests“ / Verteilungstests“ bzw.
”
”
Goodness-of-Fit“ Test kann geprüft werden, ob die empirische Verteilung
”
eines Merkmals einer bestimmten theoretischen Verteilung entspricht.
Man geht dabei grob wie folgt vor:
Man zieht eine Stichprobe zu einem Merkmal X und bestimmt die
(empirische) Häufigkeitsfunktion h(aj ), j = 1, · · · , J einer Menge an
Ausprägungsklassen aj .
Diese empirische relative Häufigkeitsfunktion soll anschließend mit einer
theoretischen Wkt.funktion π(aj ) verglichen werden. Für π(aj ) kommen
sowohl stetige als auch diskrete Verteilungen in Frage (z.B.
Normalverteilung, Poissonverteilung).
Ein Hypothesentest soll prüfen, ob die beobachteten Häufigkeiten signifikant
von den erwarteten (theoretischen) Häufigkeiten (Wahrscheinlichkeiten)
abweichen.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
109/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
4.3.1 χ2 Anpassungstest
Beispiel (Kundenverteilung über die Woche)
Es soll geprüft werden, ob der Anteil an Besuchern eines Ladens über die
Woche gleichverteilt ist.
Die SP-Größe ist n = 100.
Die SP ergab folgende relative Häufigkeiten (= empirische Verteilung)
Wochentag
h(aj )/n
π0j
1
0.143
0.166
2
0.158
0.166
3
0.192
0.166
4
0.209
0.166
5
0.166
0.166
6
0.129
0.166
h(aj )/n sind die beobachteten relativen Häufigkeiten
π0j sind die erwarteten Häufigkeiten bei gleichmäßiger Verteilung
Hypothesen:
H0 : P (X = aj ) =
H1 : P (X = aj ) 6=
1
6
1
6
für aj ∈ {1, . . . , 6} (Wochentage)
für mind. ein aj
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
110/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
Hypothesen allgemein
H0 : P (X = aj ) = π0j für j = 1, . . . , J
H1 : P (X = aj ) 6= π0j für mind. ein j
Teststatistik/Prüfgröße
T =
6
6
X
X
(h(aj ) − n · π0j )2
(n · f (aj ) − n · π0j )2
=
n · π0j
n · π0j
j=1
j=1
(h(aj ) − n · π0j )2 : quadrierte Abweichung zwischen beobachteter
Häufigkeit und erwarteter Häufigkeit
Häufig wird die Prüfgröße auch mit χ2 bezeichnet.
Beispiel (Kundenverteilung)
T =
(100·0.143−100·0.166)2
100·0.166
+
(100·0.158−100·0.166)2
100·0.166
Dr. Kilian Plank
+ · · · = 2.6816
Statistik für Wirtschaftswissenschaftler
111/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
Verteilung der Teststatistik/Prüfgröße unter H0
Die Verteilung von T bzw. χ2 kann über den ZGWS approximiert werden.
Wenn
n · π0j ≥ 1 ∀j
n · π0j ≥ 5 für mindestens 80% der Summanden
so ist T approximativ Chi-Quadrat verteilt mit J − 1 Freiheitsgraden:
T ∼ χ2 (J − 1)
Beispiel (Kundenverteilung im Laufe der Woche)
Im Beispiel: T0 ∼ χ2 (5)
J = 6 Klassen
J − 1 = 6 − 1 = 5 Freiheitsgrade
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
112/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
χ2 Verteilung
0.5
χ2(2)
χ2(5)
χ2(10)
χ2(20)
0.4
Dichte f(x)
0.3
0.0
0.1
0.2
0.1
0.0
f(x)
0.4
Normal N(0,1)
Student t(2)
χ2(5)
0.3
0.5
Dichte
Wenn Xi ∼ N (0, 1) und unabhängig, dann
Pn
2
2
i=1 Xi ∼ χ (n)
0.2
χ2 Verteilung
−5
0
5
10
0
10
20
x
30
40
x
Vergleich Verteilungen von
Prüfgrößen/Teststatistiken
Dr. Kilian Plank
Vergleich von χ2
Verteilungen mit
unterschiedlichen
Freiheitsgraden
Statistik für Wirtschaftswissenschaftler
113/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
J-1
Quantile der χ2 Verteilung via Tabelle
1
2
3
4
5
6
7
8
9
10
0,75
1,32330
2,77259
4,10834
5,38527
6,62568
7,84080
9,03715
10,21885
11,38875
12,54886
0,9
2,70554
4,60517
6,25139
7,77944
9,23636
10,64464
12,01704
13,36157
14,68366
15,98718
0,95
3,84146
5,99146
7,81473
9,48773
11,07050
12,59159
14,06714
15,50731
16,91898
18,30704
1-α
0,975
5,02389
7,37776
9,34840
11,14329
12,83250
14,44938
16,01276
17,53455
19,02277
20,48318
0,99
6,63490
9,21034
11,34487
13,27670
15,08627
16,81189
18,47531
20,09024
21,66599
23,20925
0,995
7,87944
10,59663
12,83816
14,86026
16,74960
18,54758
20,27774
21,95495
23,58935
25,18818
0,999
10,82757
13,81551
16,26624
18,46683
20,51501
22,45774
24,32189
26,12448
27,87716
29,58830
Das 90% Quantil χ2 (0.90; 6 − 1) lautet 9.236.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
114/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
Ablehnungsbereich und Konfidenzintervall
Konfidenzintervall (KI/NAB):
0; χ2 (1 − α; J − 1)
Ablehnungsbereich (AB):
χ2 (1 − α; J − 1); +∞
Beispiel (Kundenverteilung im Laufe der Woche)
für α = 10%
KI:
0; χ2 (0.9; 5) = [0; 9.236]
AB:
(9.236; +∞)
T = 2.6816 ∈
/ AB
H0 nicht ablehnen
Die beobachteten Häufigkeiten sprechen nicht signifikant gegen die H0 .
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
115/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
Merke
Höhere Werte von T führen tendenziell zur
Ablehnung der H0 .
0.5
Dies macht Sinn, denn höhere T bedeuten höhere
quadratische Differenzen zwischen beobachteter und
theoretischer Verteilung.
0.3
0.2
0.1
0.0
χ2(0.95,20)
χ2(0.95,10)
χ2(0.95,5)
χ2(0.95,2)
Dichte f(x)
0.4
χ2(2)
χ2(5)
χ2(10)
χ2(20)
0
10
20
30
40
x
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
116/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
Test einer stetigen Verteilung
stetige
Verteilungen
Bei stetigen Verteilungen muß der Ergebnisraum von X
in Teilintervalle zerlegt werden und die theoretische Wahrscheinlichkeit für jedes dieser Intervalle berechnet werden.
Vorgehen bei Test auf Normalverteilung: H0 : X ∼ N (µ, σ 2 )
Festlegung von Klassen bzw. Intervallen aj := (cj , cj+1 )
Berechnung der theoretischen Wkt.
π0j = P (X ∈ (cj−1 , cj )) = Φ(
cj−1 − µ
cj − µ
) − Φ(
)
σ
σ
Berechnung der Teststatistik
T =
J
X
(h (aj ) − n · π0j )2
n · π0j
j=1
Vergleich mit dem 1 − α Quantil der passenden χ2 Verteilung,
χ2 (1 − α, J − 1).
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
117/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Anpassungstest
0.5
Test einer stetigen Verteilung
0.3
0.2
0.0
0.1
Dichte f(x)
0.4
c3
c2
N(0,1) Dichte
c1
c6
c5
c4
c3
c2
c1
Grafik
−4
−2
0
2
4
x
Merke
Sind die Parameter der hypothetischen Verteilung
unbekannt, müssen sie aus der SP geschätzt werden.
Für jeden geschätzten Parameter sinkt die Anzahl der
Freiheitsgrade von χ2 um 1.
Beispiel: Test auf Normalverteilung
(H0 : X ∼ N (µ, σ 2 ))
Schätzung von µ und σ 2 durch X̄ bzw. S 2
Folglich ist T ∼ χ2 (J − 1 − 2).
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
118/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Unabhängigkeitstest
4.3.2 χ2 Unabhängigkeitstest
Grundgedanken zum Unabhängigkeitstest
Bei obigen Anpassungstest wurde eine 1-dimensionale Verteilung geprüft.
Mit demselben χ2 Test können aber auch 2-dimensionale Verteilungen
geprüft werden.
Nachfolgend soll der χ2 Test dazu verwendet werden zu testen, ob zwei
Merkmale X und Y unabhängig sind.
Hierzu wird geprüft, ob die gemeinsame Verteilung von X und Y der
Verteilung bei Unabhängigkeit entspricht.
Es handelt sich hierbei um einen Test zweier Merkmale basierend auf zwei
verbundenen Stichproben. Bislang betrachteten wir lediglich ein Merkmal
basierend auf einer Stichprobe.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
119/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Unabhängigkeitstest
Vorgehen beim Test auf eine gemeinsame Verteilung
1
Ermittlung der gemeinsamen empirischen Häufigkeiten hjk = h(aj , bk )
von X und Y (j = 1, · · · , J, k = 1, · · · , K).
2
Ermittlung der gemeinsamen theoretischen (erwarteten) Häufigkeiten π0jk
von X und Y . Da auf Unabhängigkeit getestet werden soll, ist π0jk die
Tabelle der gemeinsamen Verteilung bei Unabhängigkeit (Produkt der
Randwahrscheinlichkeiten).
3
Ermittlung der Teststatistik
T =
J X
K
hjk −
X
j=1 k=1
4
h(aj )·h(bk )
n
2
h(aj )·h(bk )
n
Vergleich mit dem χ2 -Quantil. H0 ablehnen, wenn:
T > χ2 (1 − α; (J − 1)(K − 1))
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
120/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Unabhängigkeitstest
Beispiel (Kaufabsichten der Geschlechter)
Zum Zwecke der Marktforschung werden Frauen und Männer bezüglich
ihrer Kaufabsichten für ein neues Produkt befragt.
Merkmal X ∈ {Mann, Frau}
Merkmal Y ∈ {Kauf, Nicht-Kauf}
Die Befragung ergab folgende absolute Häufigkeiten (genauer:
Kontingenztabelle der beobachteten absoluten Häufigkeiten hjk )
P
Mann Frau
Kauf
350
50
400
Nicht-Kauf
P
0
350
100
150
100
500
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
121/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Unabhängigkeitstest
Beispiel (Geschlechterspezifische Kaufabsichten)
1
Hypothesen
H0 : X, Y unabhängig
H1 : X, Y abhängig
2
Erwartete Häufigkeiten h(aj )h(bk )/n bei Unabhängigkeit:
Kauf
Nicht-Kauf
P
3
Mann
Frau
P
400·350
= 280
500
350·100
= 70
500
400·150
= 120
500
100·150
= 30
500
400
350
150
500
100
Teststatistik/Prüfgröße
T =
J X
K
2 X
2
X
X
(hjk − h(aj )h(bk )/n)2
(350 − 280)2
=
+ ···
h(aj )h(bk )/n
280
j=1
j=1
k=1
k=1
= 17.5 + 70 + 40.83̄ + 163.3̄ = 291.6̄
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
122/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
χ2 Unabhängigkeitstest
Beispiel (Geschlechterspezifische Kaufabsichten)
Hinweis zur Teststatistik T : In der Formelsammlung findet sich
n · π̂ij = h(aj )h(bk )/n. Der Grund für das Dach ist die Tatsache, dass die
gemeinsamen Verteilung bei Unabhängigkeit aus den empirischen
Randverteilungen geschätzt wird.
KI:
[0; χ2 (0.95; 1 · 1)] = [0; 3.841]
AB:
(χ2 (0.95; 1 · 1); +∞) = (3.841; +∞)
Testentscheidung:
T weit im Ablehnungsbereich
H0 ablehnen
Dies ist zu erwarten, da sich die Mehrheit ( 23 ) der Frauen für Nicht-Kauf
und alle Männer für Kauf entschieden.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
123/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Vergleich zweier Mittelwerte
4.4 Vergleich von Mittelwerten/Anteilswerten
Ein weiterer Test basierend auf zwei Stichproben ist der Vergleich von
Mittelwerten.
Beispiel (Benzinpreisniveau)
Es wird behauptet, daß das Benzinpreisniveau in Regensburg über dem in
München liegt.
2 Stichproben der Größen n = 10 bzw. m = 10 ergaben:
x̄ = 1.49 (Regensburg)
ȳ = 1.45 (München)
Wir unterscheiden folgende Fälle
Varianzen sind bekannt, X, Y sind normalverteilt (NV) (1. Fall).
Varianzen sind unbekannt, X, Y sind normalverteilt (NV) und
σX = σY (Varianzhomogenität) (2. Fall)
σX 6= σY
X, Y sind beliebig verteilt und n > 30.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
124/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Vergleich zweier Mittelwerte
Beispiel 1. Fall
Es ist bekannt
σX = 0.03, σY = 0.03
α sei 10%
Hypothesen
H0 : µY ≥ µX
H1 : µY < µX
Für D̄ = X̄ − Ȳ kann man die Hypothesen wie folgt umformulieren:
H0 : µD̄ ≤ 0
H1 : µD̄ > 0
Verteilung von D̄ allgemein
2
X und Y werden als NV und unabh. angenommen =⇒ D̄ ∼ N (µD̄ , σD̄
)
Varianz von D̄
σ2
σ2
2
σD̄
= V D̄ = V X̄ − Ȳ = V X̄ + V Ȳ = X + Y
n
m
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
125/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Vergleich zweier Mittelwerte
Teststatistik allgemein
Sei δ0 die (max./min.) hypothetische Differenz: H0 : µD̄ S δ0
im Beispiel also δ0 = 0.
Teststatistik
X̄ − Ȳ − 0
X̄ − Ȳ − δ0
= q 2
Z= q 2
2
σX
σY
σX
σ2
+ m
+ mY
n
n
Beispiel (Benzinpreisniveau)
Z=
q1.49−1.45−0
0.032 + 0.032
10
10
= 2.9814
KI: [−∞; 1.28]
AB: (1.28; +∞]
Z ∈ AB
H0 ablehnen
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
126/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Vergleich zweier Mittelwerte
hypothetische Verteilung v. D
0.1
0.2
0.3
0.4
Grafik zum Benzinpreis Beispiel
0.0
AB
δ0 1.28 X − Y
Var(D)
Dr. Kilian Plank
= 2.98
Statistik für Wirtschaftswissenschaftler
127/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Vergleich zweier Mittelwerte
Beispiel 2. Fall
Im Fall 2 sind X und Y wieder normalverteilt und unabhängig,
2
X ∼ N (µX , σX
), Y ∼ N (µY , σY2 ).
2
Die Varianzen sind unbekannt aber identisch: σX
= σY2
Schätzung der Varianz über die Stichprobenvarianzen
→ sX = 0.03 und sY = 0.04
Prüfgröße im 2. Fall
Prüfgröße:
X̄ − Ȳ − δ0
X̄ − Ȳ − 0
T = q
= q
1
1
1
s2 n + m
s2 n1 + m
wobei s2 =
2
(n−1)·s2
X +(m−1)·sY
n+m−2
Verteilung der Prüfgröße ist von der Stichprobengröße abhängig
bei großer SP: T ∼ N (0, 1)
bei kleiner SP: T ∼ t(n + m − 2)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
128/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Vergleich zweier Mittelwerte
Beispiel (Benzinpreisniveau)
T =
1.49−1.45−0
q
1 + 1
s2 ·( 10
10 )
= 2.529, wobei s2 = 0.00125
t(n + m − 2; 1 − α) = t(18; 1 − α) = 1.33
KI:(−∞; 1.33] bzw. AB:(1.33, +∞)
T ∈ AB
H0 ablehnen
Merke
weitere Fälle bzw. Varianten: (Fahrmeir 11.2.1, FS S. 41)
Fall 3: σX 6= σY
Fall 4: X, Y beliebig verteilt
einseitige / zweiseitige Tests
verbundene Stichproben (FS S. 48), obige
Teststatistiken basieren auf unverbundenen SP.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
129/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Test auf Korrelation
4.5 Test auf Korrelation
Beispiel
Die logarithmierten Returns zweier Aktien seien normalverteilt:
2 )
X ∼ N (µX , σX
2 )
Y ∼ N (µY , σY
Bei gemeinsam normal verteilten ZV (X, Y ) impliziert Unkorreliertheit
Unabhängigkeit und umgekehrt.
Es soll geprüft werden, ob die Returns abhängig sind.
Test der Pearson Korrelation
Test auf Unabhängigkeit normalverteilter Merkmale via Pearson
Korrelationskoeffizient:
ρXY = p
Cov(X, Y )
V ar(X) · V ar(Y )
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
130/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Test auf Korrelation
Test der Pearson Korrelation auf Null
Hypothesen
H0 : ρXY = 0
H1 : ρXY 6= 0
Teststatistik
s
T = rXY ·
n−2
∼ t(n − 2)
2
1 − rXY
AB
|T | > t1− α2 (n − 2)
Beispiel (Aktienrenditen)
Es ist gegeben:
Stichprobe der Größe n = 25
2-seitiger Test
α = 0.05
empirischer Korrelationskoeffizient aus der SP: rXY = 0.2
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
131/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Test auf Korrelation
Beispiel (Aktienrenditen)
Hypothesen
H0 : ρXY = 0
H1 : ρXY 6= 0
T = 0.2 ·
q
25−2
1−0.22
= 0.9789
KI: [0 ± t0.975 (n − 2)] = [−2.069; +2.069]
AB: (−∞; −2.069) ∪ (+2.069; +∞)
T ∈
/ AB
H0 nicht ablehnen
rXY nicht signifikant von Null verschieden
Beachte
für den allgemeinen Fall H0 : ρXY = ρ0 - siehe
Fahrmeir 11.4.2 bzw. FS. 2.2.2.4
Für X und Y wird die Normalverteilung
vorausgesetzt!
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
132/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Test von Erwartungs- und Anteilswert
Median Test
χ2 Tests
Vergleich von Mittelwerten/Anteilswerten
Test auf Korrelation
Varianzanalyse
Varianzanalyse
4.6 Varianzanalyse
vorher
Im Beispiel zum Vergleich von Mittelwerten (4.4) wurde
getestet, ob sich in zwei Regionen der mittlere Benzinpreis
signifikant unterscheidet.
jetzt
Die Varianzanalyse erweitert diese Fragestellung. Mit ihrer
Hilfe kann geprüft werden, ob sich die mittleren Benzinpreise
in mehr als zwei Regionen unterscheiden.
Hypothese
H 0 : µ1 = µ2 = . . . = µm
H1 : mindestens zwei µk sind unterschiedlich
Verweis
Die Varianzanalyse wird später behandelt. Sie wird hier
erwähnt aufgrund des Bezugs zu den Mittelwertvergleichstests.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
133/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Übersicht
1. Einführung
2. Parameterschätzung
3. Intervallschätzung
4. Testen von Hypothesen
5. Regressionsanalyse
5.1 Beispiele
5.2 Ordinary Least Squares
5.3 Modellgüte
5.4 Hypothesentests
5.5 Prognosen
6. Varianzanalyse
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
134/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Einführung in die Regressionsanalyse
5 Regressionsanalyse
Ziel
Ein wesentliches Erkenntnisziel der Statistik und insbesondere der Ökonometrie ist die Aufdeckung von Zusammenhängen zwischen Variablen.
Korrelationsanalyse
Regression
symmetrisch
asymmetrisch
Korrelationsanalyse:
symmetrisch
Eine symmetrische Form der Analyse von
Zusammenhängen wurde bereits eingeführt, die
Korrelationsanalyse.
Dabei wurden Abhängigkeiten zwischen zwei
Variablen X und Y aufgedeckt. X und Y waren
gleichrangig, daher symmetrisch“.
”
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
135/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Einführung in die Regressionsanalyse
Regression:
asymmetrisch
Frage
Demgegenüber sollen nun asymmetrische Beziehungen von
X und Y geklärt werden. Beantwortet werden soll also die
Frage, ob eine (oder mehrere) Variable(n) X eine andere
Variable Y beeinflussen bzw. erklären kann.
Kann Y im Mittel als Funktion von X1 , · · · , Xp
geschrieben werden?
Y = f (X1 , · · · , Xp )
Genauer: Lässt sich gegeben X1 , · · · , Xp die Variable
Y oder zumindest deren Mittelwert vorhersagen?
X1 , · · · , Xp sind unterschiedliche Variablen, d.h.
Merkmale. Die Beobachtung jeder dieser Variablen
(und auch von Y ) erfolgt am gleichen Merkmalsträger
(z.B. eine Person wird nach Alter (X1 ), Geschlecht
(X2 ), etc. befragt).
Wir beschränken uns nun auf eine Variable X (p = 1).
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
136/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiel 1
5.1 Beispiele
Beispiel 1
Erklärung von Aktienrenditen durch die Renditen eines Index
X: (Log-)Rendite eines Unternehmens (wöchentlich)
(z.B. Deutsche Bank)
Y : (Log-)Rendite eines Index (z.B. DAX)
Daten
Obs.
1
2
3
..
.
Y
y1
y2
y3
..
.
X
x1
x2
x3
..
.
Dr. Kilian Plank
“verbundene
Stichprobe”
Statistik für Wirtschaftswissenschaftler
137/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiel 1
Scatterplot
●
●
●
3
●
●
Gerade: β0 + β1x ●
●
●
●
●
2
1
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
● ●
●
● ●●
●
●
●●●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
−1
●
●
●
●●● ●●●● ●
●
●●
●
●
●
●
●
●
●
●
●●
●● ●
●
●
●
●
●
●
●
−2
●
●
●
●
●
−3
Y
●
●
●
●
●
●
●
●
●
−3
−2
−1
0
1
2
3
X
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
138/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiel 1
Feststellungen
1
Es liegt tendenziell ein positiver Zusammenhang vor.
Größere xi gehen einher mit größeren yi .
2
Eine Gerade y = β0 + β1 x kann den Trend recht gut
approximieren.
Für ein gegebenes x können unterschiedliche y Werte
auftreten. Z.B. kann eine DBK Rendite von 3%
einmal mit einer DAX Rendite von 2% und einmal mit
1.5% auftreten.
3
Es scheint jedoch als könne man durch die Gerade
das mittlere y für ein bestimmtes x vorhersagen.
4
Die Punkte (xi , yi ) liegen nicht auf einer Geraden
yi = β0 + β1 · xi
d.h., der Zusammenhang ist nicht perfekt linear.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
139/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiel 2
Beispiel 2
Erklärung des Einkommens durch den Bildungsstand
Y : (Log-)Jahreseinkommen
X: Anzahl Ausbildungsjahre
Fragen
Kann das Jahreseinkommens in der Bevölkerung
durch das Bildungsniveau erklärt werden?
Ist die Anzahl der Ausbildungsjahre eine passende
Variable zur Messung bzw. Vorhersage des
Ausbildungsniveaus?
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
140/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiel 2
Scatterplot
●
●
60
70
Gerade: β0 + β1x
Bedingter Mittelwert y | x
●
●
●
●
50
●
●
40
●
Y
●
●
30
●
●
●
●
20
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
10
●
0
●
●
0
5
10
15
20
25
X
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
141/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiel 2
Feststellungen
1
Es liegt tendenziell ein positiver Zusammenhang vor.
Höhere Einkommen scheinen durch längere
Ausbildungszeiten erklärbar.
2
Für ein gegebenes x können unterschiedliche y Werte
auftreten. Einzelne yi sind schlecht vorhersagbar.
3
Aber: Betrachtung des mittleren y gegeben x.
4
Die Punkte (xi , yi ) liegen nicht auf einer Geraden. Es
gibt eine gewisse Abweichung von der Geraden.
5
Der bedingte Mittelwert ȳ | x scheint jedoch ähnlich
einer Geraden zu verlaufen (man vergleiche blaue und
rote Kurve).
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
142/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiel 3
Beispiel 3
Erklärung von Absatzzahlen durch den Preis
yi : Absatzmenge in Periode i (z.B. Tag)
xi : Preis in Periode i
100
Scatterplot
Gerade: β0 + β1x
Y
60
80
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Der Scatterplot impliziert,
daß Preiserhöhungen zu reduzierten Absatzzahlen führen
●
●
●
●
40
●
●
0
20
●
0
5
10
15
X
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
143/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regression: Beispiele
Fazit
In allen drei Beispielen ist ein nicht unerheblicher
Einfluß von X auf Y gemäß Streudiagramm zu
vermuten.
Jedoch können die Punkte (xi , yi ) nicht durch eine
Gerade erklärt werden.
Mögliche Ansätze zur Abbildung bzw. Messung des
Zusammenhangs:
1
Ansatz 1: Korrelation von X und Y schätzen
2
Ansatz 2: Bedingter Mittelwert durch Gerade
approximieren plus Fehler
3
Ansatz 3: Gerade suchen, die die Punktemenge
möglichst gut repräsentiert
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
144/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Wie bestimmt man die Regressionsgerade?
●
15
10
15
10
10
15
Erklärung von n Beobachtungen mittels einer Geraden.
●
●
●
y
y
y
●
●
5
5
5
●
●
● ●
●
●
●
●
●
●
●●●
●
● ●
●●
●● ●
●
●
●
●●
●
● ●
● ● ●
● ● ●●
● ●
●●●
●
●● ●●
●● ●●
● ●
●●
●
● ●
●
●● ●
●●
●● ● ●●
●● ●
● ● ● ●●
●
●●
● ●
●
●
●●● ●
●
●
●
●
●
●
●
●
●
●
0
5
10
15
0
0
●
0
●
0
5
x
n=2
Fazit
10
15
0
5
x
10
15
x
n=3
n = 100
Eine exakte Erklärung der Punkte durch eine Gerade ist nur
möglich, wenn n = 2 bzw. wenn alle Punkte auf einer Geraden liegen. Bei n > 2 benötigt man ein anderes Kriterium.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
145/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Ordinary Least Squares
5.2 Ordinary Least Squares
Gesucht ist ein Kriterium, mit dem durch ein lineares Modell
y = f (x) = β0 + β1 · x
die Punktewolke optimal erklärt wird.
10
15
f(xi) = β0 + β1xi
Man kann jede Beobachtung
yi nur mit einem Fehler εi
erklären.
●
y
●
●
5
●
Störterm: εi = yi − f(xi)
X : Regressor
Y : Regressand
●
0
●
0
1
2
3
4
5
6
7
x
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
146/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Schätzer für die Regressionsgerade
Schätzer 1
Schätzer 2
Es wurden verschiedene Methoden bzw. Kriterien untersucht, um die Parameter β0 u. β1 und somit die Lage der
Geraden festzulegen.
P
(βˆ0 , βˆ1 ) = argminβ0 ,β1 i |εi |
Wähle β0 u. β1 so, daß die Summe der absoluten
Abweichungen von der Geraden minimal ist.
P
(βˆ0 , βˆ1 ) = argminβ0 ,β1 i ε2i
Wähle β0 u. β1 so, daß die Summe der quadrierten
Abweichungen von der Geraden minimal ist. (sog.
Ordinary Least Squares (OLS)“ oder kleinste
”
”
Quadrate (KQ)“ Schätzer von β0 u. β1 )
Ausreisser
Wegen des Quadrats ist der OLS Schätzer stärker durch
sog. Ausreisser“ (d.h. ungewöhlich stark abweichende Be”
obachtungen) beeinflußt. Aufgrund seiner mathematischen
Einfachheit und einiger optimaler statistischer Eigenschaften ist er dennoch der bedeutendste Schätzer in der Praxis.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
147/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Herleitung des Schätzers
Herleitung KQ/OLS Schätzer
Kriterium: Minimiere die Fehlerquadratsumme
S(β0 , β1 ) =
n
X
(yi − (β0 + β1 · xi ))2
i=1
1. Ableitungen Null setzen:
∂S
∂β0
∂S
∂β1
=
P
2 · (yi − (β0 + β1 · xi )) · (−1) = 0
=
P
2 · (yi − (β0 + β1 · xi )) · (−xi ) = 0
i
i
Nach Umformung ergibt sich:
βˆ0 = ȳ − βˆ1 · x̄
P
Pi −x̄)(yi 2−ȳ) =
βˆ1 = (x
(xi −x̄)
sxy
s2x
Überprüfung der 2. Ableitungen zeigt, dass es sich um ein Minimum
handelt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
148/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Geschätzte und Wahre Gerade
Grafik
Man unterscheide:
15
f (xi ) = β0 + β1 · xi
(wahre (unbek.) Gerade)
f(xi) = β0 + β1xi
^ ^
y^ = β + β x
yi = β0 + β1 · xi + εi
(wahres Gesamtmodell)
yˆi = βˆ0 + βˆ1 · xi
(geschätzte Gerade)
1 i
0
10
i
●
y
●
ε̂i = yi − ŷi
(geschätzte Fehler, Residuen)
●
5
●
Unterscheide:
Fehler ε vs. Residuum ε̂
εi ^εi
●
0
●
0
1
2
3
4
5
6
7
x
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
149/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Beispiel
Beispiel (Preis-Absatz)
Variablen
y: Absatz
x: Preis
→ Daten: siehe Folie
Modell
y = β0 + β1 · x + ε
ε ∼ N (0, σε2 )
Schätzung β1
β̂1 =
P
(xi −x̄)(yi −ȳ)
iP
2
i (xi −x̄)
=
−81.63
308.69
= −0.2644
mit x̄ = 11.72 und ȳ = 96.09
negativer Zusammenhang zwischen Preis und Absatz
Schätzung β0
β̂0 = ȳ − βˆ1 · x̄
β̂0 = 96.09 − (−0.2644) · 11.72
β̂0 = 99.19
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
150/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Datenarten
Datenarten
Im letzten Beispiel sollte der Absatz Yi durch den Preis Xi erklärt werden.
Dabei können die Daten auf unterschiedliche Arten erhoben werden.
(Xt , Yt ) werden zu unterschiedlichen Zeitpunkten t aber im gleichen
Supermarkt gemessen (Zeitreihe)
(Xi , Yi ) werden zum gleichen Zeitpunkt aber in unterschiedlichen
Supermärkten gemessen (Querschnitt)
Ein Querschnitt wird zu unterschiedlichen Zeitpunkten gemessen, d.h.,
eine Mischung aus 1. und 2. (Panel)
Diesen unterschiedlichen Datengrundlagen wird in der Ökonometrie durch
unterschiedliche Regressionsmodelle Schätzung getragen.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
151/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Modellgüte
5.3 Modellgüte
Über die Güte des geschätzten Modells gibt eine Streuungszerlegung Auskunft.
Herleitung der Streuungszerlegung
Es gilt:
1
2
yi = βˆ0 + βˆ1 · xi + ˆi
ȳ = β̂0 + βˆ1 · x̄
Subtraktion der Gleichungen ergibt:
yi − ȳ = βˆ1 · (xi − x̄) + ˆi
Quadrieren und Summieren (über alle i):
X
X 2 X
X 2
2 X
(yi − ȳ)2 = βˆ1 ·
(xi − x̄)2 +
ˆi =
(ŷi − ȳ)2 +
ˆi
i
i
Dr. Kilian Plank
i
i
Statistik für Wirtschaftswissenschaftler
i
152/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Streuungszerlegung
unter
Verwendung
P
Gemäß Optimalbedingung ist i (xi − x̄) · ˆi = 0
P
Somit auch 2β̂1 i (xi − x̄) · ˆi = 0
Der Mittelterm der Binomialformel entfällt oben.
ergibt sich die folgende Zerlegung:
Streuungszerlegung
P
2
i (yi − ȳ)
SST
(Total Sum
of Squares)
SQT
=
=
=
P
ˆi
i (y
− ȳ)2
SSE
(Explained Sum
of Squares)
SQE
Dr. Kilian Plank
− yi )2
+
P
+
SSR
(Residual Sum
of Squares)
SQR
+
ˆi
i (y
Statistik für Wirtschaftswissenschaftler
153/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Bestimmtheitsmaß
Die Summen sind skalenabhängig, daher wird die Erklärungsgüte relativ gemessen:
Bestimmtheitsmaß
R2 =
SSE
Varianz
= erklärte
SST
Gesamtvarianz
2 P
2
ˆ
β
·
(x
−x̄)
i
R2 = 1P (yi −ȳ)
2
i i
P
[ (xi −x̄)(yi −ȳ)]2
R2 = P (xi −x̄)2 ·P (y −ȳ)2
i
i
i i
R2 =
Cov(X,Y )2
V ar(X)·V ar(Y )
2
R2 = rXY
Da −1 ≤ rXY ≤ +1 ⇒ 0 ≤ R2 ≤ 1
Interpretation
Werte nah bei 1 sprechen für ein sehr gutes Modell. Für
R2 → 0 wird nur sehr wenig Varianz in den Daten erklärt.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
154/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Beispiel
Beispiel (Preis-Absatz)
P
SST = i (yi − ȳ)2 = 27.22
2 P
SSE = βˆ1 · i (xi − x̄)2 = 21.59
R2 =
SSE
SST
=
21.59
27.22
= 0.7929
Ergebnis: 80% der Gesamtvarianz werden durch das Modell erklärt. Dies
spricht für eine hohe Anpassungsgüte bzw. einen guten Fit.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
155/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Hypothesentests
5.4 Hypothesentests für β0 und β1
Grafik
15
Fazit
β̂0 und β̂1 und somit auch die
geschätzte Regressionsgerade sind
Zufallsvariablen.
f(xi) = β0 + β1xi
(1) ^
^
y^i = β0 + β1xi
(2) ^
^
y^ = β + β x
10
i
0
Erneut stellt sich somit die Frage,
ob die geschätzten Parameter β̂0
und β̂1 nahe am wahren Wert β0
bzw. β1 liegen.
1 i
●
y
●
5
●
●
Quantifizierung der Unsicherheit via
KI/Hypothesentests.
●
zusätzliche Beobachtung
●
0
●
0
1
2
3
4
5
6
7
x
Dr. Kilian Plank
Besonders interessant bzw. wichtig
ist die Frage, ob βˆ1 statistisch
signifikant von Null verschieden ist,
und somit die Variable X einen
Einfluss auf Y hat.
Statistik für Wirtschaftswissenschaftler
156/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Hypothesentests
Beispiel (Preis-Absatz)
Hypothesen für den Test eines signifikanten Einfluss von X auf Y :
H0 : β1 = 0
H1 : β1 =
6 0
Bei Ablehnung von H0 schlussfolgert man: Der Preis hat einen
signifikanten Einfluss auf den Absatz.
Der geschätzte Einfluss ist nicht nur zufällig (aufgrund der SP) von Null
verschieden.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
157/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Modellannahmen
Grafik
5
Fazit
Um Hypothesen über den Schätzer
zu prüfen, muss wie immer die
Schätzerverteilung bekannt sein.
E(Y | xi)
3
4
Diese ermittelt man basierend auf
den folgenden Modellannahmen:
E (Y |xi ) = β0 + β1 · xi
2
εi ∼ N (0, σε2 )
3
⇒ Y | xi ∼ N (β0 + β1 · xi , σε2 )
0
1
2
y
1
0
2
4
6
8
10
x
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
158/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Regressionsmodell Zusammenfassung
Modell und Annahmen
Yi | xi ∼ N β0 + β1 · xi , σε2
unabh. Variable: xi ist deterministisch, Störterme εi sind stochastisch
V (εi ) = σε2 (Varianzhomogenität, Homoskedastizität)
Cov(εi , εj ) = 0 (unkorrelierte Störterme)
εi ∼ N (0, σε2 ) (Normalverteilung)
Bemerkungen
Die Annahmen bezüglich der Störterme werden anhand der Residuen einer
ersten Schätzung geprüft.
Die Annahme der Normalverteilung kann für hinreichend große
Stichproben und bei ausreichender Streuung der xi fallen gelassen werden.
Sind die Annahmen verletzt, so ist entweder der OLS Schätzer für β0 oder
β1 verzerrt oder der Schätzer für die Schätzervarianz ist verzerrt.
Ist xi stochastisch, so muss zusätzlich garantiert werden, dass xi und der
Störterm unabhängig sind.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
159/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Bestimmung der Schätzerverteilung
Momente
Basierend auf der Linearität der Schätzer lassen sich die
Momente der Schätzer leicht berechnen.
Momente von βˆ0 , βˆ1 , σ̂ε2
E β̂0 = E Ȳ − β̂1 · x̄ = E (Y ) + β1 · E (x̄) = β0
P 2
i xi
V β̂0 = σε2 · n·P (x
−x̄)2
i
i
P
−x̄)(Yi −Ȳ )
i (x
Pi
E β̂1 = E
=
2
(x
−x̄)
i
i
V β̂1 = σε2 · P (x1−x̄)2
i
E
σ̂ε2
=
P
(x −x̄)
Pi i
2 E (Y
i (xi −x̄)
) = β1
i
σε2
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
160/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Bestimmung der Schätzerverteilung
Verteilung von
β̂1
Momente reichen nicht aus, um Wahrscheinlichkeiten zu berechnen, daher die Verteilungsannahme für ε.
∼N
∼N
}|
{
}|
{
z
konst.
z }| {
∼N
∼N
X
X
X
z}|{
z}|{
1
1
1
·
xi · yi − ·
xi · ·
yi
n i
n i
n i
P
P
β1 =
1
· i x2i − ( n1 · i xi )2
n
|
{z
}
z
∼N
Zähler: Eine Linearkombination normalverteilter
Zufallsvariablen ist wieder normalverteilt.
Nenner: nicht stochastisch (Konstante)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
161/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Bestimmung der Schätzerverteilung
Schlussfolgerung
Somit kann gefolgert werden:
Da per Annahme εi ∼ N (0, σε2 )
2
⇒ yi | xi ∼N (β0 + β
1 · xi , σ ε )
⇒ βˆ0 ∼ N β0 , V βˆ0
bzw. βˆ1 ∼ N β1 , V βˆ1
Zum Testen von Hypothesen standardisiert man den Schätzer mit dem
hypothetischen Erwartungswert und der Standardabweichung (Wurzel der
Varianz) des Schätzers.
Unter der H0 gilt für die Teststatistik
H
β̂0 −β0 0
q
V(β̂0 )
∼ N (0, 1)
H
β̂1 −β1 0
q
V(β̂1 )
∼ N (0, 1)
Die Varianzen der Schätzer im Nenner sind unbekannt und müssen
ebenfalls geschätzt werden!
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
162/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Bestimmung der Schätzerverteilung
Verteilung der Teststatistik unter der H0
(
βˆ0 − β0H0 ∼ t(n − 2)
Tβ0 = q
b βˆ ) ∼ N (0, 1)
V(
0
Tβ1
βˆ1 − β1H0
= q
b βˆ1 )
V(
(
∼ t(n − 2)
∼ N (0, 1)
für n ≤ 30
für n > 30
für n ≤ 30
für n > 30
wobei für die Schätzer der Schätzervarianz gilt:
P 2
x
b βˆ0 ) = σ̂ε2 ·
P i i
V(
n · i (xi − x̄)2
1
(x
− x̄)2
i
i
b βˆ1 ) = σ̂ε2 · P
V(
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
163/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Preis-Absatz Beispiel
Beispiel (Preis-Absatz)
Hypothesen
H0 : β1 = 0
H1 : β1 6= 0
Bei Ablehnung schließt man: der Preis hat einen signifikanten Einfluß auf den Absatz.
Schätzung
Die geschätzten Werte waren:
βˆ0 = 99.19
βˆ1 = −0.2644
Teststatistik
Für die Berechnung der Teststatistik Tβˆ1 benötigt man
b βˆ1 ) und dafür wiederum
V(
σ̂ε =
q
1
(n−2)
σ̂ε =
q
1
(9−2)
·
P
i
ε̂2i
·
P
i
ε̂2i = 0.8975
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
164/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Preis-Absatz Beispiel
Beispiel (Preis-Absatz)
P
2
i (xi − x̄) = 308.69
Somit ergibt sich die geschätzte Standardabweichung des
Schätzers (sog. Standard Error“)
”
q
b βˆ1 ) = 0.8975 · √ 1
V(
= 0.05108
308.69
−0.2644
0.05108
Teststatistik
Tβˆ1 =
KI
[0 ± t1− α2 (9 − 2)] = [0 ± 1.895] für α = 0.1 u. n = 9
Ergebnis
= −5.177
Tβˆ1 (“beobachteter” Wert der Teststatistik) weit im
Ablehnungsbereich
H0 ablehnen
Ist der Einfluss des Preises also signifikant?
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
165/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Absatz - Preis Beispiel
Beispiel (Preis-Absatz)
p-Value
Einealternative Berechnung ist über den p-Value möglich
= P βˆ1 ≤ −0.2644 | β1 = 0
= Ft ( √−0.2644 )
Vd
ar(βˆ1 )
= Ft ( −0.2644
) = 0.000642
0.05108
Ergebnis
p-Value (2-seitig) = 0.000642 · 2 = 0.00128
sehr viel kleiner als α = 0.1
somit hochsignifikant (auch auf dem α = 5% und
α = 1% Niveau!)
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
166/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
F-Test
Neben dem Test einzelner Koeffizienten kann auch die
gesamte Modellspezifikation auf Signifikanz geprüft werden
(sog. F-Test)
Hypothese
H0 : βi = 0 für alle i > 0
H1 : mind. ein βi 6= 0
Test-statistik
F=
=
1
1
1
n−2
·
SSE
SSR
SSE
SST
1 ·(1− SSE )
n−2
SST
=
=
SSE
SST
1 · SSR
n−2 SST
R2
1 ·(1−R2 )
n−2
1
∼ Fn−2
F-Verteilung
Die F-Verteilung ergibt sich aus dem Quotienten zweier χ2
verteilter ZV. Sie wird charakterisiert durch 2 Parameter,
die Zähler- und Nennerfreiheitsgrade (DF1 und DF2 ).
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
167/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
F-Test
Beispiel (Preis-Absatz)
Mit R2 = 0.7929 (siehe letzte Vorlesung) folgt:
F =
0.7929
1 ·(1−0.7929)
9−2
= 26.805
Dieser Wert ist sehr hoch.
p-Value
P (F > 26.805; DF1 = 1, DF2 = 7) = 0.00128
Dieser Wert ist sehr viel kleiner als α
Ergebnis: H0 verwerfen
Merke
Der Testwert F = 26.805 entspricht genau dem
quadrierten T -Wert für den zweiseitigen β1 Test:
F = 26.805 = Tβ2ˆ
1
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
168/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognosen
5.5 Prognosen
Beispiel (Preis-Absatz)
Im Preis-Absatz Beispiel wird der mittlere Absatz ȳ durch den Preis xi
erklärt.
Zur Schätzung mit OLS standen n Beobachtungspaare
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
zur Verfügung.
Nun soll für einen bislang unbeobachteten Preis xn+1 die Absatzmenge
yn+1 prognostiziert werden.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
169/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognosen
Nimmt man an, dass die lineare Regressionsbeziehung
y = β0 + β1 · x + ε auch für Werte xn+1 zwischen
den beobachteten xi bzw. ausserhalb der beobachteten
xi gilt, so ergibt sich eine einfache Punktprognose wie folgt:
Punktprognose
ŷn+1 = βˆ0 + βˆ1 · xn+1
genauer:
da E (εn+1 ) = 0
somit: E (ŷn+1 |xn+1 ) = β0 + β1 · xn+1
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
170/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognosen
Beispiel (Preis-Absatz)
Wir kennen die geschätzte Regressionsgerade mit
βˆ0 = 99.19
βˆ1 = −0.2644
Setzt man xn+1 = 2 (Euro) in die Geradengleichung ein so ergibt sich eine
Punktschätzung für den Absatz
ŷn+1
= βˆ0 + βˆ1 · xn+1
= 99.19 − 0.2644 · 2
= 98.6612
Dies ist ein Prognosewert (Punkt-Prognose) für den bedingten
Erwartungswert von Y an der Stelle x = 2.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
171/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognoseintervall für die Gerade
Fazit
Wir wissen, dass Punktschätzungen nichts über die
Schätzunsicherheit aussagen.
Da die Schätzwerte βˆ0 und βˆ1 jedoch unsicher sind,
d.h. Varianz aufweisen, ist die Prognose ŷn+1
ebenfalls varianzbehaftet.
Mit Hilfe der (geschätzten) Schätzervarianz lässt sich
ein Konfidenzintervall um ŷn+1 erzeugen.
Prognoseintervall
I
Zunächst soll ein Konfidenzintervall für den bedingten Erwartungswert E (Y | xn+1 ) um ŷn+1 bzw. die geschätzte
Regressionsgerade ŷn+1 = β̂0 + β̂1 · xn+1 gefunden werden.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
172/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
15
Prognoseintervall für die Gerade
(1)
y^
(2)
y^
(3)
y^
^y(4)
5
Y
10
(5)
y^
0
xn+1
0
5
10
15
X
Man erkennt deutlich die Varianz der geschätzten Regressionsgeraden an der Stelle xn+1 .
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
173/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognoseintervall für die Gerade
Varianz der Prognose
σ̂ŷ2n+1
= V βˆ0 + βˆ1 · xn+1
(x
−x̄)2
= σˆε 2 · n1 + P n+1
2
2
x −n·x̄
i
i
Hinw.: V βˆ0 + βˆ1 · xn+1 = V β̂0 + V β̂1 · x2n+1 + 2 · xn+1 · Cov β̂0 , β̂1
Konfidenzintervall für die Regressionsgerade
h
i
βˆ0 + βˆ1 · xn+1 ± t1− α2 (n − 2) · σ̂ŷn+1
r
=
βˆ0 + βˆ1 · xn+1 ± t1− α2 (n − 2) · σ̂ε · n1 +
Dr. Kilian Plank
(x
−x̄)2
P n+1
2
2
i xi −n·x̄
Statistik für Wirtschaftswissenschaftler
174/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognoseintervall für die Gerade
15
Je weiter entfernt von x̄ der Mittelwert vorhergesagt werden
soll, umso größer die Varianz bzw. umso breiter das KI.
Für xn+1 → x̄ nimmt die Breite des KI ab.
(1)
y^
^y(2)
(3)
y^
^y(4)
5
Y
10
(5)
y^
0
xn+1
0
5
10
xn+2
15
X
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
175/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognoseintervall für die bedingte Verteilung
Beispiel (Preis-Absatz)
KI um den Punktschätzer ŷn+1 für α = 5%:
"
98.6612 ± t1− 0.05 (9 − 2) · 0.8975 ·
2
r
(2 − 11.72)2
1
+
9
9 · 34.29
#
= [98.6612 ± 1.3708]
Prognoseintervall
II
Neben einem KI für den bedingten Erwartungswert
E (Y | xn+1 ) kann auch ein KI für die bedingte
Verteilung Y | xn+1 angegeben werden.
Dieses beinhaltet neben der Unsicherheit bezüglich
der Regressionsgerade auch noch die Unsicherheit
bezüglich der Streuung um die Gerade.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
176/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
15
Prognoseintervall für die bedingte Verteilung
5
Y
10
(1)
y^
(2)
y^
0
xn+1
0
5
10
15
X
vorher
Intervall für die Regressionsgerade
jetzt
Intervall für die bedingte Verteilung um die Regressionsgerade herum.
Kilian Plank
Statistik für Wirtschaftswissenschaftler
→ enthaltDr.
mehr
Unsicherheit
(Varianz der Regressionsgera-
177/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognoseintervall für die bedingte Verteilung
Varianz-schätzung für die bedingte Verteilung
+ε
V ŷn+1
= V (ŷn+1
+ ε̂)
= σˆε 2 · 1 +
1
n
+
(x
−x̄)2
P n+1
2 −n·x̄2
x
i i
Konfidenzintervall für die bedingte Verteilung
s
"
#
(xn+1 − x̄)2
1
ˆ
ˆ
β0 + β1 · xn+1 ± t1− α2 (n − 2) · σ̂ε · 1 + + P 2
2
n
i xi − n · x̄
Beispiel (Preis-Absatz)
KI um den Punktschätzer ŷn+1 für α = 5%:
"
r
98.66 ± t1− 0.05 (9 − 2) · 0.8975 ·
2
(2 − 11.72)2
1
1+ +
9
9 · 34.29
#
= [98.66 ± 2.5263]
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
178/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Beispiele
Ordinary Least Squares
Modellgüte
Hypothesentests
Prognosen
Prognoseintervalle - Vergleich
15
Aus den Formeln für die beiden KI´s kann man sehen, daß
sich die Grenzen parabelförmig vom Mittelwert entfernen.
10
geschätzte Regressionsgerade
KI für Regressionsgerade
KI für die bedingte Verteilung
●
5
Y
●
●
●
●●
●
●
●
●
● ●
●● ●
●
● ● ●
●
0
Grenzen
0
5
Dr. Kilian Plank
10
Statistik für Wirtschaftswissenschaftler
15
179/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Übersicht
1. Einführung
2. Parameterschätzung
3. Intervallschätzung
4. Testen von Hypothesen
5. Regressionsanalyse
6. Varianzanalyse
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
180/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
6 Varianzanalyse (Analysis of Variance - ANOVA)
Rückblick
Im Abschnitt zu Hypothesentests wurde u.a. auch die
Gleichheit zweier Mittelwerte getestet.
Im Benzinpreisbeispiel war die Frage, ob sich der Benzinpreis
in zwei Regionen signifikant unterscheidet.
jetzt
Nun soll geprüft werden, ob der mittlere Benzinpreis in mehr
als zwei Regionen derselbe ist.
Hypothesen
H 0 : µ1 = µ2 = . . . = µm
H1 : mind. 2 der µi sind verschieden
Annahme
Das Merkmal X ist in jeder der m SP normalverteilt mit
gleicher Varianz.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
181/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
Beispiel (Benzinpreis)
Der Erhebung des Benzinpreises in 5 Regionen ergab folgende Statistiken:
SP1
SP2
SP3
SP4
SP5
P
SP-Größe
n1 = 10
n2 = 15
n3 = 10
n4 = 11
n5 = 9
n = 55
Mittelwerte
x̄1 = 1.48
x̄2 = 1.49
x̄3 = 1.49
x̄4 = 1.41
x̄5 = 1.42
x̄G = 1.4607
Varianzen
s2∗1 = 0.02
s2∗2 = 0.03
s2∗3 = 0.03
s2∗4 = 0.04
s2∗5 = 0.01
wobei:
n=
x̄G =
=
P5
i=1
1
n
1
55
P5
ni
i=1
ni · x̄i
· (10 · 1.48 + . . .)
Dr. Kilian Plank
= 1.4607
Statistik für Wirtschaftswissenschaftler
182/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
Gesamtvarianz (über alle 55 Tankstellen)
P
P i
2
s2∗G = n1 · 5i=1 n
j=1 (xij − x̄G )
− x̄i ) + (x̄i − x̄G ))2
=
1
n
=
P P
· i j [(xij − x̄i )2
+2 · (xij − x̄i ) · (x̄i − x̄G )) + (x̄i − x̄G ))2 ]
=
P P
2
i P
j (xij − x̄i )
P
+ n1 · 2 · i (x̄i − x̄G )) · j (xij − x̄i )
P P
2
1
+ n · i j (x̄i − x̄G ))
·
P P
i
j ((xij
1
n
1
n
·
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
183/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
s2∗G =
=
=
P P
2
i P
j (xij − x̄i )
1
+ n · 2 · i (x̄i − x̄G )) · (ni · x̄i − ni · x̄i )
|
{z
}
=0
P
P
+ n1 · i j (x̄i − x̄G ))2
1
n
·
P P
2
i
j (xij − x̄i )
P
1
+ n · i ni · (x̄i − x̄G ))2
1
n
·
5
5
1 X
1 X
·
ni · s2∗i + ·
ni · (x̄i − x̄G ))2
n i=1
n i=1
|
{z
} |
{z
}
s2
∗,int
Dr. Kilian Plank
s2
∗,ext
Statistik für Wirtschaftswissenschaftler
184/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
Teil-varianzen
s2∗,int
mittlere Varianz (um die Mittelwerte)
sog. “interne Varianz”
mittlere Streuung um den mittleren Benzinpreis in
der Region
s2∗,ext
Varianz der Mittelwerte
sog. “externe Varianz”
Streuung der mittleren Benzinpreise der Regionen um
den Gesamtmittelwert
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
185/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzzerlegung
1.25
Die folgende Grafik stellt erhobene Dieselpreise in unterschiedlichen Regionen dar.
ni = 50 Beobachtungen aus
jeder Region i
1.10
n = n1 + n2 + n3 = 150
1.00
1.05
Dieselpreis
1.15
1.20
Region A
Region B
Region C
0.95
xij : beob. Preis an Tankstelle
j in Region i
0
10
20
30
40
50
Tankstelle
regionale MW x̄i : farbig gestrichelte Linien.
Gesamt-MW über alle Regionen x̄G : dicke, schwarz gestrichelte Linie.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
186/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzzerlegung
Interpretation
Im obigen Beispiel erkennt man, dass die Streuungen
um die Mittelwerte vergleichsweise klein sind.
Demgegenüber sind die Abweichungen der
Mittelwerte vom Gesamtmittelwert sehr hoch.
Dies spricht dafür, dass die Preisunterschiede nicht
ausschließlich ein Zufallsergebnis der
Stichprobenziehungen sind sondern dass sie
systematisch sind.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
187/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzzerlegung
1.25
Die folgende Grafik zeigt ein Gegenbeispiel
1.20
Region A
Region B
Region C
1.10
0.95
1.00
1.05
Dieselpreis
1.15
Die einzelnen Farben sind
nicht mehr klar trennbar.
Die Streuung der Mittelwerte
erscheint kleiner als die Streuung um die Mittelwerte.
0
10
20
30
40
50
Tankstelle
Zur statistischen Untersuchung systematischer Erwartungswertdifferenzen verwendet man die Varianzanalyse.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
188/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
Beispiel (Benzinpreis)
Für interne, externe und gesamte Varianz ergeben sich:
P
s2∗,ext = n1 · 5i=1 ni · (x̄i − x̄G ))2
1
= 55
· (10 · (1.48 − 1.4607)2 + 15 · (1.49 − 1.4607)2 + . . .)
= 0.0012
s2∗,int
s2∗G
P
= n1 · 5i=1 ni · s2∗i
1
= 55
· (10 · 0.02 + 15 · 0.03 + . . .)
= 0.0269
= s2∗,int + s2∗,ext
= 0.0012 + 0.0269 = 0.0281
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
189/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
Teststatistik
Die Teststatistik basiert auf dem Verhältnis von interner und
externen Varianz:
T =
1 ·s2
m−1 ∗,ext
1 ·s2
n−m ∗,int
m−1
∼ Fn−m
F : Fisher Verteilung mit 2 Freiheitsgradparametern
m − 1: Summe über m Quadrate mit einer Restriktion
n − m: Summe über n Quadrate mit m Restriktionen
Aussehen der Dichte der F-Verteilung ähnlich der χ2
Verteilung
Beispiel (Benzinpreis)
T =
1
· 0.0012
5−1
1
· 0.0269
55−5
Dr. Kilian Plank
= 0.577
Statistik für Wirtschaftswissenschaftler
190/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
Beispiel (Benzinpreis)
AB
Hohe Werte von T implizieren eine hohe externe Varianz relativ zur internen
Varianz.
Dies spricht gegen die H0 . Somit beinhaltet der Ablehnungsbereich (AB)
m−1
hohe Werte von T : AB = [Fn−m
(1 − α); +∞).
5−1
AB: [F55−5 (0.95); +∞) = [2.56; +∞)
5−1
KI: [0; F55−5
(0.95)) = [0; 2.56) für α = 0.05
Ergebnis:
T ∈ KI ⇒ keine Ablehnung der H0
Die Hypothese gleicher Mittelwerte in den Regionen kann nicht widerlegt
werden.
Dies war zu erwarten, da die mittleren Benzinpreise in den Regionen nur
wenig um den Gesamtmittelwert streuen. Relativ dazu streuen die Preise in
den Regionen stark um ihren Mittelwert.
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
191/192
Einführung
Parameterschätzung
Intervallschätzung
Testen von Hypothesen
Regressionsanalyse
Varianzanalyse
Varianzanalyse
Bemerkungen
Für m = 2 wird die F-Verteilung zur t-Verteilung und man erhält den
Mittelwertvergleichstest von oben.
Die Varianzanalyse kommt dann zum Einsatz wenn man ein metrisches
Merkmal Y durch ein kategoriales oder nominales Merkmal X erklärt.
Im Beispiel: Y : Benzinpreis (metrisch), X: Region (nominal). Zum
Vergleich bei der Regression: sowohl Y als auch X metrisch.
Analogie zur Regression
Gesamtstreuung
P SST 2
i (yi − ȳ)
= erklärte Streuung
P SSE 2
i (ŷi − ȳ)
+ Reststreuung
P SSR 2
i (yi − ŷi )
ŷi : geschätzter bedingter Mittelwert (bedingt auf xi )
SSE: Streuung des bed. Mittelwerts um den Gesamtmittelwert
SSR: Streuung um den bedingten Mittelwert
Vgl.: Regression: F =
1 SSE
2−1
1 SSR
n−2
und ANOVA: F =
1 s2
m−1 ∗,ext
1 s2
n−m ∗,int
siehe auch Fahrmeir et al. (2007), Kap. 13.1
Dr. Kilian Plank
Statistik für Wirtschaftswissenschaftler
192/192
Herunterladen