Kurs Empirische Wirtschaftsforschung

Werbung
Kurs Empirische Wirtschaftsforschung
1. Einführung und Statistische Grundlagen1
Martin Halla
Institut für Volkswirtschaftslehre
Johannes Kepler Universität Linz
Letzte Aktualisierung: 25.10.2011
1
Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische Wirtschaftsforschung: Eine Einführung.
1 / 52
Aufgaben der Wissenschaft
(Formulierung einer Forschungsfrage)
Beantwortung der Forschungsfrage (Wahl der Methode)2
i. Theoretisches Modell
ii. Empirische Analyse
ii. (Feld)experiment
Realität zu komplex: vereinfachende Annahmen
„So einfach wie möglich, so komplex wie nötig“
Gute Wissenschaft → richtige Balance
Modell, Forschungsdesign/Studiendesign
2
Man denke an das Beispiel der Diskriminierung am Arbeitsmarkt.
2 / 52
Aufgaben und Methoden der
Wirtschaftswissenschaft/Wirtschaftsforschung (Wifo)
Die Aufgaben umfassen traditionell die
i. Erklärung menschlichen Verhaltens unter Knappheit
ii. Erklärung von gesamtwirtschaftlichen Zusammenhängen
iii. Prognose künftiger Entwicklungen.
Knappheit umfasst materielle und immaterielle Aspekte
Theoretische Wifo verwendet (mathematische) Modelle
Empirische Wifo nützt ökonometrische Modelle
Ökonometrie kombiniert:
i. ökonomische Theorie
ii. Mathematik
iii. Statistik
Eine ausführliche Diskussion findet man hier:
http://ftp.iza.org/dp2458.pdf
3 / 52
Geschichte der Ökonometrie3
Begriff wurde von Ragnar Frisch und Joseph Schumpeter in den
frühen 1930ern gebildet.
Gründung der Econometric Society und dem Journal
Econometrica (1933)
Es folgte eine Reihe von Nobelpreisen, z.B.:
1969 Ragnar Frisch and Jan Tinbergen, Entwicklung und Anwendung
dynamischer Modelle zur Analyse von Wirtschaftsprozessen
1980 Lawrence Klein, Konstruktion ökonomischer Konjunkturmodelle
und deren Verwendung bei Analysen der Wirtschaftspolitik
1989 Trygve Haavelmo, Formulierung der
wahrscheinlichkeitstheoretischen Grundlagen der Ökonometrie
2000 James Heckman und Daniel McFadden, Entwicklung von
Theorien und Methoden zur Analyse selektiver Stichproben und
zur Analyse diskreter Wahlentscheidungen
2003 Robert F. Engle III und Clive Granger, Methoden zur Analyse
ökonomischer Zeitreihen (ARCH-Modell und Kointegration)
3
Quelle: Wikipedia
4 / 52
Ursache und Wirkung
Korrelation vs. Kausalität
Die intellektuell größte Herausforderung
Das Forschungsdesign ist entscheidend
Example (Ausbildung und Einkommen)
Positive Korrelation:
i. Kausaler Zusammenhang: Ausbildung → Einkommen
ii. Umgekehrter kausaler Zshg.: Einkommen → Ausbildung
iii. Verschmutzender (‘confounding’) Faktor: z.B. Intelligenz
5 / 52
Statistische Grundlagen
Methodengerüst der statistischen Analyse:
Die deskriptive Statistik untersucht eine gegeben Stichprobe,
ohne Rückschlüsse auf eine umfassendere Grundgesamheit zu
ziehen.
Die mathematische Statistik beschäftigt sich mit den
Bedingungen und Methoden des Schließens von Stichproben auf
die Grundgesamtheit.
Da solche Schlüsse nie absolut sicher sind, formuliert man sie
auf Basis der Wahrscheinlichkeitstheorie.
Ziel: Eine ansonsten unübersichtliche Informationsfülle durch
geeignete Informationsreduktion handhabbar zu machen.
6 / 52
Statistische Grundlagen
„Never trust any statistics that you didn’t forge yourself.“
Winston Churchill
„There are three kinds of lies: lies, damned lies, and
statistics.“
Mark Twain
Das sind keine Argument gegen Statistik, sondern für das Verstehen
von statistischen Methoden
7 / 52
Zufallsexperimente
Statistiker fassen alle in der Realität anfallenden Beobachtungen
als Ergebnisse von Zufallsexperimenten auf, die sich in
Zufallsvariablen niederschlagen
Jede Zufallsvariable nimmt verschiedene Ausprägungen an
Die Gesamtheit aller möglichen Ausprägungen bildet den
Wertebereich
Codierunug: Übersetzung der möglichen Ausprägung in
numerische Größen
Example (Zufallsexperiment: Geburt)
Zufallsvariable (Merkmal): Geschlecht des Kindes
Ausprägungen (Realisationen): Männlich, weiblich
Wertebereich: {männlich, weiblich}
Codierung: {0, 1}
8 / 52
Klassifikation von Zufallsvariablen
Einteilung hilft bei der Wahl der geeigneten statistischen Methode
Kriterium 1:
Diskret: Ausprägungen sind endlich abzählbar (z.B. Noten)
Stetig: Merkmal kann unendlich viele Ausprägungen annehmen
(z.B. Körpergröße)
Kriterium 2:
Nominal: Ausprägungen können nicht geordent werden (z.B.
Familienstand)
Ordinal: Ausprägungen können ihrer Größe nach gereiht
werden; Differenz hat keine Aussage (z.B. Schulnoten)
Kardinal: Ausprägungen können als Vielfache ausgerdückt
werden (z.B. Einkommen)
9 / 52
Relative Häufigkeiten
Ausprägungen sind idR nicht gleich wahrscheinlich
Vollständige Beschreibung des Zufallsexperimentes durch
relative Häufigkeiten
Rel. Häufigkeiten entsprechen den Wahrscheinlichkeiten des
Auftretens eines jeden dieser Ereignisse bei zufälliger Wahl aus
der Population.
Rel. Häufigkeiten lassen sich durch eine Verteilungsfunktion
(Wahrscheinlichkeitsverteilung) abbilden.
Da Wahrscheinlichkeitsverteilung oft sehr komplex sind,
Beschreibung durch Momente:
Moment erster Ordnung: Erwartungswert E (X )
Moment zweiter Ordnung: Varianz Var (X )
Moment dritter Ordnung: Schiefe Schiefe(X )
...
10 / 52
Inferenz
IdR hat man nur Stichproben und noch die gesamte Population
zur Verüging.
Im Idealfall hat man eine zufällige Stichprobe.
Im Rahmen statistischer Inferenz versucht man, auf Basis eine
zufälligen Stichprobe möglichst genaue Aussagen über die
zugrunde liegende Populationsverteilung herzuleiten,
D.h. man versucht die Informationen der Zufallsstichprobe zu
nutzen, um die Momente der Populationsverteilung zu
schätzen.
11 / 52
Testen
Ergebnis der Schätzung der Momente einer Verteilung hat ein
Zufallselement.
Daher braucht man eine Einschätzung, wie zuverlässig diese die
Gegebenheiten der Population widerspiegelt.
⇒ statistisches Testen
Fragestellung: Weicht das Schätzergebnis von einem
bestimmten vorgegebenen Wert tatsächlich systematisch ab
oder ist diese Abweichung nur rein zufällig zustandegekommen?
12 / 52
Inferenz/Testen
Example (Zufallsexperiment: Schönheit)
Zufallsvariable: X = xi
i = 1, . . . , J
Wertebereich: x ∈ [−∞, +∞]
Verteilungsfunktion: F (X )
Inferenz Ziel ist es auf Basis einer zufälligen Stichprobe
Rückschlüsse auf die Populationsmomente zu ziehen.
Daher, wir wollen E (X ) und Var (X ) schätzen
Siehe Abbildung 1.1 im Lehrbuch auf Seite 7.
Wie zuverlässig sind die Schätzergebnisse?
13 / 52
Identifikation
Letzliches Ziel einer ökonometrischen Analyse: Feststellung von
kausalen Zusammenhängen
Kausale Identifikation hat hohe Anforderungen an die Daten
In d. Ökonomie sind idR keine Experimente durchführbar
Daher ist das Forschungsdesignn entscheidend.
Beispiel: Erträge der Schulbildung.
14 / 52
Exkurs: ‘The economics of beauty’
Effekt von Schönheit auf Arbeitsmarktergebnisse
Lohnprämie für Schönheit
Effekt is stärker für Männer als für Frauen
Selektion ist stärker für Frauen (Heiratsmarkt ist
entscheidend)
Ausgaben für Schönheit ‘lohnen sich nicht’ !
Evidenz sowohl für USA, GB als auch fur China
Ist dies Diskriminierung?
Siehe Rooth, Dan-Olof (2009), ’Obesity, Attractiveness, and
Differential Treatment in Hiring A Field Experiment’, Journal of
Human Resources 44(3), 710–735.
15 / 52
Wahrscheinlichkeitsverteilungen und ihre Momente
Wir unterscheiden Zwei Typen von Zufallsvariablen:
Diskrete Zufallsvariablen (abzählbare Realisationen)
Wahrscheinlichkeitsverteilung (graphisch: Histogramm)
Verteilungsfunktion (graphisch: Treppenfunktion)
Stetige Zufallsvariablen (unendlich viele mögliche Realisationen)
Wahrscheinlichkeit eine bestimmte Ausprägung zu beobachten
ist gleich null.
Daher, Betrachtung ob Realisiation in einem bestimmten
Intervall liegt
Darstellung mittels Dichtefunktion
bzw. kumulierte Dichtefunktion, Verteilungsfunktion
16 / 52
Diskrete Zufallsvariablen
Wahrscheinlichkeitsverteilung weißt jeder Ausprägung seine
Wahrscheinlichkeit zu:
f (x) = P(X = x).
Die Wahrscheinlichkeit einer bestimmten Ausprägung liegt immer
zwischen Null und Eins:
0 ≤ P(X = x) ≤ 1.
Die Summe aller Wahrscheinlichkeiten muss immer Eins ergeben:
X
f (x) = 1.
x
Die Verteilungsfunktion (kumulierte Wahrscheinlichkeitsverteilung):
X
F (z) =
f (x) = P(X ≤ z).
x≤z
17 / 52
Diskrete Zufallsvariablen
Example (Fairer Würfel)
Betrachtet sei ein fairer Würfel. Er bevorzugt keine der Augenzahlen
und bleibt nie auf der Kante liegen. Im Allgemeinen gilt für den
Würfel, dass f (x) = P(X = x) = 1/6 für alle x = 1, . . . 6. Die
Wahrscheinlichkeit, weniger als eine Vier zu würfeln, ist
P(X < 4) = 1/6 + 1/6 + 1/6 = 1/2.
18 / 52
Diskrete Zufallsvariablen
Example (Histogramm und Treppenfunktion)
Eine nicht-gleichverteilte Wahrscheinlichkeitsfunktion
f (x) = P(X = x) und die entsprechende kumulierte
Wahrscheinlichkeitsverteilung F (x) lauten etwa
x
f(x)
F(x)
0
0,1
0,1
1
0,2
0,3
2
0,1
0,4
3
0,2
0,6
4
0,1
0,7
5
0,3
1,0
(Siehe auch folgende zwei Abbildungen.)
19 / 52
0
.1
f(X)
.2
.3
Diskrete Zufallsvariablen
0
1
2
3
4
5
x
Figure: Wahrscheinlichkeitsverteilung dargestellt als Histogramm
20 / 52
0
.2
.4
F(x)
.6
.8
1
Diskrete Zufallsvariablen
0
1
2
3
x
4
5
Figure: Verteilungsfunktion dargestellt als Treppenfunktion
21 / 52
Stetige Zufallsvariablen – Dichtefunktion
Die Dichtefunktion ist nicht-negativ:
f (x) ≥ 0.
Die Fläche unterhalb der Dichtefunktion nimmt den Wert Eins an:
Z +∞
f (x)dx = 1.
−∞
Die Wahrscheinlichkeit ein Ereignis aus dem Intervall [a, b] zu
beobachten, entspricht
Z
P(a ≤ X ≤ b) =
b
f (x)dx ≥ 0.
a
(Siehe auch folgende Abbildung.)
22 / 52
0
.2
.4
.6
.8
Stetige Zufallsvariablen – Dichtefunktion
a
b
Figure: Wahrscheinlichlichkeit, dass die Ausprägung X einer stetigen
Zufallsvariablen zwischen a und b liegt.
23 / 52
Stetige Zufallsvariablen – Kumulierte Dichtefunktion
Die Kumulierte Dichtefunktion lautet:
Z x
dF (x)
F (x) = P(X ≤ x) =
f (x)dx, mit f (x) =
.
dx
−∞
(Siehe auch folgende Abbildung.)
24 / 52
Stetige Zufallsvariablen – Kumulierte Dichtefunktion
0
.2
.4
.6
.8
1
F(X)
X
4
−2
0
2
4
Figure: Kumulierte Dichtefunktion einer stetigen Zufallsvariablen
25 / 52
Eigenschaften von Dichtefunktionen
Sowohl für diskrete als auch stetige Zufallsvariablen gilt:
0 ≤ F (x) ≤ 1
ist x > y , dann gilt F (x) ≥ F (y )
F (+∞) = 1
F (−∞) = 0
Darüber hinaus gilt für jede beliebige Konstante c
P(X > c) = 1 − F (c),
und für alle beliebigen Zahlen a und b
P(a < X ≤ b) = F (b) − F (a).
26 / 52
Beispiel
Example (Altersverteilung)
Table: Deutsche Bevölkerung nach Altersgruppen (2004)
Alter
in Jahren
unter 6
6-15
15-25
25-45
45-65
65 und mehr
Insgesamt
in 1.000 P(X = x)
4435,1
0,054
7489,5
0,091
9678,1
0,117
24088,7
0,292
21441,9
0,260
15367,5
0,186
82500,8
1,00
F (x)
0,054
0,145
0,262
0,554
0,814
1,000
-
27 / 52
Beispiel
Example (Altersverteilung)
Die Wahrscheinlichkeit, dass eine zufällig aus der Bevölkerung
ausgewählte Person in der Altersgruppe von 15 bis unter 25
Jahren ist, beträgt 11,7%.
Die Wahrscheinlichkeit, dass eine zufällig gezogene Person 25
Jahre und älter ist:
P(X > 25) = 1 − F (25) = 1 − 0, 262 = 0, 738 oder 73, 8%.
Die Wahrscheinlichkeit, dass sie min. 15 aber jünger als 65
Jahre ist:
P(15 < X ≤ 65) = F (65) − F (15) = 0, 814 − 0, 145 = 0, 699
oder 66, 9%.
28 / 52
Gemeinsame und bedingte Wahrscheinlichkeitsverteilungen
Zentrum des Interesses der Ökonometrie: Analyse gemeinsamer
Wahrscheinlichkeitsverteilungen mehrerer Zufallsvariablen bzw.
die bedingte Wahrscheinlichkeitsverteilung einer Zufallsvariablen,
gegeben die Ausprägungen einer anderen.
Example
Gemeinsame Wahrscheinlichkeitsverteilungen:
Wahrscheinlichkeit dafür, dass eine arbeitslose Person an einer
Maßnahme der aktiven Arbeitsmarktpolitik teilnimmt und nach
der Maßnahme eine Anstellung im Arbeitsmarkt findet.
Bedingte Wahrscheinlichkeitsverteilung:
Gegeben, dass eine Person an der Maßnahme teilgenommen
hat, was ist die Wahrscheinlichkeit dafür, dass diese Person eine
Anstellung findet?
(Häufiges Problem der selektiven Teilnahme!)
29 / 52
Gemeinsame Wahrscheinlichkeitsverteilungen
X und Y diskrete Zufallsvariablen
⇒ gemeinsame Wahrscheinlichkeitsfunktion:
P(X = x, Y = y ) = f (x, y )
Anforderungen:
f (x, y ) ≥ 0
P P
x
y f (x, y ) = 1
Kumulative gemeinsame Wahrscheinlichkeitsfunktion
F (z, w ) = P(X ≤ z, Y ≤ w ):
X X
F (x, y ) =
f (x, y ).
x≤z
y ≤w
30 / 52
Gemeinsame Wahrscheinlichkeitsverteilungen
X und Y stetige Zufallsvariablen:
⇒ Dichtefunktion
Z
b
Z
P(a ≤ X ≤ b, c ≤ Y ≤ d ) =
d
f (x, y ) dy dx.
a
c
Anforderungen:
f (x, y ) ≥ 0
R R
x y f (x, y ) dy dx = 1
Die kumulative gemeinsame Dichtefunktion
F (z, w ) = P(X ≤ z, Y ≤ w ) lautet
Z z Z w
F (z, w ) =
f (x, y ) dy dx
−∞
−∞
31 / 52
Momente einer Verteilung
Zur (sparsamen) Beschreibung von Wahrscheinlichkeitsverteilungen verwenden wir deren Momente.
Jeder Moment ist durch eine Zahl gegeben:
Erster Moment: Erwartungswert
Zweiter Moment: Varianz
Dritter Moment: Schiefe
Vierter Moment: Wölbung
Zur Beschreibung von Verteilungen zwei (oder mehret)
Zufallsvariablen ist/sind die Kovarianz/en wichtig.
32 / 52
Momente einer Verteilung – Erster Moment
Der Erwartungswert E (X ) = µX ist das gewichtetes Mittel
aller möglichen Ausprägungen einer Zufallsvariable.
Diskrete Zufallsvariable:
X
X
E (X ) =
x · f (x) =
x · P(X = x)
x
x
Stetige Zufallsvariable:
Z
∞
E (X ) =
f (x)x dx
−∞
» Berechne E (X ) und E (Y ) für die Zufallsvariablen dargestellt
in Tabelle 1.2. im Buch auf S. 25
33 / 52
Momente einer Verteilung – Zweiter Moment
Die Varianz Var (X ) = σX2 ist das gewichtete Mittel aller
möglichen quadrierten Abweichungen der Ausprägungen vom
Erwartungswert.
Diskrete Zufallsvariable:
X
X
Var (X ) =
f (x) · (x − µX )2 =
P(X = x) · (x − µX )2
x
x
Stetige Zufallsvariable:
Z
∞
Var (X ) =
f (x) · (x − µX )2 dx
−∞
Die Standardabweichung q
σX ist die positive Quadratwurzel
der Varianz, daher σX = + σX2 .
» Berechne Var (X ) und Var (Y ) für die Zufallsvariablen
dargestellt in Tabelle 1.2. im Buch auf S. 25
34 / 52
Momente einer Verteilung – Dritter Moment
Die Schiefe ist ein Maß für die Symmetrie der Verteilung.
Diskrete Zufallsvariable:
Schiefe(X ) =
X
f (x) ·
x
(x − µX )3
(x − µX )3 X
=
P(X
=
x)
·
σX3
σX3
x
Stetige Zufallsvariable:
Z
∞
f (x) ·
Schiefe(X ) =
−∞
(x − µX )3
dx
σX3
Symmetrische Verteilungen haben eine Schiefe von Null.
Ein neg. Wert der Schiefe bedeutet eine linksschiefe
(rechtssteile) Verteilung.
Ein pos. Wert der Schiefe bedeutet eine rechtsschiefe
(linkssteile) Verteilung.
35 / 52
Momente einer Verteilung – Ein Beispiel
Example (Body Mass Index (BMI))
0
.02
.04
.06
.08
.1
P(BMI)
0
5
10
15
20
25
30
BMI
35
40
45
50
55
60
Figure: Verteilung des BMI in Deutschland
36 / 52
Momente der Verteilung des BMI
Example (BMI)
Der Erwartungswert des BMI beträgt 25,34. Damit ist eine
zufällig ausgewählte Person in Deutschland im Durchschnitt
leicht übergewichtig.
Die Varianz des BMI beträgt 18,40.
Man trifft in Deutschland mit einer Wahrscheinlichkeit von
48,25% eine übergewichtige (BMI > 25), mit 12,73% eine
fettleibige (BMI > 30) und mit 2,42% eine untergewichtige
(BMI < 18, 5) Person an.
Wie schaut es in Österreich aus? (Das ist Ihre Hausübung!)
37 / 52
Zusammenhang zweier Zufallsvariablen
Die Kovarianz Cov (X , Y ) = σXY beschreibt den linearen
Zusammenhang zwischen zwei Zufallsvariablen X und Y .
Diskrete Zufallsvariable:
XX
Cov (X , Y ) =
f (x, y )(x − µX )(y − µY )
x
y
Stetige Zufallsvariablen:
Z ∞Z
Cov (X , Y ) =
−∞
∞
f (x)(x − µX )(y − µY ) dx dy .
−∞
Der Korrelationskoeffizient normiert die Kovarianz:
Cov (X , Y )
ρXY =
σX · σY
wobei −1 ≤ ρxy ≤ +1.
» Berechne die Cov (X , Y ) für die Zufallsvariablen dargestellt in
Tabelle 1.2. im Buch auf S. 25
38 / 52
Rechenregeln
E (a) = a
E (X + Y ) = E (X ) + E (Y )
E (a · X + b) = a · E (X ) + b =
Var (a · X + b) = Var (a · X ) = a2 · Var (X )
Var (X + Y ) = Var (X ) + Var (Y ) + 2 · Cov (X , Y )
Var (a · X + b · Y ) = a2 · Var (X ) + b2 · Var (Y ) + 2 · a · b · Cov (X , Y )
Cov (a · X + b · Y ) = a · b · Cov (X , Y ) = a · b · σXY
Cov (X , Y ) = σXY = ρXY · σX · σY
39 / 52
Konditionaler Erwartungswert
Der bedingte Erwartungswert E (Y |X ) ist eine Zufallsvariable,
da X eine Zufallsvariable ist.
Für eine gegebene Ausprägung X = x ist E (Y |x) eine Zahl.
Ist Y eine diskrete Zufallsvariable, ergibt sie sich als
X
E (Y |x) =
f (y |x) y ,
y
ist sie eine stetige Zufallsvariable, dann ergibt sie sich als
Z ∞
E (Y |x) =
f (y |x) y dy .
−∞
» Berechne die E (Y |X ) für die Zufallsvariablen dargestellt in
Tabelle 1.2. im Buch auf S. 25
40 / 52
Konditionaler Erwartungswert
Example (Konditionaler Erwartungswert)
X=10
X=20
Y p(Y |X ) Y
p(Y |X )
35
1/3
120
1/5
40
1/3
50
1/5
15
1/3
75
1/5
115
1/5
35
1/5
Gesamt
90
395
E (Y |X )
30
79
Var (Y |X ) 117
1154
E (Y )
85
Var (Y )
2233
X=30
Y p(Y |X )
166
1/4
124
1/4
138
1/4
108
1/4
536
134
454
41 / 52
Konditionaler Erwartungswert
Example (Fußball ist ein gefährlicher Sport)
58% der registrierten Sportunfälle bei den Männern entfallen
auf Fußballspieler.
E (Fussballer |Sportunfall ) = 0,58
Bedeutet dies, dass Fussball überdurchschnittlich gefährlich ist?
Gilt also E (Sportunfall |Fussballer ) > E (Sportunfall )?
Dies stimmt natürlich nicht!
Man benötigt neben der Anzahl der Fußballer mit einem
Sportunfall Informationen über die Wahrscheinlichkeit, bei
Betrachtung eines Sportlers einen Fußballer vor sich zu haben.
Die Spitzenposition des Fußballs bei den Sportunfällen ergibt
sich nicht dadurch, dass diese Sportart besonders risikoreich ist;
es spielt einfach ein Großteil der Sportler in Deutschland
Fußball.
42 / 52
Unabhängigkeit, Unkorreliertheit und Identität
Stehen zwei Zufallsvariablen X und Y in keinen systematischen
Zusammenhang, so sind sie unabhängige Zufallsvariablen.
Z. B. der wiederholte Wurf einen Münze; X Ergebniss des ersten
Wurfes, Y Ergebniss des zweiten Wurfes.
Zufallsvariablen heißen identisch verteilt, wenn sie Ziehungen
aus ein und derselben Verteilung sind.
Weisen sie beide Merkmale auf, so nennt man sie i.i.d.
Zufallsvariablen (identically independently distributed).
43 / 52
Nützliche Verteilungen
Folgende Verteilungen lassen sich durch wenige Parameter beschreiben und haben (daher) eine wichtige Bedeutung u.A. für statistische
Tests:
Normalverteilung
Chi-Quadrat-Verteilung
t-Verteilung
F-Verteilung
44 / 52
Normalverteilung
Ist (aufgrund des zentralen Grenzwertsatzes4 ) die bedeutendste
statistische Verteilung.
Ist vollständig durch die ersten beiden Momente beschrieben.
Ist symmetrisch um ihren Erwartungswert (und Median).
Die Dichtefunktion f (X ) für X ∼ N(µX , σX2 ) ist definiert als
f (X ) =
1
√
σX 2π
e
−
1
2σ 2
X
(x−µX )2
.
(1)
Jede Normalverteilung kann in eine Standardnormalverteilung
N(0, 1) transformiert werden.
Die standardnormalverteilte Zufallsvariable Z ist gegeben durch
X −µX
und hat eine Erwartungswert von 0 und eine Varianz von
σx
1; siehe S. 33.
4
Die Summe von unabhängig identisch verteilten Zufallsvariablen ist normalverteilt.
45 / 52
Normalverteilung
0
.05
.1
.15
.2
.25
f(X)
−2
0
2
4
6
X
Figure: Dichtefunktion einer normalverteilten Zufallsvariable mit
X ∼ N(2, 1.5)
46 / 52
Chi-Quadrat-Verteilung
Die Summe von N quadrierten, unabhängig standardnormalverteilten Zufallsvariablen,
X = Z12 + Z22 + . . . + ZN2 ,
ist χ2 - verteilt mit N Freiheitsgraden.
Der Erwartungswert einer χ2N -verteilten Zufallsvariable ist N.
Form schwankt mit den Freiheitsgraden N; somit mit der
Anzahl der Zufallsvariablen.
47 / 52
Chi-Quadrat-Verteilung
f(X)
X
Figure: Dichtefunktion einer χ2 -verteilten Zufallsvariable
48 / 52
(Studentsche) t-Verteilung
Ist die Zufallsvariable Z standardnormalverteilt und die
Zufallsvariable W χ2 -verteilt (mit N Freiheitsgraden), dann ist
die Zufallsvariable T t-verteilt, wobei
Z
T =q .
W
N
Die t-Verteilung ist symmetrisch und approximiert die
Normalverteilung.
Die t-Verteilung ist sehr wichtig für statistische Tests.
49 / 52
(Studentsche) t-Verteilung
f(X)
Normalverteilung
t−Verteilung:
Fünf Freiheitsgrade
t−Verteilung:
Ein Freiheitsgrad
X
Figure: Dichtefunktion t-verteilter Zufallsvariablen.
Mit steigenden N nähert sich die t-Verteilung der Normalvert. an.
50 / 52
F-Verteilung
Eine Zufallsvariable U ist F-verteilt mit N1 und N2
Freiheitsgraden, wenn gilt
U=
W /N1
V /N2
und W ∼ χ2N1 sowie V ∼ χ2N2 .
Eine F-verteilte Zufallsvariable ist somit das Verhältnis zweier
χ2 -verteilter Zufallsvariablen.
Ihre Dichtefunktion ist nur für positive Werte definiert und
ähnelt in ihrem Aussehen der Dichtefunktion der χ2 -Verteilung.
Wichtig für statistische Tests.
51 / 52
F-Verteilung
f(X)
X
Figure: Dichtefunktion einer F-verteilten Zufallsvariablen.
52 / 52
Herunterladen