Statistik_II_3b

Werbung
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Herzlich willkommen zur
Vorlesung
Zufallsvariablen
und ihre Verteilung
Teil B: Stetige Variablen
1
FB 1
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
... if the number of observations is large, the
distribution of θ in repeated sampling tends to be, and
for practical purposes is actually normal.
Neyman, Jerzy: On the Two Different Aspects of the
Representative Method: The Method of Stratified Sampling and the
Method of Purposive Selection, in: Journal of the Royal Statistical
Society, Series A 97, 1934, S. 558-625, hier S. 566.
2
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Die Gaußsche Normalverteilung
Verteilung einer stetigen (Zufalls-)Variablen.
Ihre Dichteverteilung kann beschrieben werden durch die
(nicht zu lernende!) Formel
1
f ( x | µ ,σ ) =
e
σ 2π
(
x − µ )2
−
2σ 2
µ = Erwartungswert („Mittelwert“ einer Zufallsvariablen)
σ² = Varianz
π=3,14... e=2,72 (Basis des natürl. Log.)
3
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Die Normalverteilung
•
•
•
Stetige Zufallsvariable
Symmetrisch (um µ), unimodal, glockenförmig
Nähert sich asymptotisch der X-Achse
0.4
0.3
0.2
0.1
0.0
-4
-3
-2
-1
0
standnor
1
2
3
4
4
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Normalverteilung
Je nach µ und σ kann die Normalverteilung unterschiedliche Lage und Form aufweisen.
5
FB 1
W. Ludwig-Mayerhofer
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
Statistik II – Zufallsvariablen
Allgemein: Bestimmung von
Wahrscheinlichkeiten bei stetigen
Verteilungen
•
•
Da die Normalverteilung stetig ist, hat ein ganz
bestimmter Wert keine zuordenbare
Wahrscheinlichkeit bzw. eine Wahrscheinlichkeit
von Null.
Es können nur Wahrscheinlichkeiten in einem
Intervall über die Bestimmung des Integrals über
dieses Intervall berechnet werden.
6
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Bestimmung von
Wahrscheinlichkeiten bei stetigen
Verteilungen
Wahrscheinlichkeitsdichte
b
P(a ≤ X ≤ b) = ∫ f(x)dx
a
Verteilungsfunktion
x
F ( x) = P(−∞ ≤ X ≤ x) =
∫ f (u )du
−∞
7
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Allgemein: Erwartungswert und
Varianz stetiger Zufallsvariablen
In Analogie zu diskreten Variablen gilt:
∞
µx =
∫ x ⋅ f (x)dx
−∞
∞
σ 2x =
2
(x
−
µ
)
⋅ f (x)dx
x
∫
−∞
8
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Stichproben als Zufallsvariablen:
Summen, Mittelwerte und deren
Varianzen
Erwartungswert der Summe von n Zufallsvariablen:
Yn = n ⋅ µ X
Erwartungswert des Stichprobenmittelwertes:
1
Yn = ⋅ (n ⋅ µ X ) = µ X
n
Varianz der Stichprobenmittelwerte:
2
σ (Yn ) =
σ X2
n
9
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Bedeutung der Normalverteilung
•
•
•
Empirische Verteilung: Viele Merkmale sind
normalverteilt (Körpergröße, Gewicht) oder
werden so konstruiert, dass sie normalverteilt sind
(Tests).
Fehlerverteilung: Zufällige Messfehler folgen einer
Normalverteilung.
Grundlegende Verteilung für die Statistik: Bei
großen Stichproben nähern sich andere
Verteilungen der Normalverteilung an; gleichzeitig
ist die Normalverteilung „Mutter“ einiger anderer
Verteilungen.
10
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Standardnormalverteilung
•
Durch Standardisierung wird die Normalverteilung in die Standardnormalverteilung N (0;1)
überführt.
•
Standardisierung (oder z-Transformation; kann
mit jeder metrischen Variablen durchgeführt
werden):
Für Z gilt:
Z=
•
X − µx
µ=0
σ=1
σx
Die Dichtefunktion vereinfacht sich so zu dem
(nicht zu lernenden) Ausdruck
φ ( x) =
1
e
2π
(
x )2
−
2
11
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
12
Ca. zwei Drittel der Werte (genau: 68,26 %) liegen im Bereich -1 bis +1
Für die Standardnormalverteilung
lassen sich besonders
einfache Regeln
formulieren
0.4
0.3
0.2
0.1
0.0
-4
-3
-2
-1
0
standnor
1
2
3
4
Ca. 95 % der Werte (genau: 95,45 %) liegen im Bereich -2 bis +2
Ca. 99,7 % der Werte (genau: 99,73 %) liegen im Bereich -3 bis +3
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
-4
-3
-2
-1
0
standnor
1
2
3
4
-4
-3
-2
-1
0
standnor
1
2
3
4
FB 1
W. Ludwig-Mayerhofer
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
Statistik II – Zufallsvariablen
13
Verteilungsfunktion der StandardStandardnormalverteilung (Auszüge)
z
Quantil
z
Quantil
-2,576
0,005
0,675
0,75
-2,325
0,01
1,282
0,90
-1,96
0,025
1,645
0,95
-1,645
0,05
1,96
0,975
-1,282
0,10
2,325
0,99
-0,675
0,25
2,576
0,995
0
0,5
Zwischen −∞ und –1,96
liegen 2,5 % aller Werte
Zwischen −∞ und 1,282
liegen 90 % aller Werte
Zwischen –1,282 und
1,96 liegen 0,875 aller
Werte
95 % aller Werte
symmetrisch um 0 liegen
zwischen -1,96 und +1,96
FB 1
W. Ludwig-Mayerhofer
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
Statistik II – Zufallsvariablen
Verallgemeinerung für
Normalverteilung
•
•
•
Ca. 68 % der Werte liegen in einem Bereich von
+/- 1 σ um den Mittelwert.
Gut 95 % der Werte liegen in einem Bereich von
+/- 2 σ um den Mittelwert.
99,7 % der Werte liegen in einem Bereich von +/3 σ um den Mittelwert.
14
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
W. Ludwig-Mayerhofer
Zentraler Grenzwertsatz
•
Die Verteilung der standardisierten Summe von n
unabhängigen Zufallsvariablen, die alle die
identische Wahrscheinlichkeitsverteilung haben,
nähert sich mit steigender Stichprobengröße der
Standardnormalverteilung an.
Daraus folgt u.a., dass Mittelwerte und
Anteilswerte aus Zufallsstichproben bei
„hinreichend großem“ n einer Normalverteilung
folgen – auch wenn das Merkmal selbst in der
Grundgesamtheit nicht normalverteilt ist.
•
„Hinreichend groß“ variiert je nach Umständen
(Art es zugrunde liegenden Merkmals),
mindestens gilt n ≥ 30.
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
Statistik II – Zufallsvariablen
15
12
10
8
10
6
4
Prozent
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
16
14
20
0
2
3
4
5
6
7
8
9
10
11
2
0
3
12
6
9
12
15
18
Summe drei Würfe
Summe zwei Würfe
12
10
10
8
8
6
6
4
4
2
2
Prozent
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Statistik II – Zufallsvariablen
Zentraler Grenzwertsatz: Beispiel
Summe der Augen beim Würfeln
Prozent
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
W. Ludwig-Mayerhofer
Prozent
FB 1
0
4
6
8
10
12
Summe vier Würfe
14
16
18
20
22
24
0
6
9
12
15
18
Summe sechs Würfe
21
24
27
30
33
36
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Weitere Verteilungen I: χ²
χ²--Verteilung
Verteilung einer Summe quadrierter
standardnormalverteilter Zufallsvariablen Z:
χ df2 = n = Z12 + Z 22 + ... + Z n2
mit df=Zahl der Freiheitsgrade (degrees of freedom), d.h.
Zahl der (von einander unabhängigen) Variablen Z.
Wichtige Anwendungsfälle: Analyse von Kreuztabellen;
Likelihood-Ratio-Test in der Maximum-LikelihoodSchätzung
17
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Anlässlich χ²
χ²-- und weiterer VerVerteilungen:: Was sind Freiheitsgrade?
teilungen
„Freiheitsgrade“ bezieht sich auf die Zahl der Größen, die
frei, d.h. nicht durch andere Größen festgelegt sind.
Beispiele:
• Arithmetisches Mittel und Varianz: Liegt bspw. das ar.
Mittel fest und stehen n-1 Datenwerte fest, so ist der n.te
Datenwert nicht mehr frei n-1 Freiheitsgrade
• Vierfelder-Kreuztabelle: Sind die Randverteilungen
und der Wert einer Zelle der Tabelle bekannt, so sind die
übrigen drei Werte nicht mehr frei 1 Freiheitsgrad
• Allgemein hat eine Kreuztabelle mit m Zeilen und k
Spalten (m-1) * (k-1) Freiheitsgrade
18
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Weitere Verteilungen II: T-Verteilung
Kann statt SNV herangezogen werden, wenn ein
Merkmal in der Grundgesamtheit normalverteilt und die
Varianz der Grundgesamtheit unbekannt ist.
T=
Z
χ2
df
Welche Form hat eine t-verteilte
Zufallsvariable?
Was ist der Mittelwert einer t-verteilten
Variable, was ist Minimum und Maximum?
Geht bei größerem Stichprobenumfang in SNV über.
Wichtige Anwendungsfälle: Konfidenzintervall für
Mittelwert bei kleinen Stichproben; Vergleich von
Mittelwerten; Signifikanztest von Koeffizienten im linearen
Regressionsmodell.
19
FB 1
Grundlagen/
Wiederholung
Zufallsvorgänge
Verteilungen von
Zufallsvariablen
Definitionen
Diskrete Verteilungen
Normalverteilung
Zentraler Grenzwertsatz
Verwandte der
Normalverteilung
Punkt- und Intervallschätzung
Signifikanztests
t-Test
Varianzanalyse
Verteilungsfreie
Verfahren
Korrelation und
Regression
W. Ludwig-Mayerhofer
Statistik II – Zufallsvariablen
Weitere Verteilungen III: F-Verteilung
Entsteht aus zwei von einander unabhängigen chiquadrat-verteilten Zufallsvariablen:
χ12 / df1
F= 2
χ 2 / df 2
Im Zähler und im Nenner taucht jeweils ein
Freiheitsgrad auf. Es gibt also einen
„ersten“ und einen „zweiten“ Freiheitsgrad.
Wichtiger Anwendungsfall: Varianzanalyse (Vergleich von
Gruppenmittelwerten, Test des Gesamtmodells im
linearen Regressionsmodell)
20
Herunterladen