Wochen 6 und 7: Vertrauensintervalle und Parameterschätzung

Werbung
Wochen 6 und 7: Vertrauensintervalle und
Parameterschätzung
Teil V
Zentraler Grenzwertsatz und
Vertrauensintervalle
WBL 15/17, 01.06.2015
Alain Hauser <[email protected]>
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Berner Fachhochschule, Technik und Informatik
Lernziele
2 / 50
Beispiel: Latenz messen
Sie können. . .
I
. . . den zentralen Grenzwertsatz erläutern
I
. . . den Standardfehler des arithmetischen Mittels berechnen
I
. . . den Unterschied zwischen Standardfehler und
Standardabweichung erläutern
I
. . . ein approximatives Vertrauensintervall für einen
Erwartungswert berechnen
I
. . . eine Binomialverteilung durch eine Normalverteilung
approximieren
Vorlesung basiert auf Kapitel 4.6 im Skript
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
3 / 50
I
Auftrag: durchschnittliche Latenz einer Datenverbindung
bestimmen
I
Problem: durchschnittliche Latenz kann nicht gemessen werden,
dafür Latenz einer einzelner Datenübertragung
I
Idee: Datenübertragung mehrmals wiederholen, jeweils Latenz
messen; Mittelwert aus Messwerten berechnen
I
Intuitiv hofft man, dass der berechnete Mittelwert
(Stichprobenmittel) bei mehr und mehr Messungen näher an die
wahre“ durchschnittliche Latenz herankommt.
”
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
4 / 50
Mathematisches Modell
I
I
I
Wiederholte Messungen X1 , X2 , . . . , Xn
X1 , X2 , . . . , Xn sind unabhängige und identisch verteilte
Zufallsvariablen ( i.i.d.“)
”
Insbesondere haben alle Messungen denselben Erwartungswert
und dieselbe Varianz:
E(X1 ) = . . . = E(Xn ) = µ,
I
I
I
Standardfehler des arithmetischen Mittels
Das arithmetische Mittel aus wiederholten Messungen X ist ein
Schätzer für den Erwartungswert µ einer Zufallsvariablen
I
Je kleiner die Varianz von X ist, desto präziser wird die
Schätzung. Mit wachsender Stichprobengrösse n wird die
Varianz von X kleiner.
Var(X1 ) = . . . = Var(Xn ) = σ 2
Definition (Standardfehler des arithmetischen Mittels)
Stichprobenmittel X = n1 (X1 + X2 + . . . Xn ) ist auch eine
Zufallsvariable
Aus den Rechenregeln für Erwartungswert und Varianz wissen
wir bereits:
σ2
E(X ) = µ, Var(X ) =
n
Vgl. Aussage aus Kapitel Deskriptive Statistik“: X ist ein
”
konsistenter Schätzer für µ.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Die Grösse sex = √sxn heisst Standardfehler des arithmetischen
Mittels (sx bezeichnet die empirische Standardabweichung der
Stichprobe). sex ist ein Schätzer für die Standardabweichung des
arithmetischen Mittels X .
Abkürzung für den Standardfehler des arithmetischen Mittels: SEM
(“standard error of the mean”)
5 / 50
Beispiel: Standardfehler eines durchschnittlichen
Geburtsgewichts
Mittelwert x = 3276 g
0.0015
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
Wir können sogar mehr als bloss Erwartungswert und Varianz
des Stichprobenmittels X bestimmen.
I
Der zentrale Grenzwertsatz besagt, dass X für grosse
Stichprobengrössen n näherungsweise normalverteilt ist (mit
2
Erwartungswert µ und Varianz σn )
I
Gleichwertige Aussage:
emp. St.abw. sx = 528 g
x
SEM sex = 80 g
sex
0.0000
sx
2000 2500 3000 3500 4000
Gewicht [g]
Wenn die Stichprobengrösse n
wächst, konvergiert . . .
I
. . . x → E(X ),
I
. . . sx → σ(X ),
I
. . . sex → 0.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
6 / 50
Der zentale Grenzwertsatz
Datensatz mit Geburtsgewichten
von 44 Neugeborenen (in g):
Dichte
0.0005 0.0010
I
Theorem (Zentraler Grenzwertsatz)
X sei eine Zufallsvariable mit Erwartungswert µ und Varianz σ 2 , und
X1 , . . . , Xn sind i.i.d. Kopien davon. Dann ist
X −µ
√ ≈ N (0, 1) für grosse n .
σ/ n
7 / 50
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
8 / 50
Simulation zum zentralen Grenzwertsatz
Zentraler Grenzwertsatz: Illustration
Die Verteilung des Stichprobenmittels gleicht mehr und mehr einer
Normalverteilung:
3
4
x
5
n = 500
n = 1000
0
3.3
3.5
3.7
3.9
abs. Häufigkeit
50 100
6
3.0
4.0
3.0
3.4
x
3.6
x
3.8
3.5
4.0
x
x
n = 5000
n = 10000
4.5
abs. Häufigkeit
50 100
8 10
x
2
0
10
0
abs. Häufigkeit
50
150
0
8
abs. Häufigkeit
100 200
6
6
n = 100
0
4
x
0
2
4
abs. Häufigkeit
50 100
0
2
abs. Häufigkeit
50
150
0
n = 50
abs. Häufigkeit
0 50
150
250
0.30
0.00
E[X]
0.00
Simulation jeweils 2000 mal
wiederholen, Histogramm der 2000
berechneten Stichprobenmittel
zeichnen
I
E[X]
p(x)
0.15
p(x)
0.15 0.30
Dichte
Mittelwert der n Messwerte
berechnen
I
n = 10
Dichte
n unabhängige Messungen
simulieren; Verteilung einer
Einzelmessung durch Dichte rechts
gegeben (klar nicht normalverteilt!)
I
3.50
3.60
x
3.70
3.55
3.60
x
3.65
Histogramme: empirische Verteilung der Stichprobenmittel für
unterschiedliches n
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
9 / 50
Zentraler Grenzwertsatz: Illustration
I
10
2
3
4
x
5
n = 500
n = 1000
6
3
4
x
5
6
abs. Häufigkeit
50 100
2
3
4
x
5
6
3
4
x
5
6
3
4
x
5
6
X −µ
√
σ/ n
Mathematische präzise Formulierung des zentralen
Grenzwertsatzes: für alle reellen Zahlen z gilt
lim P(Zn ≤ z) = lim FZn (z) = Φ(z) ;
n→∞
n = 10000
0
2
2
n = 5000
0
0
2
I
abs. Häufigkeit
50 100
8
abs. Häufigkeit
100 200
6
Zn =
0
abs. Häufigkeit
50
150
0
x
abs. Häufigkeit
50
150
4
Zn bezeichne das standardisierte Stichprobenmittel
n = 100
I
0
0.30
p(x)
0.15
0.00
2
abs. Häufigkeit
50 100
0
n = 50
abs. Häufigkeit
0 50
150
250
n = 10
E[X]
10 / 50
ZGS: was heisst näherungsweise normalverteilt“? (I)
”
Die Verteilung des Stichprobenmittels gleicht mehr und mehr einer
Normalverteilung:
Dichte
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
2
3
4
x
5
6
2
3
4
x
5
6
Histogramme: empirische Verteilung der Stichprobenmittel für
unterschiedliches n
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
11 / 50
n→∞
Φ(z): kumulative Verteilungsfunktion von N (0, 1)
In Worten: die kumulative Verteilungsfunktion des
standardisierten Stichprobenmittels nähert sich mit wachsender
Stichprobengrösse mehr und mehr der kumulativen
Verteilungsfunktion der Standard-Normalverteilung an.
Für die mathematisch Interessierten: man nennt das schwache
”
Konvergenz“
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
12 / 50
ZGS: was heisst näherungsweise normalverteilt“? (II)
”
I
Die kumulative Verteilungsfunktion des standardisierten
Stichprobenmittels nähert sich mit wachsender
Stichprobengrösse mehr und mehr der kumulativen
Verteilungsfunktion der Standard-Normalverteilung an.
I
Konvergenz ist nur für kumulative Verteilungsfunktion wahr,
nicht für Dichte: u.U. ist X diskret und hat keine Dichte!
I
Der ZGS ist tatsächlich auch für wiederholte Messungen
diskreter Zufallsvariablen richtig! (Anwendung:
Normalapproximation einer Binomialverteilung)
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
13 / 50
Beispiel (Forts.): Latenz messen
I
I
(Approximative) Vertrauensintervalle für den Erwartungswert
I
Normalapproximation einer Binomialverteilung
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
14 / 50
Vertrauensintervalle konstruieren I
Bestimmung der durchschnittlichen Latenz einer
Datenverbindung: wiederholte Messungen durchführen,
Stichprobenmittel Schätzwert für Durchschnitt verwenden
I
Das ist ein sogenannter Punktschätzer: ein einzelner
Schätzwert ohne Genauigkeitsangabe
I
Unsere Intuition wird mathematisch bestätigt: je mehr
Messungen wir durchführen, desto näher liegt der Punktschätzer
am wahren Durchschnitt
I
Die Genauigkeit einer Schätzung können wir mit einem
Vertrauensintervall angeben: das ist ein Bereich, in dem der
wahre Durchschnitt mit einer gewissen Sicherheit liegt.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Anwendungen des zentralen Grenzwertsatzes
I
Modell für Messungen: X1 , X2 , . . . , Xn : i.i.d. Messungen (z.B.
der Latenz) mit E (Xi ) = µ und Var(Xi ) = σ 2 .
I
Zentraler Grenzwertsatz besagt, dass
I
I
15 / 50
X −µ
√ näherungsweise
σ/ n
standard-normalverteilt ist
X −µ
√ liegt mit 95% Wahrscheinlichkeit zwischen
Das heisst:
σ/ n
dem 2.5%- und dem 97.5%-Quantil der
Standard-Normalverteilung (also zwischen Φ−1 (0.025) = −1.96
und Φ−1 (0.975) = 1.96)
Konsequenz: µ liegt mit 95% Wahrscheinlichkeit zwischen
X − 1.96 √σn und X + 1.96 √σn
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
16 / 50
Vertrauensintervalle konstruieren II
µ liegt mit 95% Wahrscheinlichkeit zwischen X − 1.96 √σn und
X + 1.96 √σn
Wir können aber Unter- und Obergrenze dieses Bereichs (des
Vertrauensintervalls!) abschätzen, indem wir σ durch die
empirische Standardabweichung sx der Stichprobe ersetzen.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I heisst Vertrauensintervall für µ zum Konfidenzniveau 95%.
Definition (Vertrauensintervall für den Erwartungswert)
Ein Vertrauensintervall zu einem Konfidenzniveau 1 − α ist ein
Intervall I ⊂ R mit der Eigenschaft, dass P(µ ∈ I ) = 1 − α.
Ein Vertrauensintervall für µ zu einem beliebigen Konfidenzniveau
1 − α ist gegeben durch
s
s
−1
−1
√
√
x − Φ (1 − α/2)
, x + Φ (1 − α/2)
n
n
17 / 50
Bemerkungen zum Vertrauensintervall
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
18 / 50
Vertrauensintervalle sind zufällig
Wahl des Konfidenzniveaus hängt vom Kontext ab. Für
nicht-sicherheitsrelevante Anwendungen verwendet man häufig
1 − α = 0.95.
I
Häufiges Missverständnis: die Aussage P(µ ∈ I ) = 1 − α
bedeutet nicht, dass der Erwartungswert µ eine Zufallsvariable
ist!! Zufällig sind die Grenzen des Vertrauensintervalls, da sie
mit Hilfe von zufälligen Messwerten berechnet werden.
I
Wenn ich die Stichprobe vergrössere: wird das
Vertrauensintervall grösser oder kleiner? Und wenn ich das
Konfidenzniveau erhöhe?
1.0
1.5
I
Simulation: 50 mal wird eine Poisson-verteilte Stichprobe (mit
Parameter λ = 2) der Grösse 40 gezogen und jedesmal ein
95%-Vertrauensintervall für den Erwartungswert berechnet.
3.0
I
I
2.5
Problem: wahre Standardabweichung σ ist nicht bekannt.
Der Erwartungswert µ liegt mit (ungefähr)
95%
h
i
Wahrscheinlichkeit im Intervall I = X − 1.96 √sn , X + 1.96 √sn .
λ
I
I
2.0
I
Vertrauensintervall für den Erwartungswert
Berechnete Vertrauensintervalle für die 50 Stichproben
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
19 / 50
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
20 / 50
Normalapproximation einer Binomialverteilung
I
X ∼ Bin(n, π) sei eine binomialverteilte Zufallsvariable
I
Falls n gross genug ist, können wir deren kumulative
Verteilungsfunktion durch eine kumulative Verteilungsfunktion
einer Normalverteilung approximieren:
X ≈ N (nπ, nπ(1 − π))
I
Faustregel: Approximation darf verwendet werden, falls nπ > 5
und n(1 − π) > 5
I
Beachte: Approximation macht nur Sinn, wenn wir uns für die
kumulative Verteilungsfunktion interessieren. Die
W’keitsverteilung von X kann natürlich nicht durch eine Dichte
approximiert werden!
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
21 / 50
Lernziele
Teil VI
Verteilungen an Daten anpassen
( fitten“):
”
Maximum-Likelihood-Schätzung
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
22 / 50
Verteilungen an Daten anpassen ( fitten“)
”
Sie können. . .
I
. . . die Definition der Likelihood angeben
I
I
. . . analytisch einen Maximum-Likelihood-Schätzer für eine
einfache Dichte berechnen
I
I
. . . die Maximum-Likelihood-Schätzer für die Verteilungen aus
Teil II der Vorlesung angeben
I
. . . einen Q-Q-Plot erzeugen, lesen und interpretieren
I
. . . für einen gegebene Datensatz eine geeignete Verteilung
finden und anpassen
I
Ziel: eine parametrische Verteilung finden, die einen gegebenen
Datensatz gut erklärt“
”
Konkreter: eine Verteilungsfamilie (Binomial-, Poisson-,
Normalverteilung, etc.) samt zugehören Parametern finden, die
sich gut auf einen vorhandenen Datensatz anpassen lässt
Bisher sind wir immer davon ausgegangen, eine passende
Verteilung auf Grund theoretischer Überlegungen zu kennen.
Nun wollen wir passende Verteilung basierend auf Daten suchen.
Vorlesung basiert auf Kapitel 3.2 im Skript
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
23 / 50
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
24 / 50
Beispiel: Wahrscheinlichkeit schätzen
I
Verspäteter Zug: probabilistisches Modell I
Beispiel: wir vermuten, dass im neuen SBB-Fahrplan eine
bestimmte Verspätung recht instabil sein könnte. Wir wollen
daher die Wahrscheinlichkeit schätzen, dass der betroffene Zug
verspätet ist.
I
Formales Ziel: Wahrscheinlicht π schätzen, dass ein bestimmter
Zug verspätet ist.
I
Vorgehen: an zufällig ausgewählten Tagen im Jahr messen wir,
ob der betreffende Zug verspätet eintrifft oder nicht.
I
Beispiel: von 20 Tagen ist der Zug an 4 Tagen verspätet.
I
Intuitiver Schluss: Wahrscheinlichkeit für Verspätung beträgt
ungefähr 20%.
I
Mathematische Begründung für diesen Schluss:
Maximum-Likelihood-Schätzung
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
X ist Bernoulli-verteilt.
25 / 50
Verspäteter Zug: probabilistisches Modell II
I
I
I
0.30
π = 0.2
π = 0.3
Wir sammeln i.i.d. Daten der Pünktlichkeit an 20 Tagen, stellen
z.B. an k = 4 Tagen Verspätung fest.
I
Wie wahrscheinlich ist es, dass der Zug an k Tagen verspätet
ist?
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
π = 0.4
Bernoulli-Variable gibt an, ob Zug verspätet ist:
(
1, Zug ist verspätet,
X =
P(X = 1) = π
0, sonst.
I
Wir messen Verspätung an 20 Tagen
Messwerte“ x1 , . . . , xn
”
aus i.i.d. Messungen X1 , . . . , Xn
Bernoulli-Verteilung kann geschrieben werden als
I
P(X1 = x1 ) = π x1 (1 − π)1−x1
●
p(x)
0.20
26 / 50
I
●
●
●
●
●
●
●
●
●
●
●
●
0.10
I
Verspäteter Zug: Likelihood I
Wie wahrscheinlich ist es, dass der Zug an k Tagen verspätet
ist?
Die Zufallsvariable K = Anzahl Tage mit Verspätung“ ist
”
binomialverteilt: K ∼ Bin(20, π) (π: W’keit einer einzelnen
Verspätung)
Mögliche Verteilungen abhängig vom (unbekannten) Parameter
π:
π = 0.1
Binäre Zufallsvariable gibt an, ob Zug verspätet ist:
(
1, Zug ist verspätet,
X =
P(X = 1) = π
0, sonst.
●
●
●
●
●
●
I
●
Daher ist gemeinsame Verteilung von X1 , . . . , Xn
●
●
●
●
●
0.00
●
0
5
● ● ● ● ● ● ● ● ● ● ● ● ● ●
10
k
15
20 0
● ●
● ● ● ● ● ● ● ● ● ●
5
10
k
15
●
20 0
●
●
5
10
k
● ● ● ● ● ● ● ● ●
15
● ● ●
20 0
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
●
●
●
5
P(X1 = x1 , . . . , Xn = xn ) = π k (1 − π)n−k
●
●
●
●
●
●
●
●
●
●
●
10
k
● ● ● ● ● ● ●
15
20
27 / 50
(k: Anzahl Tage mit Verspätung)
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
28 / 50
Verspäteter Zug: Likelihood II
I
I
Maximum-Likelihood-Schätzer für diskrete Verteilung
Die Likelihood der Stichprobe ist ihre Wahrscheinlichkeit unter
der gemeinsamen Verteilung, aufgefasst als Funktion des
Parameters π:
I
Messungen X1 , X2 , . . . , Xn : i.i.d. Kopien einer diskreten
Zufallvariablen X mit Wahrscheinlichkeitsverteilung
P(X = x; θ): parametrisiert durch θ
L(π; x1 , . . . , xn ) = π k (1 − π)n−k
I
Likelihood
Die Likelihood ist kein neues Konzept, keine neue Definition.
Wir sprechen von der Likelihood (statt von W’keit) um
auszudrücken, dass wir die Stichprobe als fest, gegeben und den
Parameter als variabel oder unbekannt betrachten. Bisweilen
lässt man die Stichprobe aus der Notation weg:
L(θ) := P(X1 = x1 ; θ) · . . . · P(Xn = xn ; θ) =
Maximum-Likelihood-Schätzer für π: π̂ = Wert des
Parameters, der die Likelihood für eine gegebene Stichprobe
maximiert.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
29 / 50
Maximum-Likelihood-Schätzer für stetige Verteilung
I
I
Maximum-Likelihood-Schätzer für θ: θ̂ = Wert von θ, der
L(θ) (und damit `(θ)) maximiert
I
Berechnung: aus praktischen Gründen ist es i.d.R. einfacher,
`(θ) zu maximieren statt L(θ). Funktion `(θ) nach θ ableiten,
Ableitung 0 setzen, nach θ auflösen.
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
Log-Likelihood `(θ) := log(L(θ)) =
log(f (xi ; θ))
I
Maximum-Likelihood-Schätzer für θ: θ̂ = Wert von θ, der
L(θ) (und damit `(θ)) maximiert
I
Berechnung: Funktion `(θ) nach θ ableiten, Ableitung 0 setzen,
nach θ auflösen.
0.00
i=1
0
I
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Datensatz: Geburtszeit, Geschlecht und Gewicht von 44
Neugeborenen (Aufzeichnung aller Neugeborener während 24 h)
Histogramm: Anzahl Geburten pro Stunde
rel. Häufigkeit
0.10
0.20
i=1
I
30 / 50
Beispiel: Geburten-Statistik
Messungen X1 , X2 , . . . , Xn : i.i.d. Kopien einer stetigen
Zufallsvariablen X mit Dichte f (x; θ): parametrisiert durch θ
n
Y
Likelihood L(θ) := f (x1 ; θ) · . . . · f (xn ; θ) =
f (xi ; θ)
n
X
log(P(X = xi ; θ))
0.30
I
Log-Likelihood `(θ) := log(L(θ)) =
n
X
i=1
I
I
P(X = xi ; θ)
i=1
L(π) = L(π; x1 , . . . , xn )
I
n
Y
31 / 50
1
2
3
k
4
5
6
Geeignete Verteilung, um Daten zu beschreiben?
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
32 / 50
ML-Schätzer für Poisson-Verteilung
Beispiel: Geburten-Statistik
Datensatz:
I
I
Stichprobe von Poisson-Verteilung: x1 , x2 , . . . , xn
n
Y
λxi
Likelihood der Stichprobe: L(λ) =
e −λ
xi !
Stunde i:
Anz. Geburten xi :
0
1
1
3
2
1
3
0
4
4
5
0
6
0
7
2
8
2
···
···
9
1
i=1
i=1
I
I
Maximum-Likelihood-Schätzer:
n
1X
1
xi = x
λ̂ = (x1 + x2 + . . . xn ) =
n
n
I
i=1
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
33 / 50
beob.
fitted
●
●
●
●
●
●●
●
Fn(x)
0.4
0.8
p(x)
0.15
0.30
kum. Vert.fn.
●
●
●
●●
0 1 2 3 4 5 6
x
0.0
0.00
●
−1
1 2 3 4 5
x
Modell: X ∼ Pois(λ̂) mit
λ̂ = 1.833
Erklärt die Verteilung unsere Daten
gut?
0.30
●
beob.
fitted
●
●
●
●●
●
●
●
●
●
0
1
2
3
x
4
●
●
●
5
6
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
34 / 50
Vertrauensintervall für geschätzten Parameter
Empirische Quantile
0 1 2 3 4
Q-Q (Quantil-Quantil)-Plot
ML-Schätzer für Parameter λ:
λ̂ = x = 1.833
p(x)
0.15
I
0.00
I
n
X
Log-Likelihood: `(λ) =
xi log(λ) − λ − log(xi !)
Q−Q−Plot
●
●
I
λ̂ wird als arithmetisches Mittel der Stichprobe x1 , . . . , xn
berechnet, daher können wir das (approximative)
95%-Vertrauensintervall aus dem letzten Kapitel verwenden:
sx
sx
λ̂ − Φ−1 (0.975) √ , λ̂ + Φ−1 (0.975) √
n
n
I
Mit (ungefähr) 95% W’keit enthält dieses Intervall den wahren
Parameter λ
I
Beachte: das Intervall ist zufällig, nicht der Parameter λ!
●
●
●
●
●
0 1 2 3 4 5
Theoretische Quantile
Je näher die Punkte an der Diagonale des Q-Q-Plots sind, desto
besser passen die Daten zur gewählten Verteilung.
Nächste Frage: wie präzise ist das geschätzte λ̂?
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
35 / 50
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
36 / 50
Beispiel: Geburten-Statistik
I
I
(Approximatives) 95%-Vertrauensintervall für λ:
sx
sx
−1
−1
√
√
, λ̂ + Φ (0.975)
λ̂ − Φ (0.975)
n
n
Publizieren Sie geschätzte Parameter immer
zusammen mit Konfidenzintervallen!
In unserem Beispiel:
> mean(x)
[1] 1.833333
> sd(x)
[1] 1.239448
> qnorm(0.975)
[1] 1.959964
95%-Vertrauensintervall für λ: [1.337, 2.329]
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
37 / 50
Wir betrachten eine i.i.d. Stichprobe x1 , x2 , . . . , xn einer
Normalverteilung N (µ, σ 2 )
I
Wir kennen bereits erwartungstreue Schätzer: x für µ,
I
Maximum-Likelihood-Schätzer
sx2
für
σ2
(beachte:
Ist das Gewicht normalverteilt?
0.0000
1X
σ̂ 2 =
(xi − x)2
n
i=1
σ̂ 2
Zurück zum Beispiel-Datensatz: betrachte X = Geburtsgewicht
I
Histogramm
n
µ̂ = x,
I
kum. Vert.fn.
Fn(x)
0.4
0.8
I
Normalverteilung N (µ, σ 2 ): parametrisiert durch
Erwartungswert (µ) und Varianz (σ 2 )
beob.
angepasst
0.0
I
38 / 50
Beispiel: Geburten-Statistik
2000
3000
Gewicht
4000
1500
2500
3500
x
Q−Q−Plot
Empirische Quantile
2000
3000
4000
Normalverteilung anpassen
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Dichte
0.0010
I
●
●● ●
●●
●●
●●
●●
●●●●●
●
●
●
●
●
●●●●
●●●
●
●●●
●
●
●
●
●
●
●
●
●●
●
2000
3000
4000
Theoretische Quantile
ist nicht ganz erwartungstreu [leicht “biased”])
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
39 / 50
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
40 / 50
Q-Q-Plots im Detail
Q-Q-Plot: R-Funktionen
●●●●●
●●
●●●●
●●●
●●
●●●
●
●●
●
●
●
> library(car)
> (est.mean <- mean(x))
●
●
●
●
[1] 528.0325
2000 2500 3000 3500 4000 4500
Theoretische Quantile
41 / 50
●
●
●●
●
n = 100
●
●
●●●●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●●
−2
0 1 2
Theoretische Quantile
n = 10
n = 50
n = 100
●
●
●
●
●
●
●
●
●
−1.5 −0.5 0.5
1.5
Theoretische Quantile
●
●
●
●
●●
●●
●
●
●
●●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●●
●●●
●●●
●
●
●
−2 −1 0
1
2
Theoretische Quantile
Empirische Quantile
−2
0
2
−2 −1 0
1
2
Theoretische Quantile
●
42 / 50
rechtsschief
●
●●
●
●●
●●
●
●●
●●●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●●●
●●●●●●●
● ● ● ●●
●
linksschief
●
●
● ●
●
●● ●
●
●
●●●●●●
●●●●●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●●●
●
●●
●●
●
●
●
●
●
−1.5 −0.5 0.5
1.5
Theoretische Quantile
●
2000 2500 3000 3500 4000 4500
norm quantiles
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
●
●
●●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●●
●
●
−2
0 1 2
Theoretische Quantile
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
0
1
2
Theoretische Quantile
3
2
3
4
5
6
Theoretische Quantile
langschwänzig
●
●
−1
Empirische Quantile
−5
0
5
10
●
●
●●
●●●
Empirische Quantile
−2
0 1 2
●
●
Empirische Quantile
−3 −1
1
●
●
Empirische Quantile
−2
0 1 2
Empirische Quantile
−0.5 0.5 1.5
Empirische Quantile
−1.0 0.0 1.0
●
●
●
●
●●
●●●
●
●●●●●●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●●●●
●
● ●
Q-Q-Plots nicht normalverteilter Stichproben I
Q-Q-Plots von Stichproben, die aus einer Normalverteilung simuliert
wurden:
n = 50
●
●
> qqPlot(x, dist = "norm",
mean = est.mean, sd = est.sd)
Q-Q-Plots normalverteilter Stichproben
●
2000
> (est.sd <- sd(x))
● ●
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
n = 10
●
Empirische Quantile
2 3 4 5 6
3500
x
●
●
1
2500
● ● ●
●
●
●
●
●
●●●●●
●●
●●●●
●●●
●●
●●●
●
●●
●
●
[1] 3275.955
●
●
1500
●
●●
●
●●
●
●
●
−6
43 / 50
kurzschwänzig
●
●
●
●●●
●●
●●●●
●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●●●●●
●●
●
●
●
●
−4 −2
0
2
4
Theoretische Quantile
6
Empirische Quantile
0.0
0.4
0.8
0.0
●●
●
●
Empirische Quantile
0
1
2
3
0.2
●●
●●
●
●●
● ● ●
x
3000
Empirische Quantile
2000
3000
4000
1.0
0.8
beob.
angepasst
Fn(x)
0.4 0.6
●
4000
Mit Hilfe des R-Pakets car
(“Companion to Applied
Regression”) können Q-Q-Plots
erstellt werden:
kum. Vert.fn.
●
● ●
●
●●●●●
●
●●●●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●●●●
●●●
● ●●●●
0.0
0.5
1.0
Theoretische Quantile
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
44 / 50
Q-Q-Plots nicht normalverteilter Stichproben II
Q-Q-Plots nicht normalverteilter Stichproben III
Density
0.4 0.8
0
1
2
Theoretische Quantile
3
0
1
2
3
−6
●
3
4
5
6
Theoretische Quantile
1
2
3
4
5
6
45 / 50
Häufig benutzte Transformationen: log-Transformation,
Wurzel-Transformation
I
Beispiel: Messungen des Bleigehalts in Granit
0
●
●
●
●
●
●
●
●●
●●
●●●
●
●●●
●
●
●
●●●●●
● ● ●●
I
log−transformiert
●
−10
10
30
Theoretische Quantile
Empirische Quantile
1.0 2.0 3.0 4.0
Rohdaten
Empirische Quantile
20
40
60
Density
0.04
0.08
Histogramm
0.00
5
10
●
● ●
● ●
●
2.0
●
●●●●●
●●
●●●●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●●
●●●
● ●●●●
0.0
0.2
0.4
0.6
0.8
1.0
46 / 50
Exponentialverteilung anpassen
I
20
40
60
Bleigehalt
0
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
Rechtsschiefe Daten können teilweise durch eine Transformation
in eine Normalverteilung überführt werden
0
−5
0.0
0.5
1.0
Theoretische Quantile
Rechtsschiefe und Transformationen
I
6
Density
1.0
Empirische Quantile
0.0
0.4
0.8
Density
0.2 0.4
0.0
●
●
0.6
Empirische Quantile
1 2 3 4 5 6
●
●●●●● ●
●●●●●●
●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●●
●●●
●
●
●●●
●
●
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
I
−4 −2
0
2
4
Theoretische Quantile
kurzschwänzig
● ●
●
●
●
linksschief
2
I
●
●
●
●●●
●●
●●●●
●●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●●●●●●
●●
●
●●
0.0
−1
0.0
●
●●
●
●●
●●●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●●●
●●●●●●
● ● ● ●●●
●
●
Density
0.15
0.30
●
0.00
●●
●●
Empirische Quantile
−5 0
5 10
langschwänzig
●
1.2
Empirische Quantile
0
1
2
3
rechtsschief
I
●
●
●
●
●
●●
●●
●●●
●
●
●●
●●●●
●●●●
●
●●
●
●
Exponentialverteilung Exp(λ): parametrisiert durch Parameter λ
( Rate“)
”
Wir betrachten eine i.i.d. Stichprobe x1 , x2 , . . . , xn von Exp(λ)
1
Maximum-Likelihood-Schätzer: λ̂ =
x
(Approximatives) 95%-Vertrauensintervall:

!
!
−1 (0.975)
−1 (0.975)
Φ
Φ
λ̂ 1 −

√
√
, λ̂ 1 +
n
n
●
●
1.0
2.0
3.0
4.0
Theoretische Quantile
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
47 / 50
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
48 / 50
Beispiel: Geburten-Statistik
Beispiel: Geburten-Statistik
R-Befehle:
I
Datensatz über Geburten: betrachte T = Zeitintervall zwischen
2 aufeinanderfolgenden Geburten
> (rate <- 1/mean(x))
I
Wenn Geburtenzahl in festem Zeitintervall Poisson-verteilt ist,
ist Zeitintervall zwischen 2 Geburten exponentialverteilt (ohne
Beweis)
> qqPlot(x, dist = "exp", rate = rate)
0
50
100
Intervalle
150
0
50
100
x
150
150
100
●
x
●
●
●
●
●
0
● ●
50
100
150
Theoretische Quantile
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
●●
50
●● ●
●●
●●
●
●●●●
●●●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
49 / 50
0
Fn(x)
0.4
0.8
0.0
0.000
beob.
angepasst
●
Q−Q−Plot
Empirische Quantile
0
50
100 150
kum. Vert.fn.
Density
0.010 0.020
Histogramm
[1] 0.03006993
●
●
● ●
●●
●
●●●●
●●●
●●●●●
●●●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
0
50
100
exp quantiles
150
Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences
50 / 50
Herunterladen