Zufallsvariablen

Werbung
Zufallsvariablen
√ Diskret
Binomial
Hypergeometrisch
Poisson
Stetig
Normal
Lognormal
Exponential
Verteilung der Stichprobenkennzahlen
Stetige Zufallsvariable
Verteilungsfunktion:
Dichtefunktion:
Integralrechnung:
(Skriptum Angewandte Mathematik 1, S. 131 ff)
Gegeben f (x), eine differenzierbare Funktion F(x)
mit F′ (x) = f (x) heißt unbestimmtes Integral
oder Stammfunktion von f.
Grundintegrale :
F ( x) = ∫ f ( x) dx
Man schreibt:
Beispiele:
α +1
x
∫ x dx = α + 1
α
1
∫ x dx = ln x
1 αx
αx
∫ e dx = e
α
für α ≠ 0
Das bestimmte Integral
b
∫ f ( x ) dx = F (b ) − F ( a )
a
Das bestimmte
Integral ist die Fläche
unter der Kurve f (x)
zwischen den
Grenzen a und b
Stetige Verteilungen: Interpretation
b
∫ f ( x ) dx = F (b ) − F ( a )
a
F … Verteilungsfunktion,
f … zugehörige Dichte
Das bestimmte Integral über die Dichte gibt die
Wahrscheinlichkeit, dass die Zufallsvariable ihren Wert
im Intervall [a,b] annimmt
b
Speziell gilt (Buch S. 104):
F (b ) =
∫ f ( x ) dx
-∞
Mittelwert und Varianz
Bei gegebener Dichte f werden Mittelwert und Varianz
mit folgenden Formeln berechnet:
b
E ( X ) = µ = ∫ x f ( x ) dx
a
b
Var ( x ) = σ = ∫ ( x − µ ) f ( x ) dx
2
2
a
Beachte die Analogie zu den entsprechenden Formeln für
diskrete Variablen (Summen anstelle von Integralen,
Wahrscheinlichkeitsfunktion anstelle von Dichte).
Exponentialverteilung
Und daher
Für die Exponentialverteilung lassen sich aufgrund der
einfachen Gestalt der Dichtefunktion die Integrale zur
Berechnung von Mittelwert und Varianz unmittelbar
lösen (vgl. Skriptum „Angewandte Mathematik 1“).
Im allgemeinen ist dies nicht der Fall!
Normalverteilung
Dichte der Normalverteilung, X ~ N(µ,σ2):
Parameter: µ … Mittelwert
σ … Standardabweichung
Die Normalverteilung ist mit Abstand die wichtigste
Verteilung in der Statistik. Sie taucht in den meisten
klassischen Testverfahren auf – zentraler Grenzwertsatz!
Standardnormalverteilung N(0,1)
Eine spezielle Rolle nimmt die Standardnormalverteilung
ein, mit Mittelwert 0 und Standardabweichung 1
Die Verteilungsfunktion der Standardnormalverteilung
wird üblicherweise als Φ(x) bezeichnet
Zentrale Flächen von N(0,1)
Φ(1) - Φ(-1) ~ 0.68
Φ(2) - Φ(-2) ~ 0.95
Die Verteilungsfunktion Φ(x) lässt sich nicht in geschlossener Form berechnen ( Computer oder Tabellen!)
Verteilungsfunktion Φ(x)
Die Werte der Verteilungsfunktion sind der Tabelle im
Anhang des Buches (S. 316, S.317) zu entnehmen.
Da f(x) symmetrisch ist gilt: Φ(-x) = 1 - Φ(x)
Φ(0) = 1/2,
Φ(-2) = 1 - Φ(2) = 0,02275
Φ(0) - Φ(-2) = 0,47725
N(-5,1)
N(0,1)
N(-5,1/4)
N(5,1)
0.4
f(x)
N(0,1)
0.2
0.2
N(5,4)
0.0
0.1
0.0
f(x)
0.3
0.6
0.4
0.8
Allgemeine Normalverteilung N(µ,σ2)
-5
0
x
5
-5
0
x
5
Standardisierung
Die Standardnormalverteilung kann auch verwendet
werden, um Wahrscheinlichkeiten einer allgemein
normalverteilten Zufallsvariable zu berechnen:
Sei X ~ N(µ,σ2), dann ist die Zufallsvariable
Z = (X - µ)/σ standardnormalverteilt: Z ~ N(0,1).
Für die Praxis bedeutet das:
Wichtige Eigenschaften
Die Summe zweier unabhängiger Normalverteilungen
ist wieder normalverteilt:
Sei X ~ N(µ1,σ12), und Y ~ N(µ2,σ22). Dann gilt
Z = (X +Y) ~ N(µ1 + µ2 , σ12 + σ22 ).
Sei X ~ N(µ,σ2), und α eine reelle Zahl. Dann gilt:
α X ~ N(α µ , α2 σ2).
Vergleiche die Eigenschaften von Mittelwert und
Varianz für allgemeine Zufallsvariablen.
Wichtige Eigenschaften
Die Summe zweier unabhängiger Normalverteilungen
ist wieder normalverteilt:
Sei X ~ N(µ1,σ12), und Y ~ N(µ2,σ22). Dann gilt
Z = (X +Y) ~ N(µ1 + µ2 , σ12 + σ22 ).
Sei X ~ N(µ,σ2), und α eine reelle Zahl. Dann gilt:
α X ~ N(α µ , α2 σ2).
Vergleiche die Eigenschaften von Mittelwert und
Varianz für allgemeine Zufallsvariablen.
Verteilung der Stichprobenkennzahlen
Arithmetisches Mittel
Zentraler Grenzwertsatz
(Normalverteilungsapproximation von
diskreten Verteilungen)
Stichprobenvarianz
Chi-Quadrat Verteilung
Standardisierung des arithmetischen
Mittels
T-Verteilung
Verteilung des arithmetischen Mittels
Aus den beiden zuletzt besprochenen Eigenschaften
der Normalverteilung folgt unmittelbar die Verteilung
des arithmetischen Mittels einer zufälligen Stichprobe:
Seien Xi, i = 1…n unabhängig normalverteilt mit
Mittelwert µ und Standardabweichung σ. Dann gilt
n
2
1
σ
X = ∑ X i ~ N (µ , )
n
n i =1
Der Mittelwert bleibt gleich, allerdings streut das arithmet.
Mittel weniger als die einzelnen Beobachtungen.
X wird verwendet um µ zu schätzen (vgl. deskr. Stat.).
Bsp 4-28 (mit Varianz 0,01)
Füllmenge von Weinflaschen sei N(0.75, 0.12).
Unabhängige Stichprobe von 10 Flaschen, welche
Füllmenge erwartet man im Mittel? 0,75
Wie streut dieser Mittelwert, sprich welche Abweichung
des Mittelwerts von 0,75 kann man erwarten?
2
σ
Var ( X ) =
n
Bzw.
=
σ ≅ 0.0316
0,12
10
=
0,001
Zentraler Grenzwertsatz
Interessanterweise spielt es für die Verteilung des
arithmetischen Mittels keine große Rolle, ob die
Einzelbeobachtungen normalverteilt sind:
Seien Xi, i=1…n unabhängig (aber gleich) verteilt mit
Mittelwert µ und Standardabweichung σ. Dann gilt für
hinreichend großes n näherungsweise:
2
1 n
σ
X = ∑ X i ~ N (µ , )
n
n i =1
Das arithmetische Mittel kann als normalverteilt betrachtet
werden selbst wenn die einzelnen Beobachtungen nicht
normalverteilt sind.
Typische Anwendung
Für großen Stichprobenumfang n kann man die
Binomialverteilung durch eine Normalverteilung
approximieren:
Sei X ~ B(n,p), µ = n p und σ2 = n p q.
Falls σ2 ≥ 9 dann gilt
Verschiebung der Grenzen a und b in der Approximation:
Stetigkeitskorrektur!
ACHTUNG: P(X · b) ≠ P(X < b)
Bsp 4-17: Wiederholung
Beispiel zur Poisson-Approximation, X~B(250;0.04)
Beachte Ähnlichkeit der Wahrscheinlichkeitsfunktion
zur Dichte einer Normalverteilung!
Wahrscheinlichkeits
funktion
14
Verteilungsfunktion
120
12
100
10
80
8
60
6
40
4
20
2
POISSON
BINOM
0
,0
K
2
4
6
8
10
12
14
16
18
20
22
24
POICUM
BINCUM
0
,0
K
2
4
6
8
10
12
14
16
18
20
22
24
Typische Anwendung 2
Ebenso kann die hypergeometrische Verteilung durch
eine Normalverteilung approximiert werden:
Seien X ~ H(N,M,n), dann gilt wiederum falls σ2 ≥ 9
und zusätzlich N ≥ 2n
Verschiebung der Grenzen a und b in der Approximation:
Stetigkeitskorrektur!
ACHTUNG: P(X · b) ≠ P(X < b)
Bsp 4-32
N=2500 Milchpackungen, davon 12% verdorben
n=100 Packungen kontrolliert
P … Anteil der davon verdorbenen Packungen
P = X/100,
X … hypergeometrisch verteilt (M = 2500·0.12 = 300)
a) Berechne E(P) und Var(P)
E(X) = 100·0.12 = 12 E(P) = 0.12
Var(X) = 12·0.88·2400/2499=10.142
Var(P) = 10.142/1002 = 0.0010142
Bsp 4-32, Fortsetzung
b) Mit welcher Wahrscheinlichkeit liegt P zwischen
5% und 15%?
E(X) = 12, Var(X) = 10.142
Die χ2-Verteilung
Seien Z1,…Zr unabhängig und standardnormalverteilt.
Man definiert die Verteilung der Zufallsvariable
r
S = ∑ Z i2
2
r
i =1
als χ2-Verteilung mit r Freiheitsgraden
Im wesentlichen werden wir im Zusammenhang mit dem
Schätzen von Konfidenzintervallen und bei statistischen
Tests jeweils die Quantile der χ2-Verteilung benötigen!
Dichte der χ2-Verteilung
Verteilung der Stichprobenvarianz
Sei X1,…Xn eine zufällige Stichprobe mit E(Xi) =µ
und Var(Xi) =σ2. Dann hat die empirische Varianz
S
2
n −1
=
1
n
(X
∑
n −1
i =1
i
−X )
2
Mittelwert σ2. Aus diesem Grund wird Sn-1 verwendet
um σ2 zu schätzen (vgl. deskr. Stat.).
Die Zufallsvariable
(n − 1) ⋅ S
2
n −1
/σ
2
folgt einer χ2-Verteilung mit df = n-1 Freiheitsgraden.
Genauigkeit des arithmetischen Mittels
als Schätzer von µ
Das arithmetische Mittel wird verwendet um von einer
Stichprobe X1,…Xn den theoretischen Mittelwert µ zu
schätzen. Zur Prüfung der Genauigkeit dieses
Schätzers braucht man die Varianz des arithmetischen
Mittels σ2 /n (vgl. Bsp. 4-28)
Nun ist aber im allgemeinen σ2 nicht bekannt und muss
selbst
aus den Daten geschätzt werden, wofür
2
S n −1 verwendet wird.
Verteilung des standardisierten
arithmetischen Mittelwert
Falls X ~ N(µ,σ2), dann wissen wir:
Z = (X - µ)/σ standardnormalverteilt: Z ~ N(0,1).
Es gilt E(X) ~ N(µ,σ2/n), und somit:
X −µ
Z=
standardnormalverteilt: Z ~ N(0,1).
(σ / n )
Ersetze nun σ2 durch Sn-1:
X −µ
T :=
( S n−1 / n )
Die T-Verteilung
Die so erhaltene Teststatistik
X −µ
T :=
( S n−1 / n )
folgt einer Verteilung, welche Studentverteilung oder
auch T-Verteilung genannt wird. Sie wird im folgenden
wesentlich sein beim statistischen Testen, wenn man
etwa Mittelwerte vergleichen möchte.
Speziell werden wir wieder die Quantile der
Verteilung benötigen.
Dichte der T-Verteilung
Zusammenfassung
Sei X1,…Xn eine zufällige Stichprobe mit E(Xi) =µ und
Var(Xi) =σ2.
1) Verteilung des arithmetischen Mittels:
2
σ
N (µ , )
n
2) Verteilung der standardisierten empirischen Varianz
χ2-Verteilung mit df =n-1 Freiheitsgraden
3) Verteilung des standardisierten arithmetischen Mittel:
Student-Verteilung mit df = n-1 Freiheitsgraden
Quantile einer Verteilung
Verteilungsfunktion:
Das γ-Quantil einer Verteilung löst die
Umkehraufgabe: Für welches xγ gilt
Typischerweise lässt sich das γ-Quantil nicht
einfach berechnen, sondern man muss in
Tabellen nachschlagen
Tabellen der Quantile
Normalverteilung: Verwende die Tabelle der
Verteilungsfunktion S. 316/317
Die Tabelle ist entsprechend umgekehrt zu
lesen
χ2-Verteilung: Tabelle S. 320
T-Verteilung: Tabelle S. 318/319
Normalverteilung: entspricht T-Verteilung mit df = ∞
Bsp. 4-22 an der Tafel
Symmetrische Intervalle
Sei X ~ N(µ,σ2) und γ eine vorgegebene Wahrscheinlichkeit.
Dann gilt:
für
Beweis:
Herunterladen