Statistik II für Studierende der Soziologie

Werbung
Name:
Matrikelnummer:
Formelsammlung zur Vorlesung
Statistik II für Studierende der Soziologie
Dr. Carolin Strobl
SoSe 2009
1
Wahrscheinlichkeitsrechnung
1.1
Mengen und elementare Mengenoperationen
Definition: Eine Menge ist eine Zusammenfassung verschiedener Objekte zu einem Ganzen. Die einzelnen Objekte einer Menge werden Elemente genannt.
Standardmengen:
N
N0
Z
R
∅
= {1, 2, 3, . . .}
= {0, 1, 2, 3, . . .}
= {0, ±1, ±2, . . .}
= (−∞, ∞)
: Menge der natürlichen Zahlen,
: Menge der natürlichen Zahlen inklusive 0,
: Menge der ganzen Zahlen,
: Menge der reellen Zahlen,
: leere Menge.
• Elementeigenschaft:
x ist Element der Menge A:
x∈A
x ist nicht Element der Menge A: x ∈
/A
• Teilmengen: A ist Teilmenge von B, in Zeichen A ⊂ B, wenn jedes Element von A
auch in B ist.
• Schnittmenge: Die Schnittmenge A ∩ B ist die Menge aller Elemente, die sowohl
1
1. Wahrscheinlichkeitsrechnung
2
in A als auch in B enthalten sind:
A ∩ B = {x|x ∈ A und x ∈ B}
• Zwei Mengen A und B mit A ∩ B = ∅, d.h. zwei Mengen, die kein gemeinsames
Element haben, heißen disjunkt.
• Vereinigungsmenge: Die Vereinigungsmenge A ∪ B ist die Menge aller Elemente,
die in A oder B enthalten sind:
A ∪ B = {x|x ∈ A oder x ∈ B}
• Differenzmenge: Die Differenzmenge A \ B ist die Menge aller Elemente, die in A,
aber nicht in B enthalten sind:
A \ B = {x|x ∈ A aber x ∈
/ B}
• Komplementärmenge: Die Komplementärmenge Ā bezüglich einer Grundmenge Ω
ist die Menge aller Elemente von Ω, die nicht in A sind:
Ā = {x ∈ Ω|x ∈
/ A} = {x : x ∈
/ A}
• Potenzmenge: Die Potenzmenge P(A) ist die Menge aller Teilmengen von A:
P(A) = {M |M ⊂ A}.
• Mächtigkeit: Die Mächtigkeit |A| einer Menge A ist die Anzahl der Elemente von
A
Rechenregeln für Mengen
1. Kommutativgesetze (Vertauschung):
A ∩ B = B ∩ A,
A ∪ B = B ∪ A.
2. Assoziativgesetze (Zusammenfassen):
(A ∩ B) ∩ C = A ∩ (B ∩ C).
(A ∪ B) ∪ C = A ∪ (B ∪ C).
3. Distributivgesetze (Ausklammern/Ausmultiplizieren):
(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C).
(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C).
4. De Morgansche Regeln:
(A ∪ B) = Ā ∩ B̄
(A ∩ B) = Ā ∪ B̄
1. Wahrscheinlichkeitsrechnung
3
5. Für die Potenzmenge gilt |P(A)| = 2|A| .
Das kartesische Produkt
Das kartesische Produkt zweier Mengen
A = {a1 , a2 , a3 , . . . , ak }
B = {b1 , b2 , b3 , . . . , bm }
ist die Menge
o
n
¯
A × B := (ai , bj ) ¯ i = 1, . . . , k, j = 1, . . . , m
besteht also aus allen möglichen Kombinationen, so dass
©
A × B = (a1 , b1 ), (a1 , b2 ), (a1 , b3 ), . . . , (a1 , bm ),
(a2 , b1 ), (a2 , b2 ), (a2 , b3 ), . . . , (a2 , bm ),
..
.
ª
(ak , b1 ), (ak , b2 ), (ak , b3 ), . . . , (ak , bm )
1.2
1.2.1
Wahrscheinlichkeitsbegriffe
Zufallsvorgänge
Ein Zufallsvorgang führt zu einem von mehreren, sich gegenseitig ausschließenden Ergebnissen.
Zur Beschreibung eines Zufallsvorganges benötigt man
a) Einen Ergebnisraum (Grundraum, Stichprobenraum) Ω, der die möglichen Ergebnisse
ω enthält.
Teilmengen A von Ω bezeichnet man als Ereignisse, Ereignisse sind also bestimmte
Mengen von Ergebnissen.
Die einelementigen Teilmengen (also die Ergebnisse ω) werden als Elementarereignisse
bezeichnet.
b) Eine Wahrscheinlichkeitsbewertung, die jedem Ereignis seine Wahrscheinlichkeit zuordnet.
1.2.2
Laplace-Wahrscheinlichkeiten
Laplace-Wahrscheinlichkeit: In einem Laplace-Experiment gilt für P (A) mit |A| = M
und |Ω| = N :
|A|
M
P (A) =
=
.
|Ω|
N
Abzählregel:
P (A) =
Anzahl der für A günstigen Ergebnisse
Anzahl aller möglichen Ergebnisse
1. Wahrscheinlichkeitsrechnung
4
Urnenmodell: Ziehen mit Zurücklegen
• Grundgesamtheit mit N Zahlen G = {1, . . . , N }.
• Ziehe Stichprobe vom Umfang n mit Zurücklegen.
• Ω = {(ω1 , . . . , ωn ) : ωj ∈ {1, . . . , N }}
• |Ω| = N
· . . . · N} = N n , d.h. N n mögliche Stichproben vom Umfang n.
| · N {z
n-mal
Urnenmodell: Ziehen ohne Zurücklegen
• Grundgesamtheit mit N Zahlen G = {1, . . . , N }.
• Ziehe Stichprobe vom Umfang n ohne Zurücklegen.
• Ω = {(ω1 , . . . , ωn ) : ωj ∈ {1, . . . , N }, ωj 6= ωi für i 6= j}
• Anzahl der Stichproben:
|Ω| = N · (N − 1) · . . . · N − n + 1 =
N!
(N − n)!
Fakultät
Die Fakultät einer natürlichen Zahl k ist definiert als
k! = k · (k − 1) · (k − 2) · . . . · 2 · 1
wobei
1! = 1,
0! = 1.
Urnenmodell: Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge
• Ziehe n Kugeln aus einer Urne mit N nummerierten Kugeln. Die Reihenfolge der
Ziehungen spielt keine Rolle.
• Ω = {{ω1 , . . . , ωn } : ωj ∈ {1, . . . , N }, ωj 6= ωi für j 6= i}
• Anzahl der Stichproben:
N!
|Ω| =
=
(N − n)!n!
Binomialkoeffizient
Der Binomialkoeffizient
Es gilt:
¡N ¢
n
µ ¶
N
n
ist definiert als
µ ¶
N
N!
.
=
(N − n)! · n!
n
µ ¶
µ ¶
µ ¶
N
N
N
= 1,
= N,
= 1,
0
1
N
µ ¶
N
= 0, falls N < n .
n
1. Wahrscheinlichkeitsrechnung
1.2.3
5
Das Axiomensystem von Kolmogoroff
Definition (Axiome von Kolmogorov, 1933)
Eine Funktion P (P steht für Probability), die Ereignissen aus Ω (reelle) Zahlen zuordnet,
heißt Wahrscheinlichkeit, wenn gilt
(K1) P (A)
≥0
(K2) P (Ω)
= 1.
für alle Ereignisse A ⊂ Ω.
(K3) Falls A ∩ B = ∅, dann gilt P (A ∪ B) = P (A) + P (B)
Rechenregeln für Wahrscheinlichkeiten
• P (Ā) = 1 − P (A)
• Für nicht notwendigerweise disjunkte Mengen A, B gilt
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
• Falls A1 , A2 , . . . , An paarweise disjunkt sind, also Ai ∩ Aj = ∅ für i 6= j, dann gilt:
Ãn
!
[
P
Ai
= P (A1 ∪ A2 ∪ . . . ∪ An )
i=1
= P (A1 ) + P (A2 ) + . . . + P (An )
Vollständige Zerlegung: Ist A1 , A2 , . . . , An eine vollständige Zerlegung von Ω, d.h. gilt
n
[
i=1
Ai = Ω und Ai ∩ Aj = ∅ für i 6= j,
so gilt für jedes Ereignis B:
P (B) =
n
X
i=1
1.2.4
P (B ∩ Ai )
Weitere Wahrscheinlichkeitsbegriffe
• Häufigkeitsinterpretation.
• Natürliche Häufigkeiten.
• Subjektivistisch.
1.3
Stochastische Unabhängigkeit und bedingte Wahrscheinlichkeiten
Stochastische Unabhängigkeit: Zwei Ereignisse A und B heißen (stochastisch) unabhängig
wenn gilt
P (A ∩ B) = P (A) · P (B)
1. Wahrscheinlichkeitsrechnung
6
andernfalls heißen sie stochastisch abhängig.
Die (stochastische) Unabhängigkeit ist eine symmetrische Beziehung in dem Sinne, dass
A und B genau dann unabhängig sind, wenn B und A unabhängig sind.
Genauer gilt die Äquivalenz folgender Aussagen:
A
A
Ā
Ā
und
und
und
und
B
B̄
B
B̄
sind stochastisch unabhängig
”
”
”
Stochastische Unabhängigkeit mehrerer Ereignisse: Ereignisse A1 , A2 , . . . , An heißen
(vollständig) stochastisch unabhängig, wenn gilt
P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · . . . · P (An ).
Aus der paarweisen Unabhängigkeit
P (Ai ∩ Aj ) = P (Ai )P (Aj ) für alle i, j
folgt nicht die vollständige Unabhängigkeit.
Bedingte Wahrscheinlichkeiten: Gegeben seien zwei Ereignisse A und B mit P (B) > 0.
Dann heißt:
P (A ∩ B)
P (A|B) :=
P (B)
bedingte Wahrscheinlichkeit von A gegeben B oder bedingte Wahrscheinlichkeit von A
unter der Bedingung B.
Es ergibt sich auch eine analoge Charakterisierung der stochastischen Unabhängigkeit
über bedingte Wahrscheinlichkeiten:
Sind P (A) und P (B) > 0, so sind äquivalent:
i) A und B sind stochastisch unabhängig
ii) P (A|B) = P (A)
iii) P (B|A) = P (B)
iv) P (A|B̄) = P (A)
v) P (A|B) = P (A|B̄) usw.
Unabhängige Koppelung: Gegeben sei eine Menge von Zufallsexperimenten, beschrieben
durch die Ergebnisräume Ωi , i = 1, . . . , n und die Wahrscheinlichkeitsbewertungen Pi , i =
1, . . . , n. Fasst man die Experimente zusammen, so ergibt sich der Ergebnisraum
Ω := Ω1 × Ω2 × . . . × Ωn ,
und die Elemente
ω := (ω1 , ω2 , . . . , ωn ) .
Sind die Experimente unabhängig, so setzt man für beliebige Ai ⊂ Ωi , i = 1, . . . , n
P (A1 ∩ A2 ∩ . . . ∩ An ) = P1 (A1 ) · P2 (A2 ) · . . . · Pn (An ).
1. Wahrscheinlichkeitsrechnung
7
Dies beschreibt ein Wahrscheinlichkeitsmaß auf Ω, bei dem – per Konstruktion – beliebige
Ereignisse aus den einzelnen Ωi voneinander unabhängig sind.
Satz von der totalen Wahrscheinlichkeit: Gegeben sei eine vollständige Zerlegung A1 , A2 , . . . , Ak .
Dann gilt für jedes Ereignis B
P (B) =
k
X
j=1
P (B|Aj ) · P (Aj ) =
k
X
j=1
P (B ∩ Aj ).
Koppelung abhängiger Experimente: Gegeben seien n Experimente, beschrieben durch
die Grundräume Ωi = {ai1 , . . . , aiki } und die Wahrscheinlichkeitsbewertungen Pi , i =
1, . . . , n. Bezeichnet man für beliebiges i = 1, . . . , n und j = 1, . . . , ki , mit Aij jeweils das
zu aij gehörige Elementarereignis (also das Ereignis aij tritt ein“), so gilt:
”
P (A1j1 ∩ A2j2 ∩ . . . ∩ Anjn ) = P1 (A1j1 ) · P2 (A2j2 |A1j1 ) · P3 (A3j3 |A1j1 ∩ A2j2 )
¡
¢
· . . . · Pn Anjn |A1j1 ∩ A2j2 ∩ . . . ∩ An−1jn−1
Häufig werden die Indizes bei P weggelassen.
Markovmodelle: Gilt in der Kopplung abhängiger Experiment Ω1 = Ω2 = . . . = Ωn =
{a1 , . . . , ak } und sind alle bedingten Wahrscheinlichkeiten nur vom jeweils unmittelbar
vorhergehenden Zeitpunkt abhängig, d.h. gilt
P (Ai+1,ji+1 |A1j1 ∩ A2j2 ∩ . . . ∩ Aiji ) = P (Ai+1,ji+1 |Aiji ),
(1)
so spricht man von einem Markovmodell mit den Zuständen a1 , . . . , ak .
Sind die sogenannten Übergangswahrscheinlichkeiten in (1) unabhängig von der Zeit, gilt
also P (Ai+1,j |Ail ) ≡ pjl für alle i, j, l, so heißt das Markovmodell homogen.
Theorem von Bayes: Sei A1 , . . . Ak eine vollständige Zerlegung von Ω (wobei P (Ai ) > 0,
P (B|Ai ) > 0, i = 1, . . . k und P (B) > 0 erfüllt seien.) Dann gilt
P (Aj |B) =
P (B|Aj ) · P (Aj )
k
X
i=1
1.4
1.4.1
.
P (B|Ai ) · P (Ai )
Zufallsvariablen und ihre Verteilung
Diskrete Zufallsvariablen
Definition: Gegeben seien ein diskreter, d.h. höchstens abzählbarer, Ergebnisraum Ω und
die Wahrscheinlichkeit P auf Ω. Jede Abbildung
X:Ω
ω
7→
7→
ΩX
X(ω)
heißt Zufallselement. Setzt man für jede Realisation x ∈ ΩX
PX ({x}) := P ({X = x}) := P ({ω|X(ω) = x})
1. Wahrscheinlichkeitsrechnung
8
so erhält man eine Wahrscheinlichkeit auf ΩX . (Oft wird auch P (X = x) statt P ({X = x})
geschrieben.)
Ist ΩX = R, so bezeichnet man das Zufallselement X als Zufallsvariable.
Definition: Gegeben sei eine diskrete Zufallsvariable X mit der Wahrscheinlichkeitsverteilung P . Die Menge
X := {x ∈ R|P ({x}) > 0}
heißt Träger von X.
Definition: Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariable X ist für
x ∈ R definiert durch
½
P (X = xi ) = pi , x = xi ∈ {x1 , x2 , . . . , xk , . . .}
f (x) =
0, sonst.
1.4.2
Verteilungsfunktion
Satz: Die Wahrscheinlichkeitsverteilung einer (diskreten) Zufallsvariablen X kann man
durch die Verteilungsfunktion
F (x) := P (X ≤ x)
eineindeutig erklären.
Die Wahrscheinlichkeit anderer Ereignisse ergibt sich aus dem dritten Kolmogorovschen
Axiom. Es gilt zum Beispiel
P (a < X ≤ b) = F (b) − F (a).
1.4.3
Stetige Zufallsvariablen
Die Wahrscheinlichkeitsverteilung einer stetigen Zufallsvariablen ist durch die Verteilungsfunktion
F (x) = P (X ≤ x)
eindeutig festgelegt.
Allgemeiner als zuvor gilt hier
P (a < X ≤ b) = P (a ≤ X ≤ b)
= P (a < X < b) = F (b) − F (a)
da P (X = A) = P (X = b) = 0.
Definition: Gegeben sei eine stetige Zufallsvariable X mit differenzierbarer Verteilungsfunktion FX (x). Dann heißt die Ableitung von F (x) nach x, also
f (x) =
Dichte der Zufallsvariablen X.
dF (x)
dx
1. Wahrscheinlichkeitsrechnung
9
Satz:
F (x) =
Zx
f (u) du
−∞
und damit für beliebige reelle Zahlen a und b mit a < b
P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a < X < b)
= P (a ≤ X < b)
Zb
=
f (x) dx.
a
1.4.4
Lebensdauern; Hazardrate und Survivorfunktion
Satz: Die Verteilung einer nicht negativen, stetigen Zufallsvariable X wird eineindeutig
durch die Überlebensfunktion (Survivorfunktion)
S(x) := P (X ≥ x) = 1 − F (x)
und durch die Hazardrate
P (x ≤ X ≤ x + h|X ≥ x)
h→0
h
λ(x) := lim
beschrieben.
Es gelten folgende Zusammenhänge
S(x) = exp(−
Zx
λ(u)du)
0
F (x) = 1 − exp(−
Zx
λ(u)du)
0
f (x) = λ(x) · S(x)
1.4.5
Unabhängigkeit von Zufallsvariablen
Definition: Zwei Zufallsvariablen X und Y mit den Verteilungsfunktionen FX und FY
heißen stochastisch unabhängig, falls für alle x und y gilt
P ({X ≤ x} ∩ {Y ≤ y}) = P ({X ≤ x}) · P ({Y ≤ y}) = FX (x) · FY (y),
andernfalls heißen sie stochastisch abhängig.
Für diskrete Zufallsvariablen kann man alternativ fordern, dass
P (X = x, Y = y) = P (X = x) · P (Y = y)
für alle x und y gilt.
1. Wahrscheinlichkeitsrechnung
1.5
1.5.1
10
Erwartungswert und Varianz
Diskrete Zufallsvariablen
Definition: Gegeben sei eine diskrete Zufallsvariable X mit Träger X . Dann heißt
X
E X := E(X) :=
x · P (X = x)
x∈X
Erwartungswert von X,
Var X := Var(X) := V(X) := E((X − E(X))2 )
X
=
(x − E(X))2 · P (X = x)
x∈X
Varianz von X und
σX :=
Standardabweichung von X.
p
Var(X)
Zur Berechnung der Varianz ist der sogenannte Verschiebungssatz sehr praktisch:
Var(X) = E(X 2 ) − (E X)2
1.5.2
Stetige Zufallsvariablen
Definition: Sei X eine stetige Zufallsvariable mit Dichte f (x). Dann heißt
Z ∞
E X := E(X) :=
x · f (x) dx
−∞
Erwartungswert von X,
Var X := Var(X) := V(X) := E((X − E(X))2
Z ∞
=
(x − E(X))2 · f (x) dx
−∞
Varianz von X und
σX :=
Standardabweichung von X.
1.5.3
p
Var(X)
Allgemeine Rechenregeln für Erwartungswert und Varianz
Satz: Seien X und Y diskrete oder stetige Zufallsvariablen (mit existierenden Erwartungswerten und Varianzen). Dann gilt:
a) E(aX + bY ) = a · E(X) + b · E(Y ) und insbesondere auch
E(a) = a,
E(aX) = a · E(X)
E(X + Y ) = E(X) + E(Y )
1. Wahrscheinlichkeitsrechnung
11
b) Var(aX + b) = a2 · Var(X).
Sind X und Y zusätzlich unabhängig, so gilt
E(X · Y ) = E(X) · E(Y )
Var(X + Y ) = Var(X) + Var(Y )
Definition: Die Zufallsvariable
X − E(X)
Z := p
Var(X)
heißt standardisierte Zufallsvariable. Es gilt
E(Z) = 0 und Var(Z) = 1.
1.6
Wichtige Verteilungsmodelle
1.6.1
Binomialverteilung
Konstruktionsprinzip:
• Ein Zufallsexperiment wird n mal unabhängig durchgeführt.
• Wir interessieren uns jeweils nur, ob ein bestimmtes Ereignis A eintritt oder nicht.
• X = Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt“.
”
• Träger von X: X = {0, 1, 2, . . . , n}.
Definition: Eine Zufallsvariable heißt binomialverteilt mit den Parametern n und π, kurz
X ∼ B(n, π), wenn sie die Wahrscheinlichkeitsfunktion
(¡ ¢
n
π x (1 − π)n−x , x = 0, 1, . . . , n
x
f (x) =
0,
sonst
besitzt.
Die B(1, π)-Verteilung heißt auch Bernoulliverteilung.
Erwartungswert und Varianz:
• Zur Berechnung von Erwartungswert und Varianz der Binomialverteilung ist folgende Darstellung hilfreich:
X = X1 + . . . + Xn
mit den binären Variablen
(
1 falls A beim i-ten Versuch eintritt,
Xi =
0 sonst.
• Erwartungswert der Binomialverteilung:
E(X) = E(X1 + . . . + Xn ) = E(X1 ) + . . . + E(Xn ) = nπ
1. Wahrscheinlichkeitsrechnung
12
• Varianz der Binomialverteilung:
Var(X) = Var(X1 + . . . + Xn ) = Var(X1 ) + . . . + Var(Xn ) = nπ(1 − π)
1.6.2
Normalverteilung
Definition: Eine stetige Zufallsvariable X heißt normalverteilt mit den Parametern µ und
σ 2 , in Zeichen X ∼ N (µ, σ 2 ), wenn für ihre Dichte gilt:
µ
¶
1
1
2
f (x) = √
exp − 2 (x − µ) , x ∈ R
(2)
2σ
2π · σ
und standardnormalverteilt, in Zeichen X ∼ N (0; 1), falls µ = 0 und σ 2 = 1 gilt.
Grundlegende Eigenschaften:
a) Die Dichte der Standardnormalverteilung wird oft mit ϕ(x) bezeichnet, also
µ
¶
1
1 2
√
ϕ(x) =
exp − x
2
2π
und die zugehörige Verteilungsfunktion mit
Z x
ϕ(u)du
Φ(x) =
−∞
b) µ und σ 2 sind genau der Erwartungswert und die Varianz, also, wenn X ∼ N µ, σ 2 ),
dann
E(X) = µ
und
Var(X) = σ 2 .
c) Die Dichte ist symmetrisch um µ, d.h.
f (µ − x) = f (µ + x) .
Grundlegendes zum Rechnen mit Normalverteilungen:
• Es gilt:
Φ(−x) = 1 − Φ(x).
• Gilt X ∼ N (µ, σ 2 ), so ist die zugehörige standardisierte Zufallsvariable
Z=
X −µ
σ
standardnormalverteilt.
• Tabelliert sind die Werte der Verteilungsfunktion Φ(z) = P (Z ≤ z) für z ≥ 0.
Ablesebeispiel: Φ(1.75) = 0.9599
• Funktionswerte für negative Argumente: Φ(−z) = 1 − Φ(z)
1. Wahrscheinlichkeitsrechnung
1.7
1.7.1
13
Grenzwertsätze und Approximationen
Das i.i.d.-Modell
Betrachtet werden diskrete oder stetige Zufallsvariablen X1 , . . . , Xn , die i.i.d. (independently, identically distributed) sind, d.h. die
1) unabhängig sind und
2) die gleiche Verteilung besitzen.
Ferner sollen der Erwartungswert µ und die Varianz σ 2 existieren. Die Verteilungsfunktion
werde mit F bezeichnet.
1.7.2
Das schwache Gesetz der großen Zahlen
Theorem von Bernoulli: Seien X1 , . . . , Xn , i.i.d. mit Xi ∈ {0, 1} und P (Xi = 1) = π.
Dann gilt für
n
1X
Hn =
Xi
n i=1
(relative Häufigkeit der Einsen“) und beliebig kleines ² > 0
”
lim P (|Hn − π| ≤ ²) = 1
n→∞
Schwaches Gesetz der großen Zahl: Gegeben seien X1 , . . . , Xn i.i.d. Zufallsvariablen
mit (existierendem) Erwartungswert µ und (existierender) Varianz σ 2 . Dann gilt für
n
1X
X̄n :=
Xi
n i=1
und beliebiges ² > 0:
lim P (|X̄n − µ| ≤ ²) = 1
n→∞
Schreibweise:
P
X̄n −→ µ
( Stochastische Konvergenz“, X̄n konvergiert in Wahrscheinlichkeit gegen µ“.)
”
”
1.7.3
Der Hauptsatz der Statistik
Hauptsatz der Statistik: Seien X1 , . . . , Xn i.i.d. mit Verteilungsfunktion F und sei Fn (x)
die empirische Verteilungsfunktion der ersten n Beobachtungen. Mit
Dn := sup |Fn (x) − F (x)|,
x
gilt für jedes c > 0
lim P (Dn > c) = 0.
n→∞
1. Wahrscheinlichkeitsrechnung
1.7.4
14
Der zentrale Grenzwertsatz
Zentraler Grenzwertsatz: Seien X1 , . . . , Xn i.i.d. mit E(Xi ) = µ und Var(Xi ) = σ 2 > 0
sowie
¶
n µ
1 X Xi − µ
Zn = √
.
σ
n i=1
a
Dann gilt: Zn ist asymptotisch standardnormalverteilt, in Zeichen: Zn ∼ N (0; 1), d.h. es
gilt für jedes z
lim P (Zn ≤ z) = Φ(z).
n→∞
Aus dem zentralen Grenzwertsatz folgt:
¶
µ
σ2
.
X̄n ∼ N µ,
n
a
Approximation der Binomialverteilung
Sei X ∼ B(n, π). Es gilt
P (X ≤ x) ≈ Φ
Ã
falls n groß genug.
Stetigkeitskorrektur:
p
x−n·π
n · π(1 − π)
!
!
x + 0.5 − nπ
P (X ≤ x) ≈ Φ p
nπ(1 − π)
Ã
!
Ã
!
x + 0.5 − nπ
x − 0.5 − nπ
P (X = x) ≈ Φ p
−Φ p
nπ(1 − π)
nπ(1 − π)
1.8
Ã
Mehrdimensionale Zufallsvariablen
Definition: Betrachtet werden zwei eindimensionale Zufallselemente X und Y (zu demselben Zufallsexperiment). Die Wahrscheinlichkeit
P (X = xi , Y = yj ) := P ({X = xi } ∩ {Y = yj })
in Abhängigkeit
¡X ¢ von xi und yj heißt gemeinsame Verteilung der mehrdimensionalen Zufallsvariable Y und der Variablen X und Y .
Randwahrscheinlichkeiten:
pi· = P (X = xi ) =
m
X
P (X = xi , Y = yj )
j=1
p·j = P (Y = yj ) =
k
X
i=1
P (X = xi , Y = yj )
1. Wahrscheinlichkeitsrechnung
15
Bedingte Verteilungen:
P (X = xi , Y = yj )
P (Y = yj )
P (X = xi , Y = yj )
P (Y = yj |X = xi ) =
P (X = xi )
P (X = xi |Y = yj ) =
Definition: Seien X und Y zwei Zufallsvariablen. Dann heißt
σX,Y := Cov(X, Y ) = E((X − E(X))(Y − E(Y )))
Kovarianz von X und Y .
Rechenregeln:
• Cov(X, X) = Var(X)
• Cov(X, Y ) = E(XY ) − E(X) · E(Y )
• Cov(X, Y ) = Cov(Y, X)
• Mit X̃ = aX X + bX und Ỹ = aY Y + bY ist
Cov(X̃, Ỹ ) = aX · aY · Cov(X, Y )
• Var(X + Y ) = Var(X) + Var(Y ) + 2 · Cov(X, Y )
Definition: Zwei Zufallsvariablen X und Y mit Cov(X, Y ) = 0 heißen unkorreliert.
Satz: Stochastisch unabhängige Zufallsvariablen sind unkorreliert. Die Umkehrung gilt
jedoch im allgemeinen nicht.
Definition: Gegeben seien zwei Zufallsvariablen X und Y . Dann heißt
Cov(X, Y )
p
Var(X) Var(Y )
ρ(X, Y ) = p
Korrelationskoeffizient von X und Y .
Eigenschaften des Korrelationskoeffizienten:
• Mit X̃ = aX X + bX und Ỹ = aY Y + bY ist
|ρ(X̃, Ỹ )| = |ρ(X, Y )|.
• −1 ≤ ρ(X, Y ) ≤ 1.
• |ρ(X, Y )| = 1 ⇐⇒ Y = aX + b
• Sind Var(X) > 0 und Var(Y ) > 0, so gilt ρ(X, Y ) = 0 genau dann, wenn Cov(X, Y ) =
0.
2. Induktive Statistik
2
16
Induktive Statistik
2.1
Grundprinzipien der induktiven Statistik
2.2
Punkschätzung
2.2.1
Schätzfunktionen
Definition: Sei X1 , . . . , Xn i.i.d. Stichprobe. Eine Funktion
T = g(X1 , . . . , Xn )
heißt Schätzer oder Schätzfunktion.
Andere Notation in der Literatur: ϑ̂ Schätzer für ϑ.
2.2.2
Gütekriterien
Erwartungstreue, Bias: Gegeben sei eine Stichprobe X1 , . . . , Xn und eine Schätzfunktion
T = g(X1 , . . . , Xn ) (mit existierendem Erwartungswert).
• T heißt erwartungstreu für den Parameter ϑ, falls gilt
Eϑ (T ) = ϑ
für alle ϑ.
• Die Größe
Biasϑ (T ) = Eϑ (T ) − ϑ
heißt Bias (oder Verzerrung) der Schätzfunktion. Erwartungstreue Schätzfunktionen
haben per Definition einen Bias von 0.
Asymptotische Erwartungstreue
Eine Schätzfunktion heißt asymptotisch erwartungstreu, falls
lim E(θ̂) = θ.
n→∞
bzw.
lim Bias(θ̂) = 0.
n→∞
gelten.
2.2.3
Effizienz
Effizienz:
2. Induktive Statistik
17
• Gegeben seien zwei erwartungstreue Schätzfunktionen T1 und T2 für einen Parameter
ϑ. Gilt
Varϑ (T1 ) ≤ Varϑ (T2 ) für alle ϑ
und
Varϑ∗ (T1 ) < Varϑ∗ (T2 ) für mindestens ein ϑ∗
so heißt T1 effizienter als T2 .
• Eine für ϑ erwartungstreue Schätzfunktion T heißt UMVU-Schätzfunktion für ϑ
(uniformly minimum v ariance unbiased), falls
Varϑ (T ) ≤ Varϑ (T ∗ )
für alle ϑ und für alle erwartungstreuen Schätzfunktionen T ∗ .
Bei nicht erwartungstreuen Schätzfunktionen zieht man den sogenannten Mean Squared
Error
MSEϑ (T ) := Eϑ (T − ϑ)2
zur Beurteilung heran. Es gilt
MSEϑ (T ) = Varϑ (T ) + (Biasϑ (T ))2 .
Konsistenz
Ein Schätzer heißt MSE-konsistent, wenn gilt
lim (MSE(T )) = 0.
n→∞
Ein Schätzer heißt konsistent, wenn gilt
lim (Var(T )) = 0.
n→∞
2.2.4
Konstruktionsprinzipien guter Schätzer
Die Methode der kleinsten Quadrate
Das Maximum-Likelihood-Prinzip
Gegeben sei die Realisation x1 , . . . , xn einer i.i.d. Stichprobe. Die Funktion in ϑ
Y
n



 Pϑ (Xi = xi ) falls Xi diskret
L(ϑ) =
i=1
n
Y


 fϑ (xi )
falls Xi stetig.
i=1
heißt Likelihood des Parameters ϑ bei der Beobachtung x1 , . . . , xn .
Derjenige Wert ϑ̂ = ϑ̂(x1 , . . . , xn ), der L(ϑ) maximiert, heißt Maximum-Likelihood-Schätzwert; die zugehörige Schätzfunktion T (X1 , . . . , Xn ) Maximum-Likelihood-Schätzer.
2. Induktive Statistik
18
Für die praktische Berechnung maximiert man statt der Likelihood typischerweise die
Log-Likelihood
l(ϑ) = ln(L(ϑ)) = ln
n
Y
Pϑ (Xi = xi ) =
i=1
bzw.
l(ϑ) = ln
n
Y
n
X
ln Pϑ (Xi = xi )
i=1
fϑ (xi ) =
i=1
n
X
ln fϑ (xi ).
i=1
Einige allgemeine Eigenschaften von ML-Schätzern
• ML-Schätzer θ̂ sind im Allgemeinen nicht erwartungstreu.
• ML-Schätzer θ̂ sind asymptotisch erwartungstreu.
• ML-Schätzer θ̂ sind konsistent.
2.3
Intervallschätzung
2.3.1
Motivation und Hinführung
2.3.2
Definition von Konfidenzintervallen
Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn zur Schätzung eines Parameters ϑ und eine Zahl γ ∈ (0; 1). Ein zufälliges Intervall C(X1 , . . . , Xn ) heißt Konfidenzintervall zum
Sicherheitsgrad γ (Konfidenzniveau γ), falls für jedes ϑ gilt:
Pϑ (ϑ ∈
2.3.3
C(X1 , . . . , Xn ) ) ≥ γ.
{z
}
|
zufälliges Intervall
Konstruktion von Konfidenzintervallen
Für die Konstruktion praktische Vorgehensweise: Suche Zufallsvariable Z, die
• den gesuchten Parameter ϑ enthält und
• deren Verteilung aber nicht mehr von dem Parameter abhängt, ( Pivotgröße“, dt.
”
Angelpunkt).
• Dann wähle den Bereich CZ so, dass Pϑ (Z ∈ CZ ) = γ und
• löse nach ϑ auf.
Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei bekannter
Varianz:
·
z 1+γ · σ ¸ ·
z 1+γ · σ ¸
z 1+γ · σ
2
2
2
, X̄ + √
= X̄ ± √
X̄ − √
n
n
n
2. Induktive Statistik
19
Konfidenzintervall für den Mittelwert eines normalverteilten Merkmals bei unbekannter Varianz:
"
#
t 1+γ (n − 1) · S
X̄ ± 2 √
n
t-Verteilung: Gegeben sei eine i.i.d. Stichprobe X1 , . . . , Xn mit Xi ∼ N (µ, σ 2 ). Dann
heißt die Verteilung von
X̄ − µ √
Z=
· n
S
t-Verteilung (oder Student-Verteilung) mit ν = n − 1 Freiheitsgraden. In Zeichen: Z ∼
t(ν).
Approximative Konfidenzintervalle: Ist der Stichprobenumfang groß genug, so kann wegen des zentralen Grenzwertsatzes das Normalverteilungs-Konfidenzintervall auf den Erwartungswert beliebiger Merkmale (mit existierender Varianz) angewendet werden und
man erhält approximative Konfidenzintervalle.
Konfidenzintervall für den Anteil π: Seien X1 , . . . , Xn i.i.d. mit
(
1
Xi =
, P (Xi = 1) = π.
0
Dann gilt approximativ für großes n
X̄ − π
q
∼ N (0, 1)
π·(1−π)
n
und damit das Konfidenzintervall
"
X̄ ± z 1+γ ·
2
r
X̄(1 − X̄)
n
#
2. Induktive Statistik
29
Verteilungstabellen
Standardnormalverteilung
Tabelliert sind die Werte der Verteilungsfunktion Φ(z) = P (Z ≤ z) für z ≥ 0.
Ablesebeispiel: Φ(1.75) = 0.9599
Funktionswerte für negative Argumente: Φ(−z) = 1 − Φ(z)
Die z-Quantile ergeben sich über die Umkehrfunktion.
Beispielsweise ist z0.9599 = 1.75 und z0.9750 = 1.96.
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990
0.9993
0.9995
0.9997
0.9998
0.9998
2. Induktive Statistik
30
Students t-Verteilung
Tabelliert sind die Quantile für n Freiheitsgrade.
Für das Quantil t1−α (n) gilt F (t1−α (n)) = 1 − α.
Links vom Quantil t1−α (n) liegt die Wahrscheinlichkeitsmasse 1 − α.
Ablesebeispiel: t0.99 (20) = 2.528
Die Quantile für 0 < 1 − α < 0.5 erhält man aus tα (n) = −t1−α (n)
Approximation für n > 30:
tα (n) ≈ zα
(zα ist das (α)-Quantil der Standardnormalverteilung)
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.6
0.3249
0.2887
0.2767
0.2707
0.2672
0.2648
0.2632
0.2619
0.2610
0.2602
0.2596
0.2590
0.2586
0.2582
0.2579
0.2576
0.2573
0.2571
0.2569
0.2567
0.2566
0.2564
0.2563
0.2562
0.2561
0.2560
0.2559
0.2558
0.2557
0.2556
0.8
1.3764
1.0607
0.9785
0.9410
0.9195
0.9057
0.8960
0.8889
0.8834
0.8791
0.8755
0.8726
0.8702
0.8681
0.8662
0.8647
0.8633
0.8620
0.8610
0.8600
0.8591
0.8583
0.8575
0.8569
0.8562
0.8557
0.8551
0.8546
0.8542
0.8538
0.9
3.0777
1.8856
1.6377
1.5332
1.4759
1.4398
1.4149
1.3968
1.3830
1.3722
1.3634
1.3562
1.3502
1.3450
1.3406
1.3368
1.3334
1.3304
1.3277
1.3253
1.3232
1.3212
1.3195
1.3178
1.3163
1.3150
1.3137
1.3125
1.3114
1.3104
0.95
6.3138
2.9200
2.3534
2.1318
2.0150
1.9432
1.8946
1.8595
1.8331
1.8125
1.7959
1.7823
1.7709
1.7613
1.7531
1.7459
1.7396
1.7341
1.7291
1.7247
1.7207
1.7171
1.7139
1.7109
1.7081
1.7056
1.7033
1.7011
1.6991
1.6973
0.975
12.706
4.3027
3.1824
2.7764
2.5706
2.4469
2.3646
2.3060
2.2622
2.2281
2.2010
2.1788
2.1604
2.1448
2.1314
2.1199
2.1098
2.1009
2.0930
2.0860
2.0796
2.0739
2.0687
2.0639
2.0595
2.0555
2.0518
2.0484
2.0452
2.0423
0.99
31.821
6.9646
4.5407
3.7469
3.3649
3.1427
2.9980
2.8965
2.8214
2.7638
2.7181
2.6810
2.6503
2.6245
2.6025
2.5835
2.5669
2.5524
2.5395
2.5280
2.5176
2.5083
2.4999
2.4922
2.4851
2.4786
2.4727
2.4671
2.4620
2.4573
0.995
63.657
9.9248
5.8409
4.6041
4.0321
3.7074
3.4995
3.3554
3.2498
3.1693
3.1058
3.0545
3.0123
2.9768
2.9467
2.9208
2.8982
2.8784
2.8609
2.8453
2.8314
2.8188
2.8073
2.7969
2.7874
2.7787
2.7707
2.7633
2.7564
2.7500
0.999
318.31
22.327
10.215
7.1732
5.8934
5.2076
4.7853
4.5008
4.2968
4.1437
4.0247
3.9296
3.8520
3.7874
3.7328
3.6862
3.6458
3.6105
3.5794
3.5518
3.5272
3.5050
3.4850
3.4668
3.4502
3.4350
3.4210
3.4082
3.3962
3.3852
0.9995
636.62
31.599
12.924
8.6103
6.8688
5.9588
5.4079
5.0413
4.7809
4.5869
4.4370
4.3178
4.2208
4.1405
4.0728
4.0150
3.9651
3.9216
3.8834
3.8495
3.8193
3.7921
3.7676
3.7454
3.7251
3.7066
3.6896
3.6739
3.6594
3.6460
∞
0.2533
0.8416
1.2816
1.6449
1.9600
2.3263
2.5758
3.0903
3.2906
2. Induktive Statistik
31
χ2-Verteilung
Tabelliert sind die Quantile für n Freiheitsgrade.
Für das Quantil χ21−α,n gilt F (χ21−α,n ) = 1 − α .
Links vom Quantil χ21−α,n liegt die Wahrscheinlichkeitsmasse 1 − α.
Ablesebeispiel: χ20.95,10 = 18.307
Approximation für n > 30:
√
1
χ2α (n) ≈ (zα + 2n − 1)2
2
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.01
0.0002
0.0201
0.1148
0.2971
0.5543
0.8721
1.2390
1.6465
2.0879
2.5582
3.0535
3.5706
4.1069
4.6604
5.2293
5.8122
6.4078
7.0149
7.6327
8.2604
8.8972
9.5425
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
0.025
0.0010
0.0506
0.2158
0.4844
0.8312
1.2373
1.6899
2.1797
2.7004
3.2470
3.8157
4.4038
5.0088
5.6287
6.2621
6.9077
7.5642
8.2307
8.9065
9.5908
10.283
10.982
11.689
12.401
13.120
13.844
14.573
15.308
16.047
16.791
(zα ist das 1 − α-Quantil der Standardnormalverteilung)
0.05
0.0039
0.1026
0.3518
0.7107
1.1455
1.6354
2.1674
2.7326
3.3251
3.9403
4.5748
5.2260
5.8919
6.5706
7.2609
7.9616
8.6718
9.3905
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
0.1
0.0158
0.2107
0.5844
1.0636
1.6103
2.2041
2.8331
3.4895
4.1682
4.8652
5.5778
6.3038
7.0415
7.7895
8.5468
9.3122
10.085
10.865
11.651
12.443
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
0.5
0.4549
1.3863
2.3660
3.3567
4.3515
5.3481
6.3458
7.3441
8.3428
9.3418
10.341
11.340
12.340
13.339
14.339
15.338
16.338
17.338
18.338
19.337
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336
0.9
2.7055
4.6052
6.2514
7.7794
9.2364
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
0.95
3.8415
5.9915
7.8147
9.4877
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
0.975
5.0239
7.3778
9.3484
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
0.99
6.6349
9.2103
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
Herunterladen