Einführung in die Statistik Gliederung zur Vorlesung im Sommersemester 2005 Markus Reiß Universität Heidelberg 9. Januar 2006 Inhaltsverzeichnis 1 Diskrete Wahrscheinlichkeitsräume 1.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 2 Bedingte Wahrscheinlichkeiten und 2.1 Bedingte Wahrscheinlichkeiten . . 2.2 Unabhängigkeit . . . . . . . . . . . 2.3 Produkträume . . . . . . . . . . . 3 3 4 4 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Zufallsvariablen und ihre Momente 3.1 Zufallsvariablen . . . . . . . . . . . . 3.2 Unabhängigkeit von Zufallsvariablen 3.3 Der Erwartungswert . . . . . . . . . 3.4 Bedingte Erwartung und Vorhersage 3.5 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Testtheorie 4.1 Grundlagen . . . . . . . 4.2 Einfache Alternativtests 4.3 Beste einseitige Tests . . 4.4 Der χ2 -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 . 9 . 10 . 10 . 11 . . . . . . . 12 12 13 13 14 15 16 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Allgemeine Wahrscheinlichkeitsräume und Dichten 5.1 σ-Algebren und Wahrscheinlichkeitsräume . . . . . . . . . . . 5.2 Exkurs: mehrdimensionales Riemann-Integral . . . . . . . . . 5.3 Modelle mit Dichten . . . . . . . . . . . . . . . . . . . . . . . 5.4 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Erwartungswert und Varianz bei Zufallsvariablen mit Dichten 5.6 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . 5.7 Übertragung von Ergebnissen auf den allgemeinen Fall . . . . . . . . . . . 5 5 5 6 7 7 6 Grenzwertsätze 18 6.1 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 18 6.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . 19 I 7 Schätztheorie 7.1 Lineare Regression und die Methode der kleinsten Quadrate . . . 7.2 Allgemeine Parameterschätzungen . . . . . . . . . . . . . . . . . 7.3 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . II 20 20 21 21 Kapitel 1 Diskrete Wahrscheinlichkeitsräume 1.1 Grundbegriffe 1.1 Definition. Ein diskreter Wahrscheinlichkeitsraum ist ein Tupel (Ω, P), bestehend aus einer abzählbaren (d.h. endlichen oder abzählbar unendlichen) Menge Ω und einer Abbildung P : P(Ω) → [0, 1] mit den Eigenschaften (a) P(Ω) = 1 (Normierung), (b) Für An ⊆ Ω, n > 1, paarweise disjunkt, gilt [ X P An = P(An ) (σ-Additivität). n>1 n>1 Die Mengenfunktion P heißt Wahrscheinlichkeitsmaß. 1.2 Definition. Es P sei Ω eine abzählbare Menge. Dann heißt jede Abbildung p : Ω → [0, 1] mit ω∈Ω p(ω) = 1 Zähldichte auf Ω. 1.3 Lemma. Auf jedem diskreten Wahrscheinlichkeitsraum (Ω, P) wird durch p(ω) := P({ω}), ω ∈ Ω, eine Zähldichte definiert. Andererseits definiert eine Zähldichte p auf Ω ein Wahrscheinlichkeitsmaß P mittels X P(A) = p(ω), A ⊆ Ω. ω∈A 1.4 Lemma. Es sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum. Dann gilt: (a) P(∅) = 0 (b) A ⊆ B ⊆ Ω ⇒ P(A) 6 P(B) (c) P(A ∪ B) + P(A ∩ B) = P(A) + P(B) für A, B ⊆ Ω 1 S P (d) P( n>1 An ) 6 n>1 P(An ) für beliebige An ⊆ Ω, n > 1 (e) Gilt S für An ⊆ Ω, n > 1, und A ⊆ Ω, dass An ↑ A (d.h. An ⊆ An+1 , n > 1, und n An = A), so folgt limn→∞ P(An ) = P(A) (σ-Stetigkeit). 1.2 Diskrete Verteilungen Laplaceverteilung Urnenmodelle hypergeometrische Verteilung Bernoulli-Verteilung Binomialverteilung geometrische Verteilung Multinomialverteilung Poissonverteilung 1.5 Satz (Poissonscher Grenzwertsatz). Es seien pn ∈ [0, 1] Erfolgswahrscheinlichkeiten mit limn→∞ npn = λ > 0. Dann gilt für alle k > 0: lim Binn,pn (k) = Poissλ (k). n→∞ 2 Kapitel 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit 2.1 Bedingte Wahrscheinlichkeiten 2.1 Definition. Es seien A und B zwei Ereignisse mit P(B) > 0. Mit P(A | B) := P(A ∩ B) P(B) wird die bedingte Wahrscheinlichkeit von A unter/gegeben B bezeichnet. 2.2 Satz. Es sei B ein Ereignis mit P(B) > 0. Dann gilt: (a) Q(A) := P(A | B), A ⊆ Ω, definiert ein Wahrscheinlichkeitsmaß mit Q(B) = 1. (b) Ist B die Vereinigung paarweise disjunkter Ereignisse Bn mit P(Bn ) > 0, so folgt für jedes Ereignis A X P(A ∩ B) = P(Bn ) P(A | Bn ). n (Formel von der totalen Wahrscheinlichkeit) S (c) Ist A ein Ereignis mit P(A) > 0 und Ω = n Bn eine Zerlegung mit paarweise disjunkten Ereignissen (Bn )n>1 , für die P(Bn ) > 0 gilt, so folgt für jedes n P(Bn ) P(A | Bn ) P(Bn | A) = P . m P(Bm ) P(A | Bm ) (Formel von Bayes) 2.3 Lemma. Für Ereignisse A1 , . . . , An mit P(A1 ∩ · · · ∩ An−1 ) > 0 gilt die Multiplikationsformel P(A1 ∩ · · · ∩ An ) = P(A1 ) P(A2 | A1 ) P(A3 | A1 ∩ A2 ) · · · P(An | A1 ∩ · · · ∩ An−1 ). 3 2.2 Unabhängigkeit 2.4 Definition. (a) Zwei Ereignisse A und B heißen unabhängig, falls P(A ∩ B) = P(A) P(B) gilt. (b) Eine Familie (Ai )i∈I von Ereignissen heißt unabhängig, falls für jede endliche Teilmenge J ⊆ I gilt \ Y P Aj = P(Aj ). j∈J j∈J 2.5 Satz. Die Ereignisse A1 , . . . , An seien unabhängig. Dann gilt für alle Bk ∈ {Ak , A{k }, k = 1, . . . , n, P \ n Y P(Bk ), Bk = k=1 k und die Ereignisse B1 , . . . , Bn sind unabhängig. 2.3 Produkträume 2.6 Definition. Es seien (Ω1 , P1 ), . . . , (Ωn , Pn ) diskrete Wahrscheinlichkeitsräume mit entsprechenden Zähldichten p1 , . . . , pn . Durch die Produktmenge Ω = Ω1 × · · · × Ωn und die Zähldichte (!) p(ω) = p(ω1 , . . . , ωn ) := n Y pk (ωk ), ω ∈ Ω, k=1 wird das Produkt ⊗nk=1 (Ωk , Pk ) der Wahrscheinlichkeitsräume definiert. Für das durch p induzierte Wahrscheinlichkeitsmaß P schreibt man auch P = P1 ⊗ · · · ⊗ Pn und nennt es das Produktmaß. 2.7 Satz. Es seien (Ω1 , P1 ), . . . , (Ωn , Pn ) diskrete Wahrscheinlichkeitsräume mit jeweiligen Ereignissen Ak ⊆ Ωk , k = 1, . . . , n. Setzt man (Ω, P) := ⊗nk=1 (Ωk , Pk ) und (k) Ak := {ω ∈ Ω : ωk ∈ Ak } ⊆ Ω, (1) (n) (k) so sind die Ereignisse A1 , . . . , An unabhängig in (Ω, P), und es gilt P(Ak ) = Pk (Ak ) für alle k = 1, . . . , n. 4 Kapitel 3 Zufallsvariablen und ihre Momente 3.1 Zufallsvariablen 3.1 Definition. Es sei (Ω, P) ein diskreter Wahrscheinlichkeitsraum. Jede Abbildung X : Ω → S in eine beliebige Menge S heißt (diskrete) S-wertige Zufallsvariable. Im Fall S = R spricht man bloß von einer Zufallsvariablen, im Fall S = Rd von einem Zufallsvektor. 3.2 Definition. Ist X eine diskrete S-wertige Zufallsvariable, so heißt der diskrete Wahrscheinlichkeitsraum (X(Ω), PX ) mit dem Wahrscheinlichkeitsmaß (!) PX (A) := P(X ∈ A) = P(X −1 (A)), A ⊆ X(Ω), von X induzierter Wahrscheinlichkeitsraum. PX wird als Verteilung von X bezeichnet. 3.2 Unabhängigkeit von Zufallsvariablen 3.3 Definition. Es sei (Xi )i∈I eine Familie von Zufallsvariablen Xi : Ω → Si . Die Familie (Xi )i∈I heißt unabhängig, falls für jede Wahl von Teilmengen Ai ⊆ Si die Ereignisse ({Xi ∈ Ai })i∈I = (Xi−1 (Ai ))i∈I unabhängig sind. 3.4 Satz. Die diskreten Zufallsvariablen X1 , . . . , Xn sind genau dann unabhängig, wenn für alle x1 ∈ X1 (Ω), . . . , xn ∈ Xn (Ω) gilt P(X1 = x1 , . . . , Xn = xn ) = n Y P(Xk = xk ). k=1 3.5 Definition. Es seien X1 : Ω → S1 , . . . , Xn : Ω → Sn Zufallsvariablen. Dann ist X : Ω → S1 × · · · × Sn mit X = (X1 , . . . , Xn ) ebenfalls eine Zufallsvariable, und ihre Verteilung PX heißt gemeinsame Verteilung von X1 , . . . , Xn . Andererseits heißt für jedes k = 1, . . . , n die Verteilung PXk der k-ten Komponente die k-te Randverteilung von X. 5 3.6 Lemma. Die Zufallsvariablen X1 , . . . , Xn sind genau dann unabhängig, wenn ihre gemeinsame Verteilung PX auf X(Ω) = X1 (Ω) × · · · × Xn (Ω) das Produkt der Randverteilungen PXk ist: PX = PX1 ⊗ · · · ⊗ PXn . 3.3 Der Erwartungswert 3.7 Definition. Wir sagen, dass eine (reellwertige, diskrete) Zufallsvariable X auf (Ω, P) mit Zähldichte p einen Erwartungswert besitze, falls X |X(ω)|p(ω) < ∞ ω∈Ω gilt, und schreiben X ∈ L1 = L1 (Ω, P). In diesem Fall definiert X X(ω)p(ω) E[X] := ω∈Ω den P Erwartungswert von X. Falls X nur nicht-negative Werte annimmt und ω∈Ω X(ω)p(ω) = +∞ gilt, so schreiben wir E[X] = +∞. 3.8 Satz. Für diskrete Zufallsvariablen X, Y auf (Ω, P) gilt: P (a) X ∈ L1 ⇐⇒ x∈X(Ω) |x| P(X = x) < ∞. In diesem Fall erhält man den Transformationssatz X X E[X] = x P(X = x) = xpX (x). x∈X(Ω) x∈X(Ω) (b) X, Y ∈ L1 mit X(ω) 6 Y (ω) für alle ω ∈ Ω impliziert E[X] 6 E[Y ] (Monotonie) (c) Für X, Y ∈ L1 , c ∈ R ist X + cY in L1 und E[X + cY ] = E[X] + c E[Y ] (Linearität). (d) Sind X, Y ∈ L1 unabhängig, so ist XY in L1 , und es gilt E[XY ] = E[X] E[Y ]. 3.9 Korollar. Es seien X1 , . . . , Xn diskrete Zufallsvariablen sowie g : X1 (Ω) × · · · × Xn (Ω) → R eine beliebige Funktion. Dann gilt X X E[g(X1 , . . . , Xn )] = ··· g(x1 , . . . , xn ) P(X1 = x1 , . . . , Xn = xn ), x1 ∈X1 (Ω) xn ∈Xn (Ω) sofern der Erwartungswert existiert. 3.10 Definition. Wir sagen, dass eine Zufallsvariable X in Lp für p > 0 liegt, falls |X|p ∈ L1 gilt. Für X ∈ Lp und p ∈ N heißt E[X p ] das p-te Moment von X. 3.11 Lemma. Für 0 < p < q gilt: X ∈ Lq ⇒ X ∈ Lp . 3.12 Lemma. Für eine Zufallsvariable X ∈ L2 nimmt die Funktion ϕ : R → R, ϕ(z) = E[(X − z)2 ] ihr (endliches) Minimum bei z = E[X] an. 6 3.4 Bedingte Erwartung und Vorhersage 3.13 Definition. Es seien X und Y Zufallsvariablen auf (Ω, P). Für x ∈ X(Ω) mit P(X = x) > 0 ist die bedingte Verteilung von Y gegeben X = x das Wahrscheinlichkeitsmaß PY |X=x (A) := P(Y ∈ A | X = x), A ⊆ Y (Ω). P Gilt y∈Y (Ω) |y| P(Y = y | X = x) < ∞, so wird der bedingte Erwartungswert von Y gegeben X = x definiert als X E[Y | X = x] := y P(Y = y | X = x). y∈Y (Ω) 3.14 Lemma. Ist Y ∈ L1 sowie P(X = x) > 0 so existiert stets der bedingte Erwartungswert E[Y | X = x]. 3.15 Lemma. Es seien X und Y Zufallsvariablen auf (Ω, P). Dann gilt, sofern alles wohldefiniert ist: (a) Sind X und Y unabhängig, so ist E[Y | X = x] = E[Y ]. (b) Ist Y = αX, so ist E[Y | X = x] = αx. (c) E[Y | X = x] ist bezüglich Y monoton und linear. 3.16 Definition. Es seien X, Y Zufallsvariablen mit Y ∈ L1 und P(X = x) > 0 für alle x ∈ X(Ω). Setze µY |X (x) := E[Y | X = x]. Dann heißt die Zufallsvariable (!) E[Y | X](ω) := µY |X (X(ω)) bedingte Erwartung von Y gegeben X. 3.17 Satz. Es seien X, Y Zufallsvariablen mit Y ∈ L1 und P(X = x) > 0 für alle x ∈ X(Ω). Dann gilt E[E[Y | X]] = E[Y ]. 3.18 Satz. Es seien X, Y Zufallsvariablen mit Y ∈ L2 und P(X = x) > 0 für alle x ∈ X(Ω). Es bezeichne FX := {Z ∈ L2 | ∃h : X(Ω) → R : Z(ω) = h(X(ω)) für alle ω ∈ Ω} die Menge aller Zufallsvariablen in L2 , die sich als Funktion von X schreiben lassen. Dann nimmt die Funktion ϕ : FX → R, ϕ(Z) = E[(Y − Z)2 ] ihr Minimum bei Z = E[Y | X] an. 3.5 Varianz und Kovarianz 3.19 Definition. Für eine Zufallsvariable X in L2 bezeichnet Var(X) := E[(X − E[X])2 ] p die Varianz von X. σ(X) = Var(X) heißt Standardabweichung von X. 7 3.20 Satz. Für X, Y ∈ L2 gilt: (a) Var(X) = 0 ⇐⇒ P(X = E[X]) = 1 (b) ∀a, b ∈ R : Var(aX + b) = a2 Var(X) (c) Var(X) = E[X 2 ] − (E[X])2 (d) Var(X + Y ) 6 2 Var(X) + 2 Var(Y ) (e) Sind X und Y unabhängig, so gilt Var(X + Y ) = Var(X) + Var(Y ). 3.21 Satz. Es seien X, Y Zufallsvariablen in L2 sowie LX := {aX + b : a, b ∈ R} die Menge aller Zufallsvariablen, die sich als affin-lineare Funktion von X schreiben lassen. Dann nimmt die Funktion ϕ : LX → R, ϕ(Z) = E[(Y − Z)2 ] ihr Minimum bei Z = a∗ X + b∗ an mit a∗ = E[(X − E[X])(Y − E[Y ])] , Var(X) b∗ = E[Y ] − a∗ E[X], falls Var(X) > 0, sowie a∗ beliebig, falls Var[X] = 0. Im Fall Var(X) > 0 gilt min ϕ(Z) = Var(Y ) − Z∈LX (E[(X − E[X])(Y − E[Y ])])2 . Var[X] 3.22 Definition. Für X, Y definiert Cov(X, Y ) := E[(X − E[X])(Y − E[Y ])] die Kovarianz und im Fall σ(X), σ(Y ) > 0 ρ(X, Y ) := Cov(X, Y ) σ(X)σ(Y ) die Korrelation von X und Y . 3.23 Satz. Für X, Y, Z ∈ L2 gilt: (a) Cov(X, Y ) = Cov(Y, X) = E[XY ] − E[X] E[Y ], Cov(X, X) = Var(X) (b) Var(X + Y ) = Var(X) + 2 Cov(X, Y ) + Var(Y ) (c) ∀a, b ∈ R : Cov(aX + b, Y ) = a Cov(X, Y ) (d) Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z) (e) Sind X und Y unabhängig, so gilt Cov(X, Y ) = 0 (X und Y sind unkorreliert) (f) |Cov(X, Y )| 6 σ(X)σ(Y ) (g) ρ(X, Y ) ∈ [−1, 1], falls die Korrelation wohldefiniert ist. 8 Kapitel 4 Testtheorie 4.1 Grundlagen 4.1 Definition. Ein diskretes statistisches Modell ist ein Tupel (X, (Pϑ )ϑ∈Θ ) bestehend aus einer abzählbaren Menge X (dem Stichprobenraum) und einer Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaßen auf P(X). Die mindestens zweielementige Menge Θ heißt Parametermenge und jedes ϑ ∈ Θ Parameter. 4.2 Definition. Aufbau eines Testverfahrens: (a) Wahl eines statistischen Modells (X, (Pϑ )ϑ∈Θ ) ˙ 1 (b) Formulierung von Hypothese und Alternative: Θ = Θ0 ∪Θ ϑ ∈ Θ0 : ϑ entspricht der Hypothese H0 ϑ ∈ Θ1 : ϑ entspricht der Alternative H1 (c) Wahl eines Irrtumsniveaus α ∈ (0, 1) für den Fehler erster Art, sich bei Vorliegen der Hypothese für die Alternative zu entscheiden. (d) Konstruktion eines (randomisierten) Tests ϕ : X → [0, 1] zum Niveau α: ϕ(x) = 0: Entscheidung für H0 , ϕ(x) = 1: Entscheidung für H1 , ϕ(x) ∈ (0, 1): Entscheidung mit Wahrscheinlichkeit ϕ(x) für H1 , supϑ∈Θ0 Eϑ [ϕ] 6 α. (e) Durchführen des Experiments 4.3 Definition. Weitere Begriffsbildungen: (a) Jede Zufallsvariable ϕ auf X mit Werten in [0, 1] heißt Test. (b) Gilt ϕ(x) ∈ {0, 1} für alle x ∈ X, so heißt der Test ϕ nicht-randomisiert. (c) Ist ϕ ein nicht-randomisierter Test, so heißt X1 := {x ∈ X : ϕ(x) = 1} Ablehnungsbereich oder kritischer Bereich des Tests. (d) Die Funktion Gϕ : Θ → [0, 1] mit Gϕ (ϑ) = Eϑ [ϕ] heißt Gütefunktion des Tests ϕ. Ist ϕ ein Test vom Niveau α, so gilt Gϕ (ϑ0 ) 6 α für alle 9 ϑ0 ∈ Θ0 . Für ϑ1 ∈ Θ1 heißt Gϕ (ϑ1 ) die Macht oder Schärfe von ϕ bei ϑ1 und βϕ (ϑ1 ) = 1 − Gϕ (ϑ1 ) bezeichnet die Wahrscheinlichkeit für den Fehler 2. Art der Entscheidung für H0 , obwohl ϑ1 ∈ Θ1 vorliegt. 4.4 Definition. Ein Test ϕ von H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 heißt gleichmäßig bester Test zum Niveau α, falls ϕ ein Test zum Niveau α ist und für jeden anderen Test ψ zum Niveau α gilt: ∀ ϑ1 ∈ Θ1 : Gϕ (ϑ1 ) > Gψ (ϑ1 ). 4.2 Einfache Alternativtests In diesem Abschnitt liege stets das statistische Modell (X, (P0 , P1 )) mit Θ0 = {0}, Θ1 = {1} zugrunde. Außerdem möge für die zugehörigen Zähldichten p0 (x) + p1 (x) > 0 für alle x ∈ X gelten. Hypothese und Alternative heißen in diesem Fall einfach, weil sie nur jeweils einen Parameter enthalten. 4.5 Definition. Der Likelihood-Quotient von P1 bezüglich P0 ist gegeben durch ( p1 (x)/p0 (x), falls p0 (x) > 0, R(x) = +∞, falls p0 (x) = 0. Jeder Test ϕ der Form 1, ϕ(x) = 0, γ, falls R(x) > c, falls R(x) < c, falls R(x) = c mit beliebigem c > 0 und γ ∈ [0, 1] heißt Neyman-Pearson-Test. 4.6 Satz. Für das Testen von H0 : ϑ = 0 gegen H1 : ϑ = 1 gilt: (a) Ist ϕ∗ ein Neyman-Pearson-Test, so ist ϕ∗ mindestens so mächtig wie jeder andere Test ϕ mit E0 [ϕ] 6 E0 [ϕ∗ ]. (b) Für jedes Niveau α ∈ (0, 1) existiert ein Neyman-Pearson-Test ϕ∗ mit exakt E0 [ϕ∗ ] = α. (c) Ein (gleichmäßig) bester Test zum Niveau α ist gegeben durch einen Neyman-Pearson-Test ϕ∗ mit E0 [ϕ∗ ] = α. 4.3 Beste einseitige Tests 4.7 Definition. Ein diskretes statistisches Modell (X, (Pϑ )ϑ∈Θ ) mit X ⊆ R und Θ ⊆ R hat wachsende Likelihood-Quotienten, wenn für alle ϑ < ϑ0 der Likelihood-Quotient ( pϑ0 (x)/pϑ (x), falls pϑ (x) > 0, Rϑ0 :ϑ (x) = +∞, falls pϑ (x) = 0 monoton wachsend in x ist. 10 4.8 Satz. Es sei (X, (Pϑ )ϑ∈Θ ) ein statistisches Modell mit wachsenden Likelihood-Quotienten. Für jedes ϑ0 ∈ Θ, α ∈ (0, 1) existiert dann ein gleichmäßig bester Test zum Niveau α von H0 : ϑ 6 ϑ0 gegen H1 : ϑ > ϑ0 . Dieser hat die Gestalt falls x > cα , 1, ϕ(x) = 0, falls x < cα , γα , falls x = cα , wobei sich cα ∈ R und γα ∈ [0, 1] aus der Forderung Eϑ0 [ϕ] = α ergeben. Ferner ist die Gütefunktion Gϕ monoton wachsend. 4.4 Der χ2 -Anpassungstest Wir betrachten als statistisches Modell Θ = {ϑ ∈ (0, 1)r : ϑ1 + · · · + ϑr = 1}, X = {x ∈ {0, . . . , n}r : x1 + · · · + xr = n} und Multn;ϑ1 ,...,ϑr die Multinomialverteilung mit n Versuchen und Wahrscheinlichkeiten ϑ1 , . . . , ϑr für die Klassen 1, . . . , r. Es soll die Hypothese H0 : ϑ = ϑ̄ gegen die Alternative H1 : ϑ 6= ϑ̄ getestet werden (sogenannter Signifikanztest). 4.9 Definition. Für 1, ϕ(x) = 0, γ, ein beliebiges Testproblem heißt jeder Test ϕ der Form falls R(x) > c, falls R(x) < c, falls R(x) = c mit R(x) = supϑ∈Θ1 pϑ (x) supϑ∈Θ0 pϑ (x) Likelihood-Quotienten-Test. 4.10 Lemma. Für das vorliegende Testproblem gilt log(R(x)) = r X xi log i=1 x i ≈ 12 V 2 (x) nϑ̄i mit Pearsons χ2 -Statistik V 2 (x) = r X (xi − nϑ̄i )2 nϑ̄i i=1 . 4.11 Satz. Für alle v > 0 gilt (mit Kenntlichmachung der Abhängigkeit von n): Z v 2 lim Pϑ̄ (Vn 6 v) = fχ2r−1 (x) dx, n→∞ 0 1 xm/2−1 e−x/2 Γ(n/2)2m/2 die Dichte der χ2 -Verteilung mit m wobei fχ2m (x) = Freiheitsgraden bezeichnet. Ebenso gilt Z v lim Pϑ̄ (2 log(Rn ) 6 v) = fχ2r−1 (x) dx. n→∞ 0 11 Kapitel 5 Allgemeine Wahrscheinlichkeitsräume und Dichten 5.1 σ-Algebren und Wahrscheinlichkeitsräume 5.1 Satz. Sei Ω = {0, 1}N der Raum der 0-1-Folgen. Dann gibt es keine Abbildung P : P(Ω) → [0, 1] die normiert und σ-additiv ist sowie folgende Invarianz eigenschaft besitzt ∀ A ⊆ Ω, n > 1 : P(Tn (A)) = P(A) mit Tn (ω) = (ω1 , . . . , ωn−1 , 1−ωn , ωn+1 , . . .). 5.2 Definition. Für Ω 6= ∅ heißt F ⊆ P(Ω) σ-Algebra, falls gilt: (a) Ω ∈ F, (b) A ∈ F ⇒ A{ ∈ F, (c) An ∈ F, n > 1 ⇒ S n>1 An ∈ F. Das Paar (Ω, F) heißt messbarer Raum oder Messraum. 5.3 Lemma. Für eine σ-Algebra F gilt: (a) ∅ ∈ F, (b) An ∈ F, n > 1 ⇒ T n>1 An ∈ F, (c) A, B ∈ F ⇒ A ∪ B, A ∩ B ∈ F. 5.4 Lemma. Zu jedem Mengensystem M ⊆ P(Ω) gibt es eine (bzgl. Mengeninklusion) kleinste σ-Algebra die M enthält. Diese von M erzeugte σ-Algebra wird mit σ(M) bezeichnet. 5.5 Definition. Es sei Ω = Rd und Md = d nY o [ai , bi ] : ai < bi ; ai , bi ∈ Q i=1 12 das System aller d-dimensionalen Quader mit rationalen Endpunkten. Dann heißt BRd = σ(Md ) die Borel-σ-Algebra auf Rd und jedes B ∈ BRd Borelmenge. 5.6 Lemma. Jede offene und jede abgeschlossene Menge B ⊆ Rd ist eine Borelmenge. 5.7 Definition. Ein Tripel (Ω, F, P) bestehend aus einer Menge Ω, einer σAlgebra F auf Ω und einer Abbildung P : F → [0, 1] mit P(Ω) = 1 und X [ An = P(An ) für alle paarweise disjunkten An ∈ F, n > 1 P n>1 n>1 heißt (allgemeiner) Wahrscheinlichkeitsraum. P heißt Wahrscheinlichkeitsmaß auf F und jede Menge A ∈ F heißt Ereignis. 5.8 Satz. Es sei (Ω, F, P) ein Wahrscheinlichkeitsraum und M ein F erzeugendes Mengensystem. Ist M durchschnittstabil (d.h. A, B ∈ M ⇒ A ∩ B ∈ M), so ist das Wahrscheinlichkeitsmaß P bereits durch seine Werte auf M eindeutig bestimmt. 5.2 Exkurs: mehrdimensionales Riemann-Integral 5.3 Modelle mit Dichten 5.9 Definition. Eine integrierbare Funktion f : Rd → [0, ∞) mit Z f (x) dx = 1 Rd heißt Wahrscheinlichkeitsdichte oder bloß Dichte auf Rd . 5.10 Satz. f sei eine Dichte auf Rd . Für jeden Quader Q = Z P(Q) = Z b1 a1 i=1 [ai , bi ] setze bd ··· f (x) dx = Q Z Qd f (x1 , . . . , xd ) dxd · · · dx1 . ad Dann lässt sich P in eindeutiger Weise zu einem Maß auf (Rd , BRd ) fortsetzen. Für jede Borelmenge gilt Z P(B) = f (x) dx, B sofern das Integral wohldefiniert ist. Gleichmäßige Verteilung auf dem Intervall Exponentialverteilung Normalverteilung Gleichverteilung auf einem Gebiet Produkte von Dichten 13 5.11 Definition. Jede Dichte f auf R induziert die Verteilungsfunktion Z x f (y) dy = P((−∞, x]), F (x) = −∞ wobei P das von f induzierte Wahrscheinlichkeitsmaß bezeichnet. 5.12 Lemma. Die von einer Dichte induzierte Verteilungsfunktion F hat folgende Eigenschaften: (a) F ist monoton wachsend. (b) limx→−∞ F (x) = 0, limx→+∞ F (x) = 1 (c) F ist stetig. 5.4 Zufallsvariablen 5.13 Definition. Es sei (Ω, F, P) ein Wahrscheinlichkeitsraum und (S, S) ein Messraum. Dann heißt eine Funktion f : Ω → S messbar (bzgl. (F, S)), falls ∀ A ∈ S : f −1 (A) ∈ F gilt. Jede solche messbare Funktion heißt (S, S)-wertige Zufallsvariable. Für S = Rd wird kanonisch S = BRd gewählt, und man spricht bloß von einer Zufallsvariablen (d = 1) bzw. einem Zufallsvektor (d > 2). Die Verteilung einer (S, S)-wertigen Zufallsvariablen X ist das Wahrscheinlichkeitsmaß (!) PX (A) := P(X ∈ A) = P(X −1 (A)), A ∈ S. Der Wahrscheinlichkeitsraum (S, S, PX ) heißt von X induzierter Wahrscheinlichkeitsraum. 5.14 Satz. Jede stetige Funktion f : Rm → Rn und jede stückweise stetige Funktion g : R → Rn ist Borel-messbar. 5.15 Definition. Für eine (reellwertige) Zufallsvariable X heißt F X (x) = P(X 6 x), x ∈ R, Verteilungsfunktion von X. Gilt für eine Rd -wertige Zufallsvariable X und eine Dichte f X auf Rd Z P(X ∈ Q) = f X (x) dx für alle Quader Q, Q so heißt f X Dichte von X. 5.16 Lemma. Ist X eine reellwertige Zufallsvariable mit Dichte f X , so gilt für die Verteilungsfunktion Z x X F (x) = f X (u) du, x ∈ R . −∞ Ist f X stetig in x ∈ R, so gilt (F X )0 (x) = f X (x). 14 5.17 Satz. Besitzt die Zufallsvariable X die Dichte f X und ist die Funktion ϕ : X(Ω) ⊆ R → R differenzierbar mit ϕ0 (x) > 0 für alle x oder aber ϕ0 (x) < 0 für alle x, so hat Y = ϕ(X) die Dichte f Y (y) = f X (ϕ−1 (y))|(ϕ−1 )0 (y)| = f X (ϕ−1 (y)) . |ϕ0 (ϕ−1 (y))| 5.18 Lemma. Besitzt der Zufallsvektor X = (X1 , . . . , Xn ) die Dichte f , so besitzt jede Komponente Xi ebenfalls eine Dichte und zwar Z f (x1 , . . . , xn ) dx1 · · · dxi−1 dxi+1 · · · dxn , xi ∈ R . fi (xi ) = Rn−1 In Worten: die i-te Randverteilung von X besitzt die Dichte fi , die sich durch Integration über die anderen Koordinaten ergibt. 5.19 Definition. Eine Familie (Xi )i∈I von (Si , Si )-wertigen Zufallsvariablen heißt unabhängig, falls für alle Ai ∈ Si die Ereignisse ({Xi ∈ Ai })i∈I unabhängig sind. 5.20 Satz. Reellwertige Zufallsvariablen (Xi )i∈I sind bereits dann unabhängig, falls für alle xi ∈ R die Ereignisse ({Xi 6 xi })i∈I unabhängig sind. 5.21 Satz. Sind X1 , . . . , Xn unabhängige Zufallsvariablen mit Dichten f1 , . . . , fn , so besitzt X = (X1 , . . . , Xn ) die Dichte f (x) = f (x1 , . . . , xn ) = n Y fi (xi ), x ∈ Rn . i=1 Besitzt umgekehrt X eine Dichte f , die sich in dieser Produktform schreiben lässt, so sind die Komponenten X1 , . . . , Xn unabhängig mit Dichten f1 , . . . , fn . 5.22 Satz. Sind X1 und X2 unabhängige Zufallsvariablen mit Dichten f1 und f2 , so besitzt X1 + X2 die Dichte Z ∞ X1 +X2 f (x) := f1 ∗ f2 (x) := f1 (x − y)f2 (y) dy, x ∈ R . −∞ 5.23 Definition. Die gerade definierte Funktion f1 ∗ f2 heißt Faltung von f1 und f2 . 5.5 Erwartungswert und Varianz bei Zufallsvariablen mit Dichten 5.24 Es sei X eine Zufallsvariable mit Dichte f X . Falls R ∞ Definition. X −∞ |x|f (x) dx < ∞ gilt, so bezeichnet Z ∞ E[X] := xf X (x) dx −∞ den Erwartungswert R ∞ von X. Ist P ein Wahrscheinlichkeitsmaß auf (R, BR ) mit Dichte f , so wird −∞ xf (x) dx als Erwartungswert der Verteilung P bezeichnet, R∞ sofern −∞ |x|f (x) dx endlich ist. 15 5.25 Satz. Es seien X, Y Zufallsvariablen mit Dichten f XR, f Y sowie Y = g(X) ∞ mit einer injektiven differenzierbaren Funktion g. Im Fall −∞ |g(x)|f X (x) dx < ∞ existiert der Erwartungswert von Y , und es gilt Z ∞ Z ∞ Y g(x)f X (x) dx. yf (y) dy = E[Y ] := −∞ −∞ 5.26 Definition. definiert allgemeiner für beliebige integrierbare FunkR ∞ Man X tionen g mit −∞ |g(x)|f (x) dx < ∞: Z ∞ E[g(X)] := g(x)f X (x) dx. −∞ 5.6 Die mehrdimensionale Normalverteilung 5.27 Lemma. Es sei X ein p-dimensionaler Zufallsvektor mit Erwartungswertvektor µ und Kovarianzmatrix Σ. Dann besitzt der q-dimensionale Zufallsvektor Y = AX + β, wobei A eine p × q-Matrix und β ein q-dimensionaler Vektor ist, den Erwartungswertvektor Aµ + β und die Kovarianzmatrix AΣAT . 5.28 Lemma. Jede Kovarianzmatrix eines Zufallsvektors ist, falls sie existiert, symmetrisch und positiv semi-definit. 5.29 Satz. (Cramér-Wold) Die Verteilung eines p-dimensionalen Zufallsvektors ist eindeutig bestimmt durch die eindimensionalen Verteilungen von cT X für alle c ∈ Rp . 5.30 Korollar. Der Zufallsvektor X = (X1 , . . . , Xp ) ist genau dann standardnormalverteilt, wenn cT X ∼ N(0, |c|2 ) für alle c ∈ Rp gilt. 5.31 Definition. Es sei X ein p-dimensionaler Zufallsvektor mit Erwartungswertvektor µ und Kovarianzmatrix Σ. X heißt normalverteilt mit Parametern (µ, Σ) oder N(µ, Σ)-verteilt, falls für alle c ∈ Rp gilt cT X ∼ N (cT µ, cT Σc). 2) 5.32 Satz. Ist X N(µ, Σ)-verteilt mit µ = (µ1 , . . . , µp )T und Σ = (σij i,j=1,...,p , so gilt: (a) Xi ∼ N(µi , σii2 ) für alle i = 1, . . . , p. (b) X1 , . . . , Xp sind genau dann unabhängig, wenn sie paarweise unkorreliert sind. 5.33 Satz. Für X ∼ N(µ, Σ), A ∈ Rp×q , β ∈ Rp gilt AX + β ∼ N(Aµ + β, AΣAT ). 5.34 Satz. Ist X ein N(µ, Σ)-verteilter Zufallsvektor im Rp mit strikt positivdefiniter Kovarianzmatrix Σ, so besitzt X die Dichte 1 T −1 1 f X (x) = exp − (x − µ) Σ (x − µ) . 2 (2π)p/2 det(Σ)1/2 χ2 -Verteilung und Anwendung auf Testprobleme 16 5.7 Übertragung von Ergebnissen auf den allgemeinen Fall 5.35 Satz. Folgende Definitionen und Aussagen gelten auch im allgemeinen Fall, sofern Ereignisse als Elemente der σ-Algebra, Zufallsvariablen als messbare Funktionen und bei Erwartungswerten die Existenz von Dichten angenommen werden: Lemma 1.4, Definition 2.1, Satz 2.2, Lemma 2.3, Definition 2.4, Satz 2.5, Definition 3.3, Definition 3.5, Satz 3.8(b),(c),(d), Definition 3.10, Lemma 3.11, Lemma 3.12, Definition 3.19, Satz 3.20, Satz 3.21, Definition 3.22, Satz 3.23. 17 Kapitel 6 Grenzwertsätze 6.1 Gesetze der großen Zahlen 6.1 Satz. (allgemeine Markow-Ungleichung) Es sei X eine Zufallsvariable und ϕ : [0, ∞) → [0, ∞) monoton wachsend. Dann gilt für jedes K > 0 mit ϕ(K) > 0: E[ϕ(|X|)] P(|X| > K) 6 , ϕ(K) wobei der Fall, dass die rechte Seite unendlich ist, trivial ist. 6.2 Korollar. (Tschebyschew-Ungleichung) Ist X eine Zufallsvariable in L2 , so gilt für jedes ε > 0 P(|X − E[X]| > ε) 6 Var(X) . ε2 6.3 Satz. (schwaches Gesetz der großen Zahlen) Es seien X1 , . . . , Xn unkorrelierte Zufallsvariablen mit demselben Erwartungswert µ und supi Var(Xi ) 6 V < ∞. Dann erfüllt das arithmetische Mittel n An := 1X Xi n i=1 für jedes ε > 0 lim P(|An − µ| > ε) = 0. n→∞ 6.4 Korollar. (Weierstraßscher Approximationssatz) Zur stetigen Funktion f : [0, 1] → R definiere das zugehörige Bernstein-Polynom n-ten Grades n k n X fn (x) := f xk (1 − x)n−k , x ∈ [0, 1]. n k k=0 Dann gilt limn→∞ kf − fn k∞ = 0 mit kgk∞ := supx∈[0,1] |g(x)|. 6.5 Definition. Es seien (Xn )n>1 und X Zufallsvariablen auf demselben Raum (Ω, F, P). Man sagt, dass Xn stochastisch (oder auch in Wahrscheinlichkeit) gegen X konvergiert für n → ∞, falls für alle ε > 0 gilt lim P(|X − Xn | > ε) = 0. n→∞ 18 Man sagt, dass Xn fast sicher gegen X konvergiert, falls P({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1. n→∞ 6.6 Lemma. Fast sichere Konvergenz impliziert stochastische Konvergenz, aber nicht umgekehrt. 6.7 Satz. (starkes Gesetz der großen Zahlen) Es seien (Xn )n>1 paarweise unabhängige Zufallsvariablen in L1 , die identisch verteilt sind. Dann konvergiert 1 Pn An := n i=1 Xi fast sicher gegen den Erwartungswert µ = E[Xi ]. 6.2 Der zentrale Grenzwertsatz 6.8 Definition. Die Zufallsvariablen (Xn )n>1 konvergieren in Verteilung gegen die Zufallsvariable X (bzw. genauer: die Verteilungen (PXn )n>1 konvergieren schwach gegen die Verteilung PX ), falls für jede stetige beschränkte Funktion ϕ : R → R gilt lim E[ϕ(Xn )] = E[ϕ(X)]. n→∞ L L L Notation: Xn → X bzw. PXn → PX bzw. Xn → PX . 6.9 Satz. Es sind äquivalent: L (a) Xn → X (b) Die Verteilungsfunktionen erfüllen F Xn (x) → F X (x) für alle x ∈ R, an denen F X stetig ist (Stetigkeitspunkte). 6.10 Lemma. Stochastische Konvergenz von (Xn )n>1 gegen X impliziert KonL vergenz in Verteilung: Xn → X. 6.11 Satz. (zentraler Grenzwertsatz) Es sei (Xn )n>1 eine Folge unabhängiger identisch verteilter Zufallsvariablen in L2 . Dann gilt n 1 X Xi − E[Xi ] L Sn∗ := √ −−−−→ N(0, 1). σ(Xi ) n i=1 Insbesondere gilt für a < b also P(a < Sn∗ 6 b) → Φ(b) − Φ(a) mit der Verteilungsfunktion Φ der Standardnormalverteilung N(0, 1). 19 Kapitel 7 Schätztheorie 7.1 Lineare Regression und die Methode der kleinsten Quadrate 7.1 Definition. Ein (einfaches eindimensionales) lineares Regressionsmodell ist gegeben durch die Beobachtungen Yk = axk + b + εk , k = 1, . . . , n, mit deterministischen Werten x1 , . . . , xn ∈ R (Versuchsplan), unbekannten Koeffizienten a, b ∈ R und unkorrelierten Zufallsvariablen ε1 , . . . , εn , die E[εk ] = 0, Var[εk ] = σ 2 > 0 für alle k = 1, . . . , n erfüllen. 7.2 Definition. Die Kleinste-Quadrate-Schätzung vom Tupel (a, b) ist definiert als n X (â, b̂) := argmin(a0 ,b0 )∈R2 (Yk − a0 xk − b0 )2 . k=1 7.3 Lemma. Es gilt für die Kleinste-Quadrate-Schätzung b̂ = Ȳ − âx̄, â = P Ȳ = n1 ni=1 Yi und 1 Pn 2 σ̄x2 = n−1 ρ̄xY = i=1 (xi − x̄) , mit x̄ = 1 n ρ̄xY σ̄x2 Pn i=1 xi , 1 n−1 Pn i=1 (xi − x̄)(Yi − Ȳ ). 7.4 Definition. Ein Schätzer ϑ̂ für einen Parameter ϑ heißt erwartungstreu, falls Eϑ [ϑ̂] = ϑ gilt. 7.5 Lemma. Die Kleinste-Quadrate-Schätzungen â und b̂ sind erwartungstreue Schätzer von a bzw. b. 7.6 Lemma. Für den mittleren quadratischen Fehler eines Schätzers ϑ̂ für ϑ, der in L2 liegt, gilt die Bias-Varianz-Zerlegung 2 Eϑ [(ϑ̂ − ϑ)2 ] = Eϑ [ϑ̂ − ϑ] + Varϑ (ϑ̂). 20 7.7 Satz. (Gauß-Markov) Die Kleinste-Quadrate-Schätzungen â und b̂ haben unter allen linearen und erwartungstreuen Schätzern die kleinste Varianz. 7.8 Satz. Die Varianz σ 2 im linearen Regressionsmodell wird erwartungstreu geschätzt durch n 1 X σ̂ 2 := (Yi − âxi − b̂)2 , n−2 i=1 wobei â und b̂ die Kleinste-Quadrate-Schätzungen bezeichnen. 7.2 Allgemeine Parameterschätzungen 7.9 Definition. Ist (X, F, (Pϑ )ϑ∈Θ ) ein allgemeines statistisches Modell mit Θ ⊆ Rd , so heißt jede Θ-wertige Zufallsvariable auf (X, F) Schätzer von ϑ. 7.10 Definition. Eine Folge (ϑ̂n )n>1 von Schätzern eines Parameters ϑ heißt konsistent, falls limn→∞ ϑ̂n = ϑ in Wahrscheinlichkeit gilt. 7.11 Definition. Ein diskretes statistisches Modell (X, F, (Pϑ )ϑ∈Θ ) mit einem offenen Intervall Θ ⊆ R heißt regulär, falls gilt: ∂ pϑ (x) existiert, (a) ∀x ∈ X ∀ϑ ∈ Θ : pϑ (x) > 0, ṗϑ (x) = ∂ϑ P ∂ P (b) ∀ϑ ∈ Θ : ṗϑ /pϑ ∈ L2 , x∈X ṗϑ (x) = ∂ϑ x∈X pϑ (x) = 0. Ein statistisches Modell mit Dichten heißt entsprechend regulär, falls obige Eigenschaften für die Dichten fϑ erfüllt sind, wobei die Summen durch Integrale zu ersetzen sind. 7.12 Satz. (Cramér-Rao-Ungleichung) Ist (X, F, (Pϑ )ϑ∈Θ ) ein reguläres statistisches Modell, so gilt für jeden erwartungstreuen Schätzer ϑ̂ von ϑ folgende untere Schranke für die Varianz: Varϑ (ϑ̂) > 1 I(ϑ) mit der Fisher-Information I(ϑ) := Eϑ 7.3 h ṗ 2 i ϑ pϑ bzw. I(ϑ) := Eϑ h f˙ 2 i ϑ fϑ . Konfidenzbereiche 7.13 Definition. Es seien (X, F, (Pϑ )ϑ∈Θ ) ein statistisches Modell sowie α ∈ (0, 1). Eine Abbildung C : X → P(Θ), die jedem Versuchsausgang x eine Teilmenge C(x) der Parametermenge zuordnet, heißt Konfidenzbereich zum Konfidenz-Niveau 1 − α, falls ∀ϑ ∈ Θ : Pϑ ({x ∈ X : ϑ ∈ C(x)}) > 1 − α. 7.14 Satz. Es sei (X, F, (Pϑ )ϑ∈Θ ) ein statistisches Modell. 21 (a) Ist für jedes ϑ̄ ∈ Θ ein nicht-randomisierter Test ϕϑ̄ von H0 : ϑ = ϑ̄ gegen H1 : ϑ 6= ϑ̄ zum Signifikanzniveau α gegeben, so definiert C(x) := {ϑ̄ ∈ Θ : ϕϑ̄ (x) = 0} einen Konfidenzbereich zum Konfidenz-Niveau 1 − α. (b) Umgekehrt wird durch einen Konfidenzbereich C(•) zum KonfidenzNiveau 1 − α mittels ϕϑ̄ (x) := 1 − 1C(x) (ϑ̄) ein Test von H0 : ϑ = ϑ̄ gegen H1 : ϑ 6= ϑ̄ zum Niveau α definiert. 22