Statistik II Klaus Ritter TU Kaiserslautern Sommersemester 2017 Inhalt 1. Einleitung 2. Diskrete Modelle 2.1. Diskrete Wahrscheinlichkeitsräume 2.2. Wahrscheinlichkeitsfunktionen 2.3. Bedingte Wahrscheinlichkeiten und Unabhängigkeit 2.4. Zufallsvariablen 2.5. Empirische Wahrscheinlichkeitsverteilungen 2.6. Wichtige Klassen diskreter Verteilungen 2.7. Erwartungswert und Varianz 3. Allgemeine Modelle 3.1. Stetige Verteilungen 3.2. Allgemeine Begriffsbildung 3.3. Verteilungsfunktionen und Quantile 3.4. Grenzwertsätze 4. Schätzung von Verteilungsparametern 4.1. Punktschätzung 4.2. Intervallschätzung 5. Statistische Entscheidungsverfahren 5.1. Tests unter Normalverteilungsannahmen 5.2. Anpassungstests 6. Anhang: Kombinatorik 1 1. Einleitung Beispiel 1 Zwei Varianten einer Fragestellung: Wie groß ist gegenwärtig in D die Wahrscheinlichkeit einer Mädchengeburt? Ist gegenwärtig in D eine Jungengeburt wahrscheinlicher als eine Mädchengeburt? Empirische Daten aus einer Stichprobe: Geschlecht bei N Geburten, k Mädchen (1), N − k Jungen (0). Relative Häufigkeiten k N −k , pb(0) = = 1 − pb(1) N N als Kennzahlen der Daten (deskriptive Statistik). pb(1) = Naive Antworten: Die gesuchte Wahrscheinlichkeit ist pb(1). Ja, falls pb(0) > pb(1), sonst nein. 2 Kritik: Die Antworten berücksichtigen nicht die Tatsache, daß nur eine Stichprobe erhoben wurde, die Größe der Stichprobe, die Variabilität in den Daten. Deshalb Einsatz von Methoden der induktiven Statistik, hier Konfidenzintervalle und Signifikanztests. Dies erfordert die Modellierung (mathematische Beschreibung) des zugrunde liegenden Zufallsmechanismus. Beispiel 2 Eine komplexe, unscharfe Fragestellung eines Handelskonzerns: Für welche Artikel liegt eine Wetterabhängigkeit der Abverkaufszahlen vor? Wie ist ggf. diese Abhängigkeit? 3 Mengen dienen zur Beschreibung der möglichen Ausgänge eines Zufallsexperimentes. Beispiel 3 Besonders wichtig sind die Menge N = {1, 2, . . . } bzw. N0 = {0, 1, . . . } der natürlichen Zahlen und die Menge R der reellen Zahlen. Die Notation ω ∈ Ω, ω∈ /Ω heißt: das Objekt ω gehört zur Menge Ω ( ω ist ein Element von Ω“) ” bzw. ω gehört nicht zu Ω. Beispiel 4 Die Maximallänge der Warteschlage vor einem Aufzug an einem Tag ist ein Element aus N0 . Die maximale Wartezeit einer Person vor dem Aufzug wird sinnvollerweise durch eine nichtnegative reelle Zahl gemessen. 4 Die Notation A⊆B heißt: jedes Element der Menge A ist ein Element der Menge B ( A ist ” eine Teilmenge von B“). Die Notation A=B heißt: A ⊆ B und B ⊆ A ( A und B sind gleich“). ” Die Notation ∅ steht für die leere Menge, d.h. für die Menge, die kein Element enthält. Eine Menge Ω der Form Ω = {ω1 , . . . , ωn } heißt endlich; Notation |Ω| für die Anzahl ihrer Elemente ( Mächtigkeit von Ω“), ” Ω = {ω1 , ω2 , . . . } mit ωi 6= ωj für i 6= j heißt abzählbar unendlich. 5 2. Diskrete Modelle Ziel: Modellierung und Analyse von Zufallsexperimenten mit endlich vielen oder abzählbar unendlich vielen möglichen Ausgängen. Im Folgenden sei dementsprechend Ω eine endliche oder abzählbar unendliche Menge, die die o.g. Ausgänge enthält. 6 2.1. Grundbegriffe Definition 1 Die Elemente ω ∈ Ω heißen Ergebnisse und Ω heißt Ergebnismenge. Die Teilmengen A ⊆ Ω von Ω heißen Ereignisse. Beispiel 2 2-maliges Werfen einer Münze mit den Seiten 1 und 0: Ω = {(1, 1), (1, 0), (0, 1), (0, 0)} = {1, 0}2 , A = {(1, 1), (1, 0)} = beim ersten Wurf fällt 1“. ” Analog für 2-stufigen Produktionsprozeß: Toleranzen werden ein- bzw. nicht eingehalten. Sprechweisen: das Ereignis A tritt ein“ bedeutet ω ∈ A, das sichere ” ” Ereignis“ ist Ω, das unmögliche Ereignis“ ist ∅. ” 7 Definition 3 Für Ereignisse A, B ⊆ Ω heißen A ∪ B = {ω ∈ Ω : ω ∈ A oder ω ∈ B}, A ∩ B = {ω ∈ Ω : ω ∈ A und ω ∈ B}, A \ B = {ω ∈ Ω : ω ∈ A und ω ∈ / B}, Ac = Ω \ A = {ω ∈ Ω : ω ∈ / A} die Vereinigung, der Schnitt, die Differenz von A und B ( A ohne B“) bzw. das Komplement ( Gegenereignis“) von A. ” ” Satz 4 (Rechenregeln für Ereignisse) Für alle Ereignisse A, B, C ⊆ Ω gilt A ∩ (B ∪ C ) = (A ∩ B) ∪ (A ∩ C ), A ∪ (B ∩ C ) = (A ∪ B) ∩ (A ∪ C ), (A ∩ B)c = Ac ∪ B c , (A ∪ B)c = Ac ∩ B c , B \ A = B ∩ Ac . 8 Definition 5 Die Vereinigung der Ereignisse A1 , A2 , A3 , . . . ⊆ Ω ist ∞ [ Ai = A1 ∪ A2 ∪ . . . i=1 = {ω ∈ Ω : es existiert ein i ∈ N, so daß ω ∈ Ai }. Die Ereignisse A1 , A2 , A3 , . . . ⊆ Ω heißen paarweise disjunkt, falls Ai ∩ Aj = ∅ für alle i 6= j. Bemerkung 6 Wichtiger Spezialfall: endliche Vereinigungen A1 ∪ . . . ∪ An = A1 ∪ . . . ∪ An ∪ ∅ ∪ ∅ ∪ . . . 9 Nun: Zuordnung von Wahrscheinlichkeiten P(A) zu allen Ereignissen A ⊆ Ω. Frage: Sinnvolle Eigenschaften jeder solchen Zuordnung? Definition 7 Die Menge Pot(Ω) = {A : A ⊆ Ω} aller Teilmengen von Ω heißt die Potenzmenge von Ω. Definition 8 Eine Funktion P : Pot(Ω) → R heißt W’verteilung (auf Ω), falls (i) 0 ≤ P(A) ≤ 1 für alle A ⊆ Ω und (ii) P(Ω) = 1 sowie P(∅) = 0 und (iii) für alle paarweise disjunkten A1 , A2 , . . . ⊆ Ω gilt P ∞ [ ! Ai = i=1 Ggf. heißt (Ω, P) ein diskreter W’raum. ∞ X P(Ai ). i=1 10 Satz 9 (Rechenregeln für W’keiten) Sei P eine W’verteilung auf Ω. Falls A1 , . . . , An ⊆ Ω paarweise disjunkt sind, gilt P(A1 ∪ . . . ∪ An ) = P(A1 ) + . . . + P(An ). Falls A ⊆ B ⊆ Ω, gilt P(B \ A) = P(B) − P(A) und insbesondere P(A) ≤ P(B) sowie P(Ac ) = 1 − P(A). Für alle A, B ⊆ Ω gilt P(A ∪ B) = P(A) + P(B) − P(A ∩ B). 11 2.2. Wahrscheinlichkeitsfunktionen Frage: Wie konstruiert man W’verteilungen auf Ω auf der Basis von empirischen Daten oder theoretischen Überlegungen? Definition 1 Sei P eine W’verteilung auf Ω. Die durch p(ω) = P({ω}) definierte Funktion p : Ω → R heißt W’funktion (zur W’verteilung P). Satz 2 (W’verteilungen und W’funktionen) Für P und p wie oben sowie A ⊆ Ω gilt P(A) = X p(ω). ω∈A Insbesondere ist P durch p bereits eindeutig bestimmt. 12 Frage: Welche Eigenschaften besitzen W’funktionen? Bemerkung 3 Jede W’funktion p : Ω → R erfüllt 0 ≤ p(ω) ≤ 1 für alle ω ∈ Ω (1) und X p(ω) = 1. (2) ω∈Ω Satz 4 (Konstruktion von W’verteilungen) Jede Funktion p : Ω → R mit (1) und (2) definiert gemäß P(A) = X p(ω) ω∈A für A ⊆ Ω eine W’verteilung P auf Ω. 13 Beispiel 5 Sei Ω endlich mit n = |Ω|. Für ω ∈ Ω sei p(ω) = 1 . n Die zugehörige W’verteilung erfüllt für alle Ereignisse A ⊆ Ω P(A) = |A| . |Ω| Definition 6 P wie oben heißt die Gleichverteilung ( Laplace-Verteilung“) auf der ” endlichen Menge Ω. Bemerkung 7 Die Berechung von Wahrscheinlichkeiten bzgl. einer Gleichverteilung geschieht prinzipiell durch Abzählen. 14 Beispiel 8 2-maliges unabhängiges“ Werfen einer fairen Münze, vgl. Bsp. 2.1.2. ” Schritt 1: Modellierung durch die Gleichverteilung P auf Ω = {(1, 1), (1, 0), (0, 1), (0, 0)}. Schritt 2: Betrachte die Ereignisse A = {(1, 1), (1, 0)} = beim ersten Wurf fällt 1“, ” B = {(1, 1), (0, 1)} = beim zweiten Wurf fällt 1“. ” Schritt 3: Es gilt 2 1 = = P(B), 4 2 1 P(A ∩ B) = P({(1, 1)}) = = P(A) · P(B), 4 3 P(A ∪ B) = P({(1, 1), (1, 0), (0, 1)}) = . 4 P(A) = 15 Beispiel 9 2-stufiger Produktionsprozeß: Toleranzen werden ein- bzw. nicht eingehalten (1 bzw. 0). Modellierung durch Ω = {(1, 1), (1, 0), (0, 1), (0, 0)} und die (fiktive) W’funktion ω (1, 1) (1, 0) (0, 1) (0, 0) p(ω) 0.8 0.09 0.01 0.1 Betrachte A = {(1, 1), (1, 0)} = in der 1. Stufe wird die Toleranz eingehalten“, ” B = {(1, 1), (0, 1)} = in der 2. Stufe wird die Toleranz eingehalten“. ” Es gilt P(A) = 0.89, P(B) = 0.81, P(A ∩ B) = 0.8 6= P(A) · P(B). 16 2.3. Bedingte Wahrscheinlichkeiten und Unabhängigkeit Betrachte einen diskreten W’raum (Ω, P). Frage: Wie ist die W’verteilung P zu ändern, wenn man weiß, daß ein Ereignis B ⊆ Ω eingetreten ist? Definition 1 Für A, B ⊆ Ω mit P(B) > 0 heißt P(A | B) = P(A ∩ B) P(B) die bedingte Wahrscheinlichkeit von A gegeben B. Beispiel 2 Sei P die Gleichverteilung auf einer endlichen Menge Ω. Für A, B ⊆ Ω mit B 6= ∅ gilt |A ∩ B| |Ω| |A ∩ B| P(A | B) = · = . |Ω| |B| |B| 17 In Bsp. 2.2.8 (2-maliges unabhängiges“ Werfen einer fairen Münze) gilt ” also 1 P(A | B) = P(B | A) = 2 für A = {(1, 1), (1, 0)} und B = {(1, 1), (0, 1)}. Beispiel 3 In Bsp. 2.2.9 (2-stufiger Produktionsprozeß) gilt P(A | B) = P({(1, 1)}) 0.8 = ≈ 0.9876 P({(1, 1), (0, 1)}) 0.81 P(B | A) = P({(1, 1)}) 0.8 = ≈ 0.8988 P({(1, 1), (1, 0)}) 0.89 und für A, B wie oben, während P(A) = 0.89 und P(B) = 0.81. 18 Bemerkung 4 Sei p die W’funktion zu P, und sei B ⊆ Ω mit P(B) > 0. Für A ⊆ Ω gilt P(A | B) = X X 1 · q(ω), p(ω) = P(B) ω∈A∩B ω∈A wobei q(ω) = p(ω) , P(B) 0, falls ω ∈ B, sonst. Durch Q(A) = P(A | B) wird eine W’verteilung auf Ω mit W’funktion q definiert. 19 Definition 5 Ereignisse A, B ⊆ Ω heißen unabhängig, falls P(A ∩ B) = P(A) · P(B). Bemerkung 6 Im Fall P(B) > 0 sind A und B genau dann unabhängig, wenn P(A | B) = P(A). Beispiel 7 In Bsp. 2.2.8 (2-maliges unabhängiges“ Werfen einer fairen Münze) sind ” A und B unabhängig. In Bsp. 2.2.9 (2-stufiger Produktionsprozeß) sind A und B abhängig. 20 2.4. Zufallsvariablen Betrachte einen diskreten W’raum (Ω, P). Frage: Wie lassen sich einzelne Aspekte des entsprechenden Zufallsexperimentes beschreiben? Beispiel 1 2-maliges unabhängiges Werfen eines fairen Würfels, also Gleichverteilung P auf Ω = {1, . . . , 6}2 . Teilaspekte: Augenzahl beim ersten Wurf“, ” Augenzahl beim zweiten Wurf“, ” Augensumme aus beiden Würfen“. ” Beispiel 2 Stochastisches Finanzmarktmodell. Teilaspekte: Jahreshöchstwerte der 30 DAX-Aktien in 2017. 21 Im Folgenden sei X ⊆ R endlich oder abzählbar unendlich. In der Regel betrachten wir X ⊆ N0 . Definition 3 Eine Funktion X :Ω→X heißt Zufallsvariable mit Werten in X, ihre Funktionswerte x = X (ω) ∈ X heißen Realisierungen von X . Beispiel 4 (Fortsetzung von Bsp. 1) Die ersten beiden Teilaspekte werden durch X = {1, . . . , 6} und X1 (ω) = ω1 , X2 (ω) = ω2 für ω = (ω1 , ω2 ) ∈ Ω beschrieben. Der dritte Teilaspekt wird beschrieben durch S = {2, . . . , 12} und S = X1 + X2 , also S(ω) = X1 (ω) + X2 (ω) = ω1 + ω2 . 22 Im Folgenden sei X : Ω → X eine Zufallsvariable. Statt aller Details von (Ω, P) und X sind oft nur die W’keiten PX (A) = P({ω ∈ Ω : X (ω) ∈ A}) für A ⊆ X und speziell pX (x ) = PX ({x }) = P({ω ∈ Ω : X (ω) = x }) für x ∈ X von Interesse. Beispiel 5 (Fortsetzung von Bsp. 4) Für x ∈ {1, . . . , 6} gilt 1 pX1 (x ) = pX2 (x ) = , 6 und pS ist gegeben durch s 2 3 4 5 6 7 8 9 10 11 12 ps (s) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 23 Satz 6 (Verteilung und W’funktion einer Zufallsvariable) Es gilt pX : X → R ist eine W’funktion, PX ist die zugehörige W’verteilung auf X, d.h. für A ⊆ X PX (A) = X pX (x ). x ∈A Definition 7 PX und pX heißen die Verteilung bzw. die W’funktion von X . 24 Stabdiagramm zur graphischen Darstellung von pX : Jedem Element x ∈ X wird ein Stab“, dessen Höhe proportional zu pX (x ) ist, zugeordnet. ” Beispiel 8 (Fortsetzung von Bsp. 5) W’funktion pS der Augensumme S pS (s) 0.2 0.1 0 2 3 4 5 6 7 8 9 10 11 12 s 25 Definition 9 Zufallsvariablen X1 , X2 : Ω → X heißen identisch verteilt, falls PX1 (A) = PX2 (A) für alle A ⊆ X. Beispiel 10 (Fortsetzung von Bsp. 5) PX1 und PX2 sind jeweils die Gleichverteilung auf {1, . . . , 6}. Dies zeigt: Unterschiedliche Zufallsvariablen können identisch verteilt sein. Satz 11 (Kriterium für identische Verteilungen) X1 , X2 : Ω → X sind genau dann identisch verteilt, wenn pX1 (x ) = pX2 (x ) für alle x ∈ X. 26 Bemerkung 12 Den Fall von Zufallsvektoren X = (X1 , . . . , Xn ) : Ω → X mit einer endlichen oder abzählbar unendlichen Menge X ⊆ Rn behandelt man völlig analog. Jetzt sind die Komponenten Xi von X Zufallsvariablen. 27 Beispiel 13 (Fortsetzung von Bsp. 4) Für X = {1, . . . , 6}2 und x = (x1 , x2 ) = X gilt p(X1 ,X2 ) (x ) = P({ω ∈ Ω : ω = x }) = P({x }) = 1 . 36 Fazit: P(X1 ,X2 ) ist die Gleichverteilung auf X. Für X = {(x1 , s) ∈ N2 : 1 ≤ x1 ≤ 6 und x1 + 1 ≤ s ≤ x1 + 6} und (x1 , s) ∈ X gilt p(X1 ,S) (x1 , s) = P({ω ∈ Ω : ω1 = x1 und ω1 + ω2 = s}) = 1 . 36 Fazit: P(X1 ,S) ist die Gleichverteilung auf X. 28 Wir verwenden fortan Kurzschreibweisen wie {X = x } = {ω ∈ Ω : X (ω) = x }, {X ∈ A} = {ω ∈ Ω : X (ω) ∈ A}, und wir betrachten nun Zufallsvariablen X1 , . . . , Xn auf (Ω, P), die jeweils Werte in X annehmen. Definition 14 X1 , . . . , Xn heißen unabhängig, falls für alle A1 , . . . , An ⊆ X P n \ ! {Xi ∈ Ai } i=1 = n Y P({Xi ∈ Ai }). i=1 29 Beispiel 15 (Fortsetzung von Bsp. 4) Für X = {1, . . . , 6} und A1 , A2 ⊆ X gilt P({X1 ∈ A1 } ∩ {X2 ∈ A2 }) = P({ω ∈ Ω : ω1 ∈ A1 und ω2 ∈ A2 }) |A1 | · |A2 | |A1 | · |A2 | = = |Ω| 36 sowie gemäß Bsp. 10 für i = 1, 2 P({Xi ∈ Ai }) = |Ai | . 6 Fazit: X1 und X2 sind unabhängig. Für X = {1, . . . , 12}, A1 = {6} und B = {2} gilt P({X1 ∈ A1 } ∩ {S ∈ B}) = P({ω ∈ Ω : ω1 = 6 und ω1 + ω2 = 2}) = P(∅) = 0 sowie P({X1 ∈ A1 }) > 0 und P({S ∈ B}) > 0. Fazit: X1 und S sind nicht unabhängig. 30 Satz 16 (Kriterium für Unabhängigkeit) X1 , . . . , Xn sind genau dann unabhängig, wenn für alle x1 , . . . , xn ∈ X P n \ ! {Xi = xi } = i=1 n Y pXi (xi ). i=1 Bemerkung 17 Betrachte den Spezialfall n = 2 und X = {0, . . . , k} mit k ∈ N. Setze pi,j = P({X1 = i} ∩ {X2 = j}) sowie pi,• = P({X1 = i}}) und p•,j = P({X2 = j}}) für i, j ∈ {0, . . . , k}. Klar pi,• = k X j=0 pi,j und p•,j = k X i=0 pi,j für alle i, j ∈ {0, . . . , k}. 31 Zugehöriges Tableau X2 X1 p0,0 ... .. . p0,k p0,• .. . .. . pk,• pk,0 ... pk,k p•,0 ... p•,k Satz 16 zeigt: X1 und X2 sind genau dann unabhängig, wenn pi,j = pi,• · p•,j für alle i, j ∈ {0, . . . , k}. Modellierung: Vorgabe von p0,• , . . . , pk,• ≥ 0 und p•,0 , . . . , p•,k ≥ 0 mit Pk i=0 pi,• = 1 und j=0 p•,j = 1. Pk 32 Bemerkung 18 Sind X1 , . . . , Xn unabhängig, so lassen sich alle W’keiten der Form P({(X1 , . . . , Xn ) ∈ A}) = P({ω ∈ Ω : (X1 (ω), . . . , Xn (ω)) ∈ A}) mit A ⊆ Xn prinzipiell aus Werten der W’funktionen pX1 , . . . , pXn berechnen. 33 2.5. Empirische Wahrscheinlichkeitsverteilungen Betrachte ein Zufallsexperiment, beschrieben durch eine Zufallsvariable X : Ω → X auf einem diskreten W’raum (Ω, P), wobei die endliche oder abzählbar unendliche Menge X ⊆ R bekannt, aber die Verteilung PX unbekannt ist. Verfügbar ist ferner eine Stichprobe (Daten) x1 , . . . , xN ∈ X (1) aus einer N-maligen unabhängigen Wiederholung des Zufallsexperiments. Frage: Näherungsweise Bestimmung der W’funktion pX von X ? 34 Antwort: Betrachte für x ∈ X die relative Häufigkeit |{` ∈ {1, . . . , N} : x` = x }| N Anzahl Versuche mit Ergebnis x = . N pb(x ) = Bemerkung 1 Für p = pb gelten (2.2.1) und (2.2.2) aus Bem. 2.2.3, so daß Satz 2.2.4 b auf anwendbar ist, siehe auch Satz 2.4.6. Man erhält eine W’verteilung P X, und für A ⊆ X gilt b P(A) = X x ∈A = pb(x ) = |{` ∈ {1, . . . , N} : x` ∈ A}| N Anzahl Versuche mit Ergebnis in A . N Definition 2 b heißt die empirische W’verteilung zur Stichprobe (1). P 35 Stabdiagramm zur graphischen Darstellung (empirischer) W’verteilungen: 1. Fall: nominale Skala Die Elemente von X stehen in keinerlei Beziehung; Zahlen dienen nur der Bezeichnung. Bsp.: Studiengang. 2. Fall: ordinale Skala Die Elemente von X sind in natürlicher Weise angeordnet; Zahlen erlauben nur den Vergleich. Bsp.: höchster Bildungsabschluß. 3. Fall: metrische Skala Die Differenzbildung für die Elemente von X ist sinnvoll. Bsp.: Abverkaufszahlen. Die Elemente von X werden als Ausprägungen des durch X beschriebenen Merkmals bezeichnet. 36 Beispiel 3 Studiengänge der 348 Übungsteilnehmer (Totalerhebung), nominale Skala 37 0.6 relative Häufigkeit 0.5 0.4 0.3 0.2 0.1 0 B B W In g B B B B M B B B B B B D M BW BW In AI Bi So Ma Ch EI MV MK VE ipl. W nf o em T ET Ing T zI t T L L f nf h TQ 38 Beispiel 4 Allgemeiner Schulabschluß (Mikrozensus 2014, Statistisches Bundesamt), im wesentlichen ordinale Skala 39 Beispiel 5 Tagesabverkauf von Speiseeis“ an einem Tag in N = 2165 Märkten, ” metrische Skala 0.06 relative Häufigkeit 0.05 0.04 0.03 0.02 0.01 0 0 20 40 60 80 100 120 140 160 Abverkauf 40 Beispiel 6 Tagesabverkauf von Speiseeis“ an einem anderen Tag in denselben ” N = 2165 Märkten, metrische Skala 0.2 0.18 0.16 relative Häufigkeit 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 10 20 30 40 50 60 70 80 Abverkauf 41 Vergleich der Beispiele 5 und 6 0.2 0.18 0.16 relative Häufigkeit 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 20 40 60 80 100 120 140 160 Abverkauf 42 Bemerkung 7 Den Fall eines Zufallsvektors X = (X1 , . . . , Xn ) : Ω → X mit X ⊆ Rn behandelt man völlig analog. 43 Beispiel 8 Computer-Simulation des 2-maligen unabhängigen Münzwurfs, relative Häufigkeiten, d.h. die Werte von pb, für eine Stichprobe der Größe N = 1000. relative Häufigkeit 0.3 0.25 0.2 (1,1) (1,0) (0,1) (0,0) 44 Bemerkung 9 Das Gegenstück zu Bemerkung 2.4.17: Betrachte den Spezialfall n = 2 und X = {0, . . . , k}2 mit k ∈ N. Setze pbi,j = |{` ∈ {1, . . . , N} : x` = (i, j)}| N sowie pbi,• = |{` ∈ {1, . . . , N} : x`,1 = i}| , N pb•,j = |{` ∈ {1, . . . , N} : x`,2 = j}| N für i, j ∈ {0, . . . , k}. Klar pbi,• = k X j=0 pbi,j und pb•,j = k X pbi,j für alle i, j ∈ {0, . . . , k}. i=0 45 Zugehörige Kontingenztafel X2 X1 pb0,0 ... .. . pb0,k pb0,• .. . .. . pbk,• pbk,0 ... pbk,k pb•,0 ... pb•,k Man vermutet genau dann die Unabhängigkeit von X1 und X2 , wenn pbi,j für alle i, j ∈ {0, . . . , k} nahe bei“ pbi • · pb•,j liegt. ” 46 Beispiel 10 Computer-Simulation des 2-maligen unabhängigen Münzwurfs, Kontingenztafel für eine Stichprobe der Größe N = 1000. X2 0 1 0 0.246 0.276 0.522 1 0.233 0.245 0.478 0.479 0.521 X1 47 Beispiel 11 Computer-Simulation des 2-stufigen Produktionsprozeß, Kontingenztafel für eine Stichprobe der Größe N = 1000. X2 0 1 0 0.112 0.012 0.124 1 0.096 0.780 0.876 0.208 0.792 X1 48 2.6. Wichtige Klassen diskreter Verteilungen Die Binomialverteilung Betrachte die n-fache unabhängige Wiederholung eines Zufallsexperiments mit zwei möglichen Ausgängen: 1 ( Erfolg“) oder 0 ( Mißerfolg“). ” ” Modellierung durch die Parameter n ∈ N und 0 ≤ p ≤ 1 ( Erfolgswahrscheinlichkeit“) ” sowie unabhängige, identisch verteilte Zufallsvariablen X1 , . . . , Xn , so daß P({Xi = 1}) = 1 − P({Xi = 0}) = p für i = 1, . . . , n. Frage: Verteilung der Anzahl der Erfolge? Bsp.: Unfallfreie Fahranfänger innerhalb des ersten Jahres. 49 Setze S = Pn i=1 Xi . Für ω ∈ Ω gilt also S(ω) = |{i ∈ {1, . . . , n} : Xi (ω) = 1}|. Satz 1 Für k = 0, . . . , n gilt ! P({S = k}) = n · p k · (1 − p)n−k . k Definition 2 Eine Zufallsvariable X heißt binomialverteilt mit Parametern n ∈ N und 0 ≤ p ≤ 1, falls ! P({X = k}) = n · p k · (1 − p)n−k k für k = 0, . . . , n. Notation: X ∼ B(n, p). Statistische Problemstellung: Gegeben n und k, schätze p. 50 Beispiel 3 Die W’funktionen von X ∼ B(10, p) mit p = 1/2 und p = 1/4. 0.3 P(fX = kg) P(fX = kg) 0.3 0.15 0.15 0 0 0 2 4 6 k 8 10 0 2 4 6 8 10 k 51 Beispiel 4 Die W’funktionen von X ∼ B(100, p) mit p = 1/2 und p = 1/20. 0.2 P(fX = kg) P(fX = kg) 0.1 0.05 0 0.1 0 0 20 40 60 k 80 100 0 20 40 60 80 100 k 52 Satz 5 Seien X und Y unabhängig mit X ∼ B(n, p) und Y ∼ B(m, p) für m, n ∈ N und 0 ≤ p ≤ 1. Dann gilt X + Y ∼ B(n + m, p). 53 Die Multinomialverteilung Betrachte die n-fache unabhängige Wiederholung eines Zufallsexperiments mit den möglichen Ausgängen 0, . . . , m − 1. Modellierung durch die Parameter n, m ∈ N mit m ≥ 2 und pj ≥ 0 für j = 0, . . . , m − 1 Pm−1 mit j=0 pj = 1 sowie unabhängige, identisch verteilte Zufallsvariablen X1 , . . . , Xn , so daß P({Xi = j}) = pj für i = 1, . . . , n und j = 0, . . . , m − 1. Frage: Verteilung der absoluten Häufigkeiten für jeden der Ausgänge? Bsp.: Fahranfänger mit 0, 1, 2 oder mehr als 2 Unfällen innerhalb des ersten Jahres. 54 Setze Sj (ω) = |{i ∈ {1, . . . , n} : Xi (ω) = j}| für ω ∈ Ω und j = 0, . . . , m − 1 sowie S = (S0 , . . . , Sm−1 ). Bemerkung 6 Für j = 0, . . . , m − 1 gilt Sj ∼ B(n, pj ). Die Zufallsvariablen S0 , . . . , Sm−1 sind i.A. nicht unabhängig. Satz 7 Für k = (k0 , . . . , km−1 ) ∈ Nm 0 mit P({S = k}) = Pm−1 j=0 kj = n gilt n! km−1 · p k0 · · · pm−1 . k0 ! · · · km−1 ! 0 55 Definition 8 Eine Zufallsvariable X heißt multinomialverteilt mit Parametern n und p0 , . . . , pm−1 wie oben, falls P({X = k}) = n! km−1 · p0k0 · · · pm−1 k0 ! · · · km−1 ! für alle k wie oben. Notation: X ∼ M(n, p0 , . . . , pm−1 ). 56 Die hypergeometrische Verteilung Betrachte eine Stichprobe vom Umfang n aus einer Menge mit K Elementen vom Typ defekt“ und N − K Elementen vom Type intakt“. ” ” Modellierung durch die Parameter N, K , n ∈ N mit n ≤ N und K ≤ N sowie die Gleichverteilung P auf Ω = {ω ⊆ {1, . . . , N} : |ω| = n}. Frage: Verteilung der Anzahl der defekten Elemente in der Stichprobe? Bsp.: Qualitätskontrolle. Bemerkung 9 Satz 6.5 sichert ! |Ω| = N . n 57 Setze X (ω) = |ω ∩ {1, . . . , K }| für ω ∈ Ω, d.h. ω ⊆ {1, . . . , N} mit |ω| = n. Satz 10 Für k ∈ N0 mit n − N + K ≤ k ≤ min(n, K ) (1) gilt P({X = k}) = K k · N−K n−k . N n (2) Definition 11 Eine Zufallsvariable X heißt hypergeometrisch verteilt mit Parametern N, K , n ∈ N wie oben, falls (2) für alle k ∈ N0 mit (1) gilt. Notation: X ∼ H(N, K , n). 58 Statistische Problemstellungen: Gegeben N, n und k, schätze K . Gegeben K , n und k, schätze N. Beispiel 12 Die W’funktion von X ∼ H(100, 20, 10). P(fX = kg) 0.4 0.2 0 0 2 4 6 8 10 k 59 Die W’funktionen von X ∼ H(100, 20, 10) (blau) und Y ∼ B(10, 1/5) (orange). P(fX = kg), P(fY = kg) 0.4 0.2 0 0 2 4 6 8 10 k 60 Satz 13 Seien XN ∼ H(N, KN , n) für N ∈ N, so daß KN ∈ ]0, 1[ . N→∞ N lim Dann gilt ! lim P({XN = k}) = N→∞ n · p k · (1 − p)n−k k für alle k ∈ {0, . . . , n}, wobei p = limN→∞ KN N . 61 Die Poisson-Verteilung Bemerkung 14 Für alle konvergenten Folgen λ1 , λ2 , . . . ∈ R und λ = limn→∞ λn gilt lim n→∞ 1+ λn n n = exp(λ). Satz 15 (Poissonscher Grenzwertsatz) Seien Xn ∼ B(n, pn ) für n ∈ N, so daß lim n · pn ∈ ]0, ∞[ . n→∞ Dann gilt lim P({Xn = k}) = exp(−λ) · n→∞ λk k! für alle k ∈ N0 , wobei λ = limn→∞ n · pn . 62 Bemerkung 16 Für alle λ ∈ R gilt ∞ X λk k=0 k! = exp(λ). Definition 17 Eine Zufallsvariable X heißt Poisson-verteilt mit Parameter λ > 0, falls P({X = k}) = exp(−λ) · λk k! für alle k ∈ N0 . Notation: X ∼ Poi(λ). Bsp.: Anzahl Anrufe in einem Call-Center an einem Tag. 63 Beispiel 18 Die W’funktionen von X ∼ Poi(λ) mit λ = 1/2 (orange) und λ = 7/2 (blau). 0.7 0.6 P(fX = kg) 0.5 0.4 0.3 0.2 0.1 0 0 2 4 6 8 10 k 64 Die W’funktionen von X ∼ B(50, 1/10) (blau) und Y ∼ Poi(5) (orange). P(fX = kg), P(fY = kg) 0.2 0.1 0 0 5 10 15 k 65 Die geometrische Verteilung Betrachte die n-fache unabhängige Wiederholung eines Zufallsexperiments mit zwei möglichen Ausgängen: 1 ( Erfolg“) oder 0 ( Mißerfolg“). ” ” Modellierung durch die Parameter n ∈ N und 0 < p ≤ 1 ( Erfolgswahrscheinlichkeit“) ” sowie unabhängige, identisch verteilte Zufallsvariablen X1 , . . . , Xn , so daß P({Xi = 1}) = 1 − P({Xi = 0}) = p für i = 1, . . . , n. Frage: Verteilung des Zeitpunktes des ersten Erfolgs? Bsp.: Wartezeit (diskret) bis zum Eintreten eines Ereignisses“. ” 66 Sei ω ∈ Ω. Setze Tn (ω) = k ∈ {1, . . . , n}, falls X1 (ω) = · · · = Xk−1 (ω) = 0 und Xk (ω) = 1, und Tn (ω) = 0, falls X1 (ω) = · · · = Xn (ω) = 0. Bemerkung 19 Für n ∈ N P({Tn = k}) = (1 − p)k−1 · p, falls k = 1, . . . , n, und P({Tn = 0}) = (1 − p)n . Insbesondere limn→∞ P({Tn = 0}) = 0. 67 Bemerkung 20 Für 0 < p ≤ 1 gilt ∞ X (1 − p)k−1 = k=1 1 . p Definition 21 Eine Zufallsvariable X heißt geometrisch verteilt mit Parameter 0 < p ≤ 1, falls P({X = k}) = (1 − p)k−1 · p für alle k ∈ N. Notation: X ∼ Geo(p). 68 2.7. Erwartungswert und Varianz Betrachte eine Zufallsvariable X auf einem diskreten W’raum (Ω, P). Der Erwartungswert von X wird als gewichtetes Mittel der Funktionswerte von X definiert. Definition 1 Falls die Reihe P ω∈Ω P({ω}) · |X (ω)| konvergiert, heißt E(X ) = X X (ω) · P({ω}) ω∈Ω der Erwartungswert von X . Bemerkung 2 Ist Ω endlich, so ist die Voraussetzung in Definition 1 für alle X erfüllt. Andernfalls setzen wir fortan stillschweigend die erforderliche Konvergenz voraus. 69 Beispiel 3 Sei Ω endlich, und sei P die Gleichverteilung auf Ω. Dann gilt E(X ) = 1 X · X (ω). |Ω| ω∈Ω Speziell für Ω = {0, . . . , 36} und ( X (ω) = 1, −1, falls ω ungerade, falls ω gerade, (Roulette, einfache Chance) ergibt sich E(X ) = − 1 . 37 Beispiel 4 Ist X konstant gleich b, gilt E(X ) = b · P ω∈Ω P({ω}) = b. 70 Frage: Wie verhalten sich Erwartungswerte unter affin-linearen Transformationen? Bsp.: Wechsel zwischen den Temperaturskalen Celsius“ und Fahrenheit“. ” ” Betrachte allgemeiner Zufallsvariablen X und Y auf (Ω, P). Satz 5 (Rechenregeln) Es gilt E(X + Y ) = E(X ) + E(Y ) und E(c · X ) = c · E(X ) für alle c ∈ R. Falls X (ω) ≤ Y (ω) für alle ω ∈ Ω, so gilt E(X ) ≤ E(Y ). 71 Im Folgenden sei X ⊆ R endlich oder abzählbar unendlich, so daß X (ω) ∈ X für alle ω ∈ Ω. Satz 6 (Erwartungswert und Verteilung) Für jede Funktion g : R → R gilt E(g(X )) = X g(x ) · pX (x ). x ∈X Insbesondere hängt der Erwartungswert einer Zufallsvariable nur von ihrer Verteilung ab. Bemerkung 7 Obiger Satz erlaubt es vom Erwartungswert einer Verteilung zu sprechen. 72 Satz 8 (Erwartungswerte spezieller Verteilungen) Falls X ∼ B(n, p) mit n ∈ N und 0 ≤ p ≤ 1, gilt E(X ) = n · p. Falls X ∼ H(N, K , n) mit N, K , n ∈ N und n ≤ N sowie K ≤ N, gilt E(X ) = n·K . N Falls X ∼ Poi(λ) mit λ > 0, gilt E(X ) = λ. Falls X ∼ Geo(p) mit 0 < p ≤ 1, gilt E(X ) = 1 . p 73 Satz 9 (Produkte unabhängiger Zufallsvariablen) Falls X und Y unabhängig sind, gilt E(X · Y ) = E(X ) · E(Y ). 74 Die Varianz von X wird als mittlere quadratische Abweichung zwischen X und E(X ) definiert. Beachte auch hier Bemerkung 2. Definition 10 Die Varianz und die Standardabweichung von X sind definiert als σX2 = Var(X ) = E bzw. σX = q X − E(X ) 2 Var(X ). Bemerkung 11 Satz 6 mit g(x ) = (x − E(X ))2 zeigt Var(X ) = X (x − E(X ))2 · pX (x ). x ∈X Insbesondere hängt die Varianz einer Zufallsvariable nur von ihrer Verteilung ab, so daß man von der Varianz einer Verteilung sprechen kann. 75 Beispiel 12 Für X ∼ B(1, p) mit 0 ≤ p ≤ 1 gilt Var(X ) = (0 − p)2 · P({X = 0}) + (1 − p)2 · P({X = 1}) = p 2 · (1 − p) + (1 − p)2 · p = p · (1 − p). Somit ist Var(X ) maximal für p = 1/2 und minimal für p = 0 und p = 1. Satz 13 (Rechenregeln) Es gilt 2 Var(X ) = E X 2 − E(X ) . Für a, b ∈ R gilt Var(X + a) = Var(X ) und Var(b · X ) = b 2 · Var(X ). Satz 14 (Summen unabhängiger Zufallsvariablen) Falls X und Y unabhängig sind, gilt Var(X + Y ) = Var(X ) + Var(Y ). 76 Satz 15 (Varianzen spezieller Verteilungen) Falls X ∼ B(n, p) mit n ∈ N und 0 ≤ p ≤ 1, gilt Var(X ) = n · p · (1 − p). Falls X ∼ H(N, K , n) mit N, K , n ∈ N und n ≤ N, K ≤ N sowie N ≥ 2, gilt n · (N − n) · (N − K ) · K Var(X ) = . N 2 · (N − 1) Falls X ∼ Poi(λ) mit λ > 0, gilt Var(X ) = λ. Falls X ∼ Geo(p) mit 0 < p ≤ 1, gilt Var(X ) = 1−p . p2 77 Betrachte wie in Abschnitt 2.5 eine Stichprobe x1 , . . . , xN ∈ X mit den zugehörigen relativen Häufigkeiten pb(x ) für x ∈ X. Definition 16 Das Stichprobenmittel x (arithmetisches Mittel der Stichprobe, empirisches Mittel) ist definiert als N 1 X x= · xi . N i=1 Bemerkung 17 Es gilt x= X 1 X · x · |{` ∈ {1, . . . , N} : x` = x }| = x · pb(x ). N x ∈X x ∈X Somit ist x der Erwartungswert der zugehörigen empirischen W’verteilung. 78 Beispiel 18 Die Stichprobenmittel in den Beispielen 2.5.5 (blau) und 2.5.6 (orange) sind x ≈ 30.62 bzw. x ≈ 11.83. 0.2 0.18 relative HBau-gkeit 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 x 7 20 x 7 40 60 80 100 120 140 160 Abverkauf 79 Gelte N ≥ 2 für den Umfang der Stichprobe. Definition 19 Die Stichprobenvarianz (empirische Varianz) und die empirische Standardabweichung sind definiert als s2 = N X 1 · (xi − x )2 N−1 i=1 bzw. √ s= s 2. Bemerkung 20 Es gilt N X 1 s = xi2 − N · x 2 . · N −1 i=1 ! 2 Ferner ist (N − 1)/N · s 2 die Varianz der zugehörigen emp. W’verteilung. 80 Beispiel 21 Die empirischen Standardabweichungen in den Beispielen 2.5.5 (blau) und 2.5.6 (orange) sind s ≈ 23.5 bzw. s ≈ 11.6. 0.2 0.18 relative HBau-gkeit 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 -40 -20 0 20 40 60 80 100 120 140 Abverkauf - empirisches Mittel 81 3. Allgemeine Modelle Bislang studiert: W’räume (Ω, P) und Zufallsvariablen X : Ω → X, wobei Ω und X ⊆ R endlich oder abzählbar unendlich sind. Im Folgenden: keinerlei Einschränkungen an Ω und X. Dann ist es i.A. nicht mehr möglich allen Teilmengen A ⊆ Ω eine W’keit P(A) zuzuordnen, und insbesondere nicht für alle Teilmengen A ⊆ R die W’keiten P({X ∈ A}) zu definieren. Wir ignorieren dies, da die betroffenen Teilmengen für unsere Zwecke belanglos sind. 82 3.1. Stetige Verteilungen Grundidee: Integration statt Summation. Definition 1 f : R → R heißt W’dichte, falls f (x ) ≥ 0 und für alle x ∈ R Z ∞ f (x ) dx = 1. −∞ Beispiel 2 Für a < b definiert ( f (x ) = eine W’dichte. 1 b−a , 0, falls x ∈ [a, b], sonst, 83 Beispiel 3 Für λ > 0 definiert ( f (x ) = λ · exp(−λ · x ), 0, falls x ≥ 0, sonst, eine W’dichte. Die W’dichten f für λ = 2 (grün), λ = 1 (blau) und λ = 1/2 (orange). 2 f (x) 1.5 1 0.5 0 -1 0 1 2 3 x 4 5 6 84 Beispiel 4 Für µ ∈ R und σ > 0 definiert (x − µ)2 f (x ) = √ · exp − 2σ 2 2πσ 2 1 ! eine W’dichte. Die W’dichten f für µ = 0 und σ = 2 (grün), σ = 1 (blau) sowie σ = 1/2 1 (orange). 0.9 0.8 0.7 f (x) 0.6 0.5 0.4 0.3 0.2 0.1 0 -5 -4 -3 -2 -1 0 1 2 3 4 5 x 85 Im Folgenden seien (Ω, P) ein W’raum und X : Ω → R eine Zufallsvariable. Definition 5 (vgl. Satz 2.4.6) X heißt stetig verteilt, falls eine W’dichte fX existiert, so daß P({X ∈ A}) = Z A fX (x ) dx für alle“ A ⊆ R. ” Ggf. heißt fX die Dichte von X . Bemerkung 6 Zu den hier und im Folgenden betrachteten Mengen A gehören insbesondere alle Intervalle und deren Komplemente. Bemerkung 7 Sei X stetig verteilt. Dann gilt P({X = x }) = 0 für alle x ∈ R. 86 Definition 8 X mit Dichte f = fX gemäß Beispiel 2 heißt gleichverteilt auf [a, b]. Notation: X ∼ U(a, b). Beispiel 3 heißt exponentialverteilt mit Parameter λ. Notation: X ∼ Exp(λ). Beispiel 4 heißt normalverteilt mit Parametern µ und σ 2 . Notation: X ∼ N(µ, σ 2 ). Im Fall µ = 0 und σ = 1 heißt X standard-normalverteilt. 87 Bemerkung 9 Gelte X ∼ Exp(λ) mit λ > 0, und seien s, t ≥ 0. Dann P({X ≥ t}) = Z ∞ t λ · exp(−λx ) dx = − exp(−λ · x )|xx =∞ =t = exp(−λ · t). Somit gilt die Gedächtnislosigkeit“ ” P({X ≥ s + t} | {X ≥ t}) = P({X ≥ s + t}) = P({X ≥ s}). P({X ≥ t} Anwendung: Modellierung von Wartezeiten oder Lebensdauern. 88 Bemerkung 10 Sei Z =σ·X +µ mit µ ∈ R, σ > 0 und X ∼ N(0, 1). Die Substitutionsregel für Integrale sichert ! Z 1 (x − µ)2 P({Z ∈ A}) = √ · exp − dx 2σ 2 2πσ 2 A für alle“ A ⊆ R. Fazit: Z ∼ N(µ, σ 2 ). ” 89 Im Folgenden sei X stetig verteilt mit Dichte fX . Definition 11 (vgl. Satz 2.7.6 u. Bem. 2.7.11) Falls das Integral R∞ −∞ |x | · fX (x ) dx existiert, heißt Z ∞ E(X ) = −∞ x · fX (x ) dx der Erwartungswert von X . Falls das Integral R∞ −∞ x 2 · fX (x ) dx existiert, heißen σX2 = Var(X ) = Z ∞ −∞ die Varianz und σX = (x − E(X ))2 · fX (x ) dx q Var(X ) die Standardabweichung von X . Bemerkung 12 Wir setzen fortan stillschweigend die erforderliche Integrierbarkeit voraus. 90 Satz 13 (Erwartungswerte und Varianzen spezieller Verteilungen) Falls X ∼ U(a, b) mit a < b, gilt E(X ) = a+b , 2 Var(X ) = (b − a)2 . 12 Falls X ∼ Exp(λ) mit λ > 0, gilt E(X ) = 1 , λ Var(X ) = 1 . λ2 Falls X ∼ N(µ, σ 2 ) mit µ ∈ R und σ > 0, gilt E(X ) = µ, Var(X ) = σ 2 . Bemerkung 14 Die Sätze 2.7.5 und 2.7.9 über Erwartungswerte sowie 2.7.13 und 2.7.14 über Varianzen gelten auch für stetig verteilte Zufallsvariablen. 91 3.2. Allgemeine Begriffsbildung Im Folgenden seien (Ω, P) ein W’raum und X : Ω → R eine Zufallsvariable. Satz 1 (vgl. Satz 2.4.6) Durch PX (A) = P({X ∈ A}) für alle“ A ⊆ R ” wird eine W’verteilung PX auf R definiert. Definition 2 (vgl. Def. 2.4.7) PX wie oben heißt die Verteilung von X . Definition 3 X heißt diskret verteilt, falls eine endliche oder abzählbar unendliche Menge X ⊆ R existiert, so daß PX (X) = 1. 92 Definition 4 (vgl. Def. 2.4.9) Zufallsvariablen X1 , X2 : Ω → R heißen identisch verteilt, falls PX1 (A) = PX2 (A) für alle“ A ⊆ R. ” Bemerkung 5 Satz 2.4.11 gilt nicht für beliebige Zufallsvariablen X1 , X2 : Ω → R. Definition 6 (vgl. Def. 2.4.14) Zufallsvariablen X1 , . . . , Xn : Ω → R heißen unabhängig, falls für alle“ ” A1 , . . . , An ⊆ R P n \ ! {Xi ∈ Ai } i=1 = n Y P({Xi ∈ Ai }). i=1 Bemerkung 7 Satz 2.4.16 gilt nicht für beliebige Zufallsvariablen X1 , . . . , Xn : Ω → R. 93 3.3. Verteilungsfunktionen und Quantile Im Folgenden seien (Ω, P) ein W’raum und X , Y : Ω → R Zufallsvariablen. Definition 1 Die durch FX (x ) = P({X ≤ x }) definierte Funktion FX : R → R heißt die Verteilungsfunktion von X . Bemerkung 2 Für x ∈ R gilt P({X > x }) = 1 − P({X ≤ x }) = 1 − FX (x ). Für u, v ∈ R mit u < v gilt P({X ∈ ]u, v ]}) = P({X ≤ v } \ {X ≤ u}) = FX (v ) − FX (u). Satz 3 (Eindeutigkeitssatz) Aus FX = FY folgt PX = PY . 94 Satz 4 Sei Z = c · X + d mit c > 0 und d ∈ R. Dann folgt für alle x ∈ R FZ (x ) = FX ((x − d)/c)). Wir betrachten zunächst stetig verteilte Zufallsvariablen. Satz 5 Ist X stetig verteilt mit Dichte fX , so gilt für alle x ∈ R Z x FX (x ) = −∞ fX (y ) dy , und FX ist stetig. Ist fX überdies stetig in x , so sichert der Hauptsatz der Differential- und Integralrechnung FX0 (x ) = fX (x ). 95 Beispiel 6 Seien a, b ∈ R mit a < b. Für Y ∼ U(a, b) gilt FY (x ) = 0, x − a b−a 1, falls x < a, , falls a ≤ x ≤ b, falls x > b. Für X ∼ U(0, 1) und Z = (b − a) · X + a folgt Z ∼ U(a, b), siehe Sätze 3 und 4. 96 Beispiel 7 Für Y ∼ Exp(λ) mit λ > 0 gilt ( FY (x ) = 0, falls x < 0, 1 − exp(−λ · x ), falls x ≥ 0. W’dichten und Verteilungsfunktionen für λ = 2 (grün), λ = 1 (blau) und λ = 1/2 (orange). 2 1 0.9 0.8 1.5 FY (x) fY (x) 0.7 1 0.6 0.5 0.4 0.3 0.5 0.2 0.1 0 -1 0 0 1 2 3 x 4 5 6 -1 0 1 2 3 4 5 6 x Für X ∼ Exp(1) und Z = 1/λ · X gilt Z ∼ Exp(λ), siehe Sätze 3 und 4. 97 Bemerkung 8 Die Verteilungsfunktion von X ∼ N(0, 1) wird mit Φ bezeichnet; für x ∈ R gilt also Z x 1 Φ(x ) = √ · exp(−y 2 /2) dy . 2π −∞ Für x ∈ R folgt Φ(−x ) = 1 − Φ(x ). 0.5 1 0.45 ?(x) 0.4 0.35 ?(y) f (y) 0.3 0.25 0.5 0.2 0.15 0.1 ?(!x) 0.05 0 0 -5 !x 0 y x 5 -5 !x 0 y x 5 Es gibt keine explizite Darstellung von Φ. Funktionswerte Φ(x ) werden numerisch bestimmt und sind für x ≥ 0 tabelliert. 98 Verteilungsfunktion der Standardnormalverteilung Φ( x) = x ∫ −∞ 1 2π e −1 z2 2 dz 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 99 Für die Verteilungsfunktion FZ von Z ∼ N(µ, σ 2 ) mit µ ∈ R und σ > 0 gilt FZ (x ) = Φ x −µ σ für x ∈ R, siehe Bemerkung 3.1.10 und Satz 4. W’dichten und Verteilungsfunktionen für µ = 0 und σ = 2 (grün), σ = 1 (blau) sowie σ = 1/2 (orange). 1 1 0.9 0.9 0.8 0.8 0.7 0.7 FZ (x) fZ (x) 0.6 0.5 0.4 0.6 0.5 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 -5 0 -4 -3 -2 -1 0 x 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 x 100 Wir betrachten nun eine diskret verteilte Zufallsvariable X . Der Einfachheit halber gelte PX (N0 ) = 1. Satz 9 Es gilt pX (0) = FX (0) sowie pX (k) = FX (k) − FX (k − 1) und FX (x ) = k X pX (i) i=0 für alle k ∈ N und x ∈ [k, k + 1[. 101 Beispiel 10 W’funktion und Verteilungsfunktion für X ∼ B(6, 1/2). 0.35 1 0.9 0.3 0.8 0.7 0.2 FX (x) P(fX = kg) 0.25 0.15 0.6 0.5 0.4 0.3 0.1 0.2 0.05 0.1 0 0 0 1 2 3 k 4 5 6 0 1 2 3 4 5 6 x 102 Beispiel 11 W’funktion und Verteilungsfunktion für X ∼ Poi(7/2). 0.3 1 0.9 0.7 FX (x) P(fX = kg) 0.8 0.15 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0 2 4 6 k 8 10 0 2 4 6 8 10 x 103 Gegeben: Verteilungsfunktion FX und p ∈ ]0, 1[. Gesucht: q ∈ R mit FX (q) = p. (1) Beispiel 12 Sei X ∼ Exp(λ) mit λ > 0. Für jedes p ∈ ]0, 1[ existiert genau ein q ∈ R mit (1), nämlich 1 q = − · ln(1 − p). λ Speziell für λ = 1 und p = 3/4 gilt q = ln(4) ≈ 1.3863. 1 FX (x) p 0.5 0 0 1 q 2 3 4 5 6 x 104 Beispiel 13 Sei X ∼ B(2, 1/2). Für p = 1/4 und für p = 3/4 existieren jeweils unendlich viele q ∈ R mit FX (q) = p. 1 FX (x) 0.75 0.5 0.25 0 -1 -0.5 0 0.5 1 1.5 2 2.5 3 x Für p ∈ ]0, 1[ \ {1/4, 3/4} existiert kein q ∈ R mit FX (q) = p. 105 Definition 14 Das p-Quantil q von FX (bzw. PX oder X ) ist definiert als q = min{x ∈ R : FX (x ) ≥ p}. Das p-Quantil mit p = 1/2 heißt Median von FX (bzw. PX oder X ). Notation: m(X ). Beispiel 15 Sei X ∼ Exp(λ) mit λ > 0. Dann ist das p-Quantil von FX gegeben als q= − 1 · ln(1 − p). λ Beispiel 16 Sei X ∼ B(2, 1/2). Dann ist das p-Quantil von FX gegeben als q= 0, 1, 2, falls 0 < p ≤ 1/4, falls 1/4 < p ≤ 3/4, falls 3/4 < p < 1. 106 Satz 17 Für das p-Quantil q von X gilt P({X ≤ q}) ≥ p und P({X ≥ q}) ≥ 1 − p. Ferner gilt |E(X ) − m(X )| ≤ σX . 107 Betrachte wie in Abschnitt 2.5 eine Stichprobe x1 , . . . , xn ∈ R. Definition 18 Die empirische Verteilungsfunktion Fb : R → R ist definiert durch Fb (x ) = |{` ∈ {1, . . . , n} : x` ≤ x }| . n Bemerkung 19 Die empirische Verteilungsfunktion ist die Verteilungsfunktion der b empirischen W’verteilung P. Die angeordneten Daten x(1) ≤ · · · ≤ x(n) der Stichprobe erlauben die einfache Berechnung der relativen Häufigkeiten pb(x ) und damit auch von Fb (x ) und zugehörigen Quantilen. 108 Beispiel 20 Tagesabverkauf von Speiseeis“ an zwei Tagen in denselben n = 2165 ” Märkten. Empirische Wahrscheinlichkeits- und Verteilungsfunktionen. 0.2 1 0.18 0.9 0.16 empirische Verteilungsfunktion 0.8 relative Häufigkeit 0.14 0.12 0.1 0.08 0.06 0.04 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.02 0 0 0 20 40 60 80 Abverkauf 100 120 140 160 0 20 40 60 80 Abverkauf 100 120 140 160 Die (empirischen) Mediane sind x̃ = 26 bzw. x̃ = 8. Zum Vergleich die Stichprobenmittel x ≈ 30.62 bzw. x ≈ 11.83. Die (empirischen) 0.95-Quantile sind x̃ = 74 bzw. x̃ = 34. 109 Bemerkung 21 Betrachte das Stichprobenmittel x und den empirischen Median ( x̃ = x((n+1)/2) , falls n ungerade, x(n/2) , falls n gerade. Frage: Wieviel Werte x` muß man mindestens ändern, damit x bzw. x̃ jeden beliebigen Wert annehmen kann? Antwort: Für x genügt ein Wert. Aus |{` ∈ {1, . . . , n} : a ≤ x` ≤ b}| > 1/2 n folgt x̃ ∈ [a, b], siehe Satz 17. Für x̃ benötigt man also mindestens die Hälfte aller Werte. Damit ist x̃ gegenüber Ausreißern viel robuster als x . 110 3.4. Grenzwertsätze Betrachte Zufallsvariablen X1 , X2 , . . . auf einem W’raum (Ω, P). Definition 1 X1 , X2 , . . . heißen unabhängig, falls X1 , . . . , Xn für jedes n ∈ N unabhängig sind. Im Folgenden seien X1 , X2 , . . . unabhängig und identisch verteilt (u.i.v., i.i.d.) mit existierendem Erwartungswert E(X1 ). Betrachte das arithmetische Mittel Xn = n 1 X · Xi . n i=1 Beispiel 2 X n mittlere Lebensdauer, falls X1 ∼ Exp(λ). X n relative Anzahl von Erfolgen, falls X1 ∼ B(1, p). 111 Frage: Konvergiert für alle ω ∈ Ω die Folge der arithmetischen Mittel X 1 (ω), X 2 (ω), . . .? Beispiel 3 Computer-Simulation mit X1 ∼ Exp(2). n 1 2 3 Xn (ω) 0.3410 0.9477 0.4283 X n (ω) 0.3410 0.6444 0.5732 10 100 1000 0.4982 0.4716 0.5027 X n (!) 0.75 0.5 0.25 0 200 400 600 n 800 1000 112 Satz 4 (Starkes Gesetz der großen Zahlen für Erwartungswerte) Für die Menge K ⊆ Ω aller ω ∈ Ω mit n 1 X · Xi (ω) = E(X1 ) n→∞ n i=1 lim gilt P(K ) = 1. P Sprechweise: n1 · ni=1 Xi konvergiert mit W’keit eins gegen E(X1 )“. ” 113 Für B ⊆ R und i ∈ N betrachten wir die Indikatorvariable ( 1, falls Xi ∈ B, 0, falls Xi 6∈ B. 1B (Xi ) = Bemerkung 5 Für alle“ B ⊆ R ist die Folge 1B (X1 ), 1B (X2 ), . . . unabhängig und ” identisch verteilt mit 1B (X1 ) ∼ B(1, p), wobei p = P({X1 ∈ B}). Insbesondere gilt E(1B (X1 )) = p. Satz 6 (Starkes Gesetz der großen Zahlen für W’keiten) Für alle“ B ⊆ R konvergiert ” 1 n · Pn i=1 1B (Xi ) mit W’keit eins gegen p. 114 Beispiel 7 Computer-Simulation mit X1 ∼ Exp(2) und B = [1, ∞[. p 1 n Pn i=1 1B (Xi (!)) 0.2 0 0 200 400 600 800 1000 n Es gilt p ≈ 0.1353. 115 Bemerkung 8 Betrachte die empirische Verteilungsfunktion Fbn (·, ω) : R → R zu den Realisierungen X1 (ω), . . . , Xn (ω). Für x ∈ R und B = ]−∞, x ] gilt n 1 X |{i ∈ {1, . . . , n} : Xi (ω) ≤ x }| = · 1B (Xi (ω)). Fbn (x , ω) = n n i=1 Satz 9 (Starkes Gesetz der großen Zahlen für Verteilungsfunktionen) Für alle x ∈ R konvergiert Fbn (x , ·) mit W’keit eins gegen FX1 (x ). Bemerkung 10 Es gilt sogar mit W’keit eins die gleichmäßige Konvergenz (Hauptsatz der Statistik). 116 Beispiel 11 Computer-Simulation mit X ∼ Exp(2) für n = 50 (orange) und n = 100 (grün). Verteilungsfunktion FX in blau. 1 0.9 0.8 F^n (x; !) 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.5 0 0.5 1 1.5 2 2.5 3 x 117 Das starke Gesetz der großen Zahlen behandelt die Konvergenz von Ergebnissen von Zufallsexperimenten. Wie in den Sätzen 2.6.13 und 2.6.15 untersuchen wir nun die Konvergenz von Wahrscheinlichkeiten in stochastischen Modellen. 118 Im Folgenden setzen wir die Existenz der Varianz von X1 voraus und nehmen σX2 1 > 0 an. Setze µ = E(X1 ) und σ = σX1 . Betrachte die standardisierten Summenvariablen √ n X Xi − µ n ∗ √ Xn = = · Xn − µ . n·σ σ i=1 Bemerkung 12 Sei Yi,n = Xi −µ √ . n·σ 2 Für alle n ∈ N gilt Y1,n , . . . , Yn,n sind unabhängig und identisch verteilt, E(Yi,n ) = 0 und Var(Yi,n ) = 1/n. Es folgt ∗ E(X n ) = 0 und ∗ Var(X n ) = 1. Beachte X n − µ konvergiert mit W’keit eins gegen null, √ aber limn→∞ n/σ = ∞. 119 Frage: Konvergiert für alle“ A ⊆ R die Folge der Wahrscheinlichkeiten ” ∗ ∗ P({X 1 ∈ A}), P({X 2 ∈ A}), . . .? Beispiel 13 Für X1 ∼ Exp(2) und A = [1, 2] n ∗ P({X n ∈ A}) 1 2 3 10 100 1000 0.0855 0.0986 0.1049 0.1185 0.1304 0.1342 Für X1 ∼ B(1, 1/10) und A = [1, 2] n ∗ P({X n ∈ A}) 1 2 3 10 100 1000 0.0000 0.0000 0.0000 0.3487 0.1093 0.1351 120 Satz 14 (Zentraler Grenzwertsatz) Für jedes Intervall A ⊆ R gilt 1 ∗ lim P({X n ∈ A}) = √ · n→∞ 2π Z exp(−x 2 /2) dx . A Insbesondere gilt für alle x ∈ R ∗ lim P({X n ≤ x }) = Φ(x ). n→∞ Sprechweisen: ∗ X n ist asymptotisch standardnormalverteilt, X n ist asymptotisch N(µ, σ 2 /n)-verteilt, Pn i=1 Xi ist asymptotisch N(n · µ, n · σ 2 )-verteilt. 121 Beispiel 15 ∗ Dichten und Verteilungsfunktionen von X n für X1 ∼ Exp(2). 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 n FX $ (x) n fX $ (x) n=1 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 122 n=2 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 123 n=3 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 124 n=4 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 125 n=5 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 126 n=6 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 127 n=7 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 128 n=8 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 129 n=9 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 130 n = 10 0.6 1 0.9 0.5 0.8 0.7 0.4 n FX $ (x) n fX $ (x) 0.6 0.3 0.5 0.4 0.2 0.3 0.2 0.1 0.1 0 -5 0 x 5 0 -5 0 5 x 131 Beispiel 16 (vgl. Übung 5.2) Gegeben: K ∈ N und 0 < p, α < 1. Gelte X1 ∼ B(1, p). Gesucht: n > K , so daß n X P Xi > K ≈ α. i=1 Es gilt nP n i=1 Xi > K o ∗ = X n > cn ( Standardisieren“) mit ” q cn = (K − n · p)/ n · p · (1 − p). Der zentrale Grenzwertsatz zeigt P X n Xi > K ≈ 1 − Φ(cn ). i=1 Fazit: Wähle n > K , so daß 1 − Φ(cn ) ≈ α, d.h. cn ≈ Φ−1 (1 − α). 132 Für K = 555, p = 0.98 und α = 0.01 ergibt sich cn ≈ 2.33 und n ≈ 558. Hiermit gilt E max n X i=1 Xi − K , 0 ≤3·P n nX Xi > K o ≈ 0.03. i=1 133 Beispiel 17 Standardisierter Prognosefehler für Bananen“, Stichprobengröße ” n = 116435 0.025 relative Häufigkeit 0.02 0.015 0.01 0.005 0 -4 -3 -2 -1 0 1 standardisierter Prognosefehler 2 3 4 134 Anwendung stochastisches Modell Zufallsexperiment Zufallsvariable X auf W’raum (Ω, P) n unabhängige Wiederholungen des Zufallsexperimentes X1 , . . . , Xn unabhängig, PX = PX1 = · · · = PXn Daten x1 , . . . , xn Realisierung X1 (ω), . . . , Xn (ω) relative Häufigkeit 1 n · |{i ∈ {1, . . . , n} : xi ∈ A}| Wahrscheinlichkeit P({X ∈ A}) empirisches Mittel 1 n Pn i=1 xi emp. Verteilungsfunktion 1 n · |{i ∈ {1, . . . , n} : xi ≤ x }| Erwartungswert E(X ) Verteilungsfunktion FX (x ) 135 4. Schätzung von Verteilungsparametern Betrachte ein Zufallsexperiment, beschrieben durch eine Zufallsvariable X : Ω → R, deren Verteilung PX = PXϑ nur bis auf einen Parameter ϑ ∈ Θ bekannt ist. Bestimme die Verteilung PX , d.h. den unbekannten Parameter ϑ. Verfügbar ist eine Stichprobe x1 , . . . , xn ∈ R, die als Realisierung von unabhängigen, identisch wie X verteilten Zufallsvariablen X1 , . . . , Xn angesehen wird. 136 Beispiel 1 X ∼ B(m, p) mit bekanntem m ∈ N und mit p = ϑ ∈ Θ = [0, 1]. Beachte, daß ϑ= 1 · E(X ). m Beispiel 2 X ∼ H(N, K , m) mit bekannten N ∈ N und m ∈ {1, . . . , N} und mit K = ϑ ∈ Θ = {0, . . . , N}. Beachte, daß ϑ= N · E(X ). m 137 Beispiel 3 X ∼ Poi(λ) mit λ = ϑ ∈ Θ = ]0, ∞[ . Beachte, daß ϑ = E(X ). Beispiel 4 X ∼ Exp(λ) mit λ = ϑ ∈ Θ = ]0, ∞[ . Beachte, daß ϑ= 1 . E(X ) Bemerkung 5 In obigen Beispielen ist im wesentlichen E(X ) zu bestimmen. 138 Beispiel 6 X ∼ N(µ, σ 2 ) mit bekanntem σ > 0 und mit µ = ϑ ∈ Θ = R. Beachte, daß ϑ = E(X ). Beispiel 7 X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ . Beachte, daß ϑ = E(X ), q Var(X ) . 139 4.1. Punktschätzung Notation: Eϑ Erwartungswert und Varϑ Varianz, falls PX = PXϑ . Problemstellung: Schätzung des Erwartungswertes oder der Varianz Eϑ (X ) bzw. Varϑ (X ). Allgemein: Schätzung von γ(ϑ) mit einer bekannten Funktion γ : Θ → R. Definition 1 Eine Funktion gn : Rn → R heißt Schätzfunktion, und gn (X1 , . . . , Xn ) heißt die zugehörige Schätzvariable. Funktionswerte gn (x1 , . . . , xn ) heißen Schätzwerte. Frage: Gütekriterien für Schätzfunktionen gn ? 140 Definition 2 Der Bias von gn ist biasϑ (gn ) = Eϑ (gn (X1 , . . . , Xn )) − γ(ϑ). gn heißt erwartungstreu, falls für jedes ϑ ∈ Θ biasϑ (gn ) = 0. Eine Folge g1 , g2 , . . . heißt stark konsistent, falls gn (X1 , . . . , Xn ) für jedes ϑ ∈ Θ mit W’keit eins gegen γ(ϑ) konvergiert. Der mittlere quadratische Fehler (mean squared error) von gn ist mseϑ (gn ) = Eϑ gn (X1 , . . . , Xn ) − γ(ϑ) 2 . Bemerkung 3 Für jede Schätzfunktion gn und jedes ϑ ∈ Θ gilt 2 mseϑ (gn ) = Varϑ gn (X1 , . . . , Xn ) + biasϑ (gn ) . 141 1. Fall: Schätzung des Erwartungswertes γ(ϑ) = Eϑ (X ). Betrachte das empirische Mittel n 1 X xi . gn (x1 , . . . , xn ) = x n = · n i=1 Satz 4 gn ist erwartungstreu, und g1 , g2 , . . . ist stark konsistent. Ferner gilt mseϑ (gn ) = 1 · Varϑ (X ). n Beispiel 5 Gelte X ∼ B(1, p) mit p = ϑ ∈ Θ = [0, 1]. Dann mseϑ (gn ) = 1 · ϑ · (1 − ϑ). n Gelte X ∼ Exp(λ) mit λ = ϑ ∈ Θ = ]0, ∞[. Dann mseϑ (gn ) = 1 1 · . n ϑ2 142 Beispiel 6 Gelte X ∼ N(µ, 1) mit µ = ϑ ∈ Θ = R. Eine Computer-Simulation mit µ = 2 und n = 10 liefert die Daten i xi 1 2.5377 2 3.8339 3 −0.2588 i xi 6 0.6923 7 1.5664 8 2.3426 4 2.8622 9 5.5784 5 2.3188 10 . 4.7694 Es gilt x 10 = 2.6243. 143 Für n = 10 und n = 50 die Verteilungsfunktion von N(x n , 1) (orange) und die empirische Verteilungsfunktion (grün). Zum Vergleich die Verteilungsfunktion von N(2, 1) (blau). 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 -1 0 0 1 2 3 x 4 5 6 -1 0 1 2 3 4 5 6 x 144 Satz 7 (Optimalität des emp. Mittels) Gelte X ∼ B(1, p) mit p = ϑ ∈ Θ = [0, 1], und sei hn eine weitere erwartungstreue Schätzfunktion. Dann gilt mseϑ (gn ) ≤ mseϑ (hn ) für jedes ϑ ∈ Θ. 145 2. Fall: Schätzung der Varianz γ(ϑ) = σ 2 (ϑ). Gelte n ≥ 2. Betrachte die empirische Varianz n 2 X 1 gn (x1 , . . . , xn ) = sn2 = · xi − x n n − 1 i=1 n X 2 1 . · xi2 − n x n = n−1 i=1 ! Satz 8 gn ist erwartungstreu, und g2 , . . . ist stark konsistent. Beweis der Erwartungstreue: Verwende n 2 X Eϑ Xi2 = n · Eϑ (X 2 ) = n · Varϑ (X ) + Eϑ (X ) i−1 und 2 Eϑ X n = Varϑ X n + Eϑ X n 2 = 2 1 · Varϑ (X ) + Eϑ (X ) . n 146 4.2. Intervallschätzung Setze x = (x1 , . . . , xn ) und X = (X1 , . . . , Xn ). Gesucht: ein Intervall [an (x), bn (x)], in dem γ(ϑ) mit hoher W’keit liegt, statt eines Punktes gn (x) als Schätzwert für γ(ϑ). Definition 1 Sei α ∈ ]0, 1[. Funktionen an , bn : Rn → R definieren ein Konfidenzintervall zum Niveau 1 − α, falls Pϑ n o γ(ϑ) ∈ [an (X), bn (X)] ≥1−α für alle ϑ ∈ Θ. Ziel: Konfidenzintervalle mit möglichst kleiner“ Länge bn (X) − an (X). ” 147 1. Fall: X ∼ N(µ, σ 2 ) mit bekanntem σ > 0, mit µ = ϑ ∈ Θ = R und γ(ϑ) = ϑ = Eϑ (X ). Satz 2 2 Sind X1 , . . . , X n unabhängig und jeweils N(µ, σ )-verteilt mit σ > 0, so ist √ n σ · X n − µ N(0, 1)-verteilt. Satz 3 Sei q1−α/2 = Φ−1 (1 − α/2) das (1 − α/2)-Quantil von N(0, 1). Dann definieren σ σ an (x) = x n − q1−α/2 · √ , bn (x) = x n + q1−α/2 · √ n n ein Konfidenzintervall zum Niveau 1 − α. 148 Beispiel 4 Computer-Simulation von 20 Konfidenzintervallen mit α = 0.05, unabhängig erzeugt“, für X ∼ N(µ, 1) mit µ = 2 und n = 10 sowie ” n = 100. 3.5 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 5 10 15 20 0 5 10 15 20 Der Anteil von Konfidenzintervallen, die den Parameter ϑ = µ nicht enthalten, beträgt 0.05 bzw. 0.1. 149 2. Fall: X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ und γ(ϑ) = µ = Eϑ (X ). Ferner sei n ≥ 2. Setze v u u Sn = t n X 1 · (Xi − X n )2 . n − 1 i=1 Satz 5 2 Sind X1 , . . . , Xn unabhängig und jeweils N(µ, σ )-verteilt mit σ > 0, so √ n hängt die Verteilung von Sn · X n − µ nur von n (und nicht von µ oder σ) ab. Definition 6 Obige Verteilung heißt t-Verteilung mit n − 1 Freiheitsgraden. Notation: t(n − 1). 150 Bemerkung 7 t(n − 1) besitzt eine symmetrische, strikt positive Dichte. Für die Verteilungsfunktion Fn−1 von t(n − 1) folgt Fn−1 (−x ) = 1 − Fn−1 (x ) für alle x ∈ R, Fn−1 (x ) = p ist für alle p ∈ ]0, 1[ eindeutig lösbar, −1 −1 Fn−1 (1 − p) = −Fn−1 (p) für alle p ∈ ]0, 1[. −1 Es gibt keine explizite Darstellung von Fn−1 oder Fn−1 . Funktionswerte von Fn−1 und Quantile werden numerisch bestimmt und sind tabelliert. 151 γ-Quantile der tn-Verteilung n 0.90 0.95 γ 0.975 0.99 0.995 1 2 3 4 5 3.078 1.886 1.638 1.533 1.476 6.314 2.920 2.353 2.132 2.015 12.706 4.303 3.182 2.776 2.571 31.821 6.965 4.541 3.747 3.365 63.657 9.925 5.841 4.604 4.032 6 7 8 9 10 1.440 1.415 1.397 1.383 1.372 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.143 2.998 2.896 2.821 2.764 3.707 3.499 3.355 3.250 3.169 11 12 13 14 15 1.363 1.356 1.350 1.345 1.341 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 2.718 2.681 2.650 2.624 2.602 3.106 3.055 3.012 2.977 2.947 16 17 18 19 20 1.337 1.333 1.330 1.328 1.325 1.746 1.740 1.734 1.729 1.725 2.120 2.110 2.101 2.093 2.086 2.583 2.567 2.552 2.539 2.528 2.921 2.898 2.878 2.861 2.845 21 22 23 24 25 1.323 1.321 1.319 1.318 1.316 1.721 1.717 1.714 1.711 1.708 2.080 2.074 2.069 2.064 2.060 2.518 2.508 2.500 2.492 2.485 2.831 2.819 2.807 2.797 2.787 26 27 28 29 1.315 1.314 1.313 1.311 1.282 1.706 1.703 1.701 1.699 1.645 2.056 2.052 2.048 2.045 1.960 2.479 2.473 2.467 2.462 2.326 2.779 2.771 2.763 2.756 2.576 ∞ Die letzte Zeile ∞ enthält die Quantile der Standardnormalverteilung und gilt in guter Näherung für die tn -Verteilung mit n ≥ 30. 152 Satz 8 Sei q1−α/2 das (1 − α/2)-Quantil von t(n − 1). Dann definieren sn an (x) = x n − q1−α/2 · √ , n sn bn (x) = x n + q1−α/2 · √ n ein Konfidenzintervall zum Niveau 1 − α. 153 Beispiel 9 Computer-Simulation von 20 Konfidenzintervallen mit α = 0.05, unabhängig erzeugt“, für X ∼ N(µ, σ 2 ) mit µ = 2, σ = 1 und n = 10 ” sowie n = 100. 3.5 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 5 10 15 20 0 5 10 15 20 Der Anteil von Konfidenzintervallen, die den Parameter ϑ = µ nicht enthalten, beträgt 0.05 bzw. 0.1. 154 3. Fall: X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ und γ(ϑ) = σ 2 = Varϑ (X ). Ferner sei n ≥ 2. Satz 10 Sind X1 , . . . , Xn unabhängig und jeweils N(µ, σ 2 )-verteilt mit σ > 0, hängt die Verteilung von n−1 · Sn2 nur von n (und nicht von µ oder σ) ab. σ2 Definition 11 Obige Verteilung heißt χ2 -Verteilung mit n − 1 Freiheitsgraden. Notation: χ2 (n − 1). 155 Bemerkung 12 Es gibt keine einfache Darstellung der Verteilungsfunktion von χ2 (n − 1). Funktionswerte der Verteilungsfunktion und Quantile werden numerisch bestimmt und sind tabelliert. 156 γ-Quantile der χ n2 -Verteilung 0.05 γ 0.90 0.95 0.975 0.99 0.995 0.001 0.051 0.216 0.484 0.831 0.004 0.103 0.352 0.711 1.145 2.706 4.605 6.251 7.779 9.236 3.841 5.991 7.815 9.488 11.070 5.024 7.378 9.348 11.143 12.833 6.635 9.210 11.345 13.277 15.086 7.879 10.597 12.838 14.860 16.750 0.872 1.239 1.646 2.088 2.558 1.237 1.690 2.180 2.700 3.247 1.635 2.167 2.733 3.325 3.940 10.645 12.017 13.362 14.684 15.987 12.592 14.067 15.507 16.919 18.307 14.449 16.013 17.535 19.023 20.483 16.812 18.475 20.090 21.666 23.209 18.548 20.278 21.955 23.589 25.188 2.603 3.074 3.565 4.075 4.601 3.053 3.571 4.107 4.660 5.229 3.816 4.404 5.009 5.629 6.262 4.575 5.226 5.892 6.571 7.261 17.275 18.549 19.812 21.064 22.307 19.675 21.026 22.362 23.685 24.996 21.920 23.337 24.736 26.119 27.488 24.725 26.217 27.688 29.141 30.578 26.757 28.300 29.819 31.319 32.801 16 17 18 19 20 5.142 5.697 6.265 6.844 7.434 5.812 6.408 7.015 7.633 8.260 6.908 7.564 8.231 8.907 9.591 7.962 8.672 9.390 10.117 10.851 23.542 24.769 25.989 27.204 28.412 26.296 27.587 28.869 30.144 31.410 28.845 30.191 31.526 32.852 34.170 32.000 33.409 34.805 36.191 37.566 34.267 35.718 37.156 38.582 39.997 21 22 23 24 25 8.034 8.643 9.260 9.886 10.520 8.897 9.542 10.196 10.856 11.524 10.283 10.982 11.689 12.401 13.120 11.591 12.338 13.091 13.848 14.611 29.615 30.813 32.007 33.196 34.382 32.671 33.924 35.172 36.415 37.652 35.479 36.781 38.076 39.364 40.646 38.932 40.289 41.638 42.980 44.314 41.401 42.796 44.181 45.559 46.928 26 27 28 29 30 11.160 11.808 12.461 13.121 13.787 12.198 12.879 13.565 14.256 14.953 13.844 14.573 15.308 16.047 16.791 15.379 16.151 16.928 17.708 18.493 35.563 36.741 37.916 39.087 40.256 38.885 40.113 41.337 42.557 43.773 41.923 43.195 44.461 45.722 46.979 45.642 46.963 48.278 49.588 50.892 48.290 49.645 50.993 52.336 53.672 40 50 60 70 80 90 100 20.707 27.991 35.534 43.275 51.172 59.196 67.328 22.164 29.707 37.485 45.442 53.540 61.754 70.065 24.433 32.357 40.482 48.758 57.153 65.647 74.222 26.509 51.805 55.758 59.342 63.691 66.766 34.764 63.167 67.505 71.420 76.154 79.490 43.188 74.397 79.082 83.298 88.379 91.952 51.739 85.527 90.531 95.023 100.425 104.215 60.391 96.578 101.879 106.629 112.329 116.321 69.126 107.565 113.145 118.136 124.116 128.299 77.929 118.498 124.342 129.561 135.807 140.169 n 0.005 0.01 0.025 5 4 4⋅10 1.6⋅10 0.010 0.020 0.072 0.115 0.207 0.297 0.412 0.554 6 7 8 9 10 0.676 0.989 1.344 1.735 2.156 11 12 13 14 15 1 2 3 4 5 157 Satz 13 Seien q1−α/2 und qα/2 das das (1 − α/2)-Quantil bzw. das (α/2)-Quantil von χ2 (n − 1). Dann definieren an (x) = n−1 · s 2, q1−α/2 n bn (x) = n−1 2 ·s qα/2 n ein Konfidenzintervall zum Niveau 1 − α. 158 4. Fall: PX = PXϑ mit ϑ ∈ Θ und γ(ϑ) = Eϑ (X ). Es gelte Varϑ (X ) > 0 für alle ϑ ∈ Θ. Satz 14 (asymptotische Konfidenzintervalle) Sei q1−α/2 = Φ−1 (1 − α/2) das (1 − α/2)-Quantil von N(0, 1). Ferner seien sn an (x) = x n − q1−α/2 · √ , n sn bn (x) = x n + q1−α/2 · √ . n Dann gilt für alle ϑ ∈ Θ lim P ϑ n→∞ n o Eϑ (X ) ∈ [an (X), bn (X)] = 1 − α. 159 Beispiel 15 Geschlecht eines Neugeborenen. Also X ∼ B(1, p) mit p = ϑ ∈ Θ = [0, 1]. Empirische Daten aus einer Stichprobe der Größe n = 25 171 123. Das empirische Mittel und die empirische Varianz sind xn = 12 241 392 = 0.486326 . . . 25 171 123 bzw. sn2 = 0.2498 . . . Als asymptotisches Konfidenzintervall für α = 0.001 erhält man [an (x), bn (x)] = [x n − 3.27 · 10−4 , x n + 3.27 · 10−4 ] = [0.4859 . . . , 0.4866 . . . ] 160 5. Statistische Entscheidungsverfahren Betrachte ein Zufallsexperiment, beschrieben durch eine Zufallsvariable X : Ω → R, deren Verteilung PX unbekannt ist. Entscheide zwischen einer Hypothese H0 über PX und einer Alternative H1 . Verfügbar ist eine Stichprobe x1 , . . . , xn ∈ R, die als Realisierung von unabhängigen, identisch wie X verteilten Zufallsvariablen X1 , . . . , Xn angesehen wird. 161 Fehler 1. Art: H0 ist korrekt, wird aber verworfen. Fehler 2. Art: H1 ist korrekt, aber H0 wird nicht verworfen. Formal: PX = PXϑ mit unbekanntem Parameter ϑ ∈ Θ, Hypothese: ϑ ∈ Θ0 mit Θ0 ⊆ Θ, Alternative: ϑ ∈ Θ1 mit Θ1 = Θ \ Θ0 . Beispiel 1 Geschlecht eines Neugeborenen (Mädchen (1), Junge (0)). H0 : PXϑ ∼ B(1, p) mit p = ϑ ∈ Θ0 = [0, 1/2[ ( Eine Jungengeburt ist ” wahrscheinlicher als eine Mädchengeburt“), H1 : PXϑ ∼ B(1, p) mit p = ϑ ∈ Θ1 = [1/2, 1]. Stichprobe: Geschlecht bei n Geburten. 162 Naheliegende Entscheidungsregel mit geeigneter Wahl eines kritischen Wertes 0 ≤ ckrit < n: Verwirf H0 genau dann, wenn n X xi > ckrit . i=1 Erinnerung: Falls X ∼ B(1, p), gilt Yn ∼ B(n, p) für Yn = Pn i=1 Xi . Ziel: Gegeben ε > 0 wähle ckrit , so daß die W’keiten für die Fehler 1. und 2. Art höchstens ε betragen, d.h. P({Yn > ckrit }) ≤ ε für jedes p < 1/2 und P({Yn ≤ ckrit }) ≤ ε für jedes p ≥ 1/2. Es gilt: Unter H0 kann P({Yn > ckrit }) beliebig nah an P({Z > ckrit }) mit Z ∼ B(n, 1/2) liegen. Unter H1 kann P({Yn ≤ ckrit }) gleich P({Z ≤ ckrit }) sein. Dilemma: P({Z > ckrit }) + P({Z ≤ ckrit }) = 1, so daß das Ziel für kein ε < 1/2 erreichbar ist. 163 Die Werte der Verwerfungswahrscheinlichkeiten P({Yn > ckrit }) als Funktion von p für n = 11 und ckrit = 1/2 · n bzw. ckrit = 3/4 · n. 1 1 Fehler 2. Art 0.9 0.8 0.8 0.7 0.7 P (fYn > ckrit g) P (fYn > ckrit g) 0.9 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 Fehler 1. Art 0 0 0 0.5 H0 p 1 H1 0 0.5 H0 p 1 H1 164 Deshalb: Zu gegebenem α ∈ ]0, 1[ bestimmt man ckrit , so daß P({Z > ckrit }) ≤ α und P({Z ≤ ckrit }) möglichst klein. Lösung: ckrit ist das (1 − α)-Quantil von B(n, 1/2). Die Werte von P({Yn > ckrit }) als Funktion von p für n = 11 und ckrit = 3/4 · n bzw. n = 104 und ckrit = 0.5082 · n. 1 0.9 0.8 0.8 0.7 0.7 P (fYn > ckrit g) P (fYn > ckrit g) 1 0.9 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 0.5 H0 p 1 H1 0 0.5 H0 p 1 H1 165 Definition 2 Ein statistischer Test ist gegeben durch eine Teststatistik Tn = gn (X1 , . . . , Xn ) mit gn : Rn → R und einen Verwerfungsbereich Vn ⊆ R. Entscheidungsregel: Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) ∈ Vn . Definition 3 Ein Test wie oben heißt Signifikanztest zum Niveau α ∈ ]0, 1[, falls für alle ϑ ∈ Θ0 P ϑ ({Tn ∈ Vn }) ≤ α. Beispiel 4 In Bsp. 1 gn (x ) = Pn i=1 xi und Vn = ]ckrit , ∞[, das (1 − α)-Quantil ckrit von B(n, 1/2) definiert einen Signifikanztest zum Niveau α. 166 Bemerkung 5 Beachte die ungleiche Behandlung von Fehlern 1. und 2. Art bei Signifikanztests. Man wählt Hypothese und Alternative derart, daß ein Fehler 1. Art die schwerwiegendere Fehlentscheidung ist. Beispiel 6 Füllmengenkontrolle mit der Hypothese, daß die Mindestfüllmenge nicht eingehalten wird. Bemerkung 7 Mit Blick auf die W’keit für Fehler 2. Art sucht man bei gegebenem Niveau Signifikanztest mit möglichst großem“ Verwerfungsbereich. ” 167 5.1. Tests unter Normalverteilungsannahmen Zweiseitiger Gauß-Test Für µ0 ∈ R und σ > 0 ist zu entscheiden, ob H0 : X ∼ N(µ0 , σ 2 ) oder H1 : X ∼ N(µ, σ 2 ) mit µ 6= µ0 . Formal: X ∼ N(µ, σ 2 ) mit bekanntem σ > 0, µ = ϑ ∈ Θ = R, Θ0 = {µ0 }. Satz 1 Sei q1−α/2 das (1 − α/2)-Quantil von N(0, 1), und sei gn (x1 , . . . , xn ) = x n − µ0 √ . σ/ n Dann definiert die Entscheidungsregel Verwirf H0 genau dann, wenn |gn (x1 , . . . , xn )| > q1−α/2 einen Signifikanztest zum Niveau α. 168 Einseitiger Gauß-Test Für µ0 ∈ R und σ > 0 ist zu entscheiden, ob H0 : X ∼ N(µ, σ 2 ) mit µ ≤ µ0 (µ < µ0 ) oder H1 : X ∼ N(µ, σ 2 ) mit µ > µ0 (µ ≥ µ0 ). Formal: X ∼ N(µ, σ 2 ) mit bekanntem σ > 0, µ = ϑ ∈ Θ = R, Θ0 = ]−∞, µ0 ]. Satz 2 Sei q1−α das (1 − α)-Quantil von N(0, 1), und sei gn (x1 , . . . , xn ) = x n − µ0 √ . σ/ n Dann definiert die Entscheidungsregel Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α einen Signifikanztest zum Niveau α. 169 Beispiel 3 Füllmengenkontrolle mit Mindestfüllmenge µ0 = 5 und bekannter Standardabweichung σ = 0.1. Der Produzent will zum Niveau α = 0.01 belegen, daß die Mindestfüllmenge eingehalten wird. Modell X ∼ N(µ, σ 2 ) mit µ = ϑ ∈ Θ = R, X1 , . . . , Xn unabhängig identisch wie X verteilt. Hypothese und Alternative H0 : µ < µ0 , H1 : µ ≥ µ 0 . Teststatistik gn (X1 , . . . , Xn ) = X n − µ0 √ . σ/ n 170 Eine Stichprobe vom Umfang n = 20 liefert das empirische Mittel x 20 = 5.07. Es gilt also g20 (x1 , . . . , x20 ) = √ 20 · 5.07 − 5 ≈ 3.130 0.1 und q0.99 ≈ 2.326. Die Hypothese µ < µ0 wird somit verworfen. Für obige Werte von µ0 , σ, α und n wird die Hypothese µ < µ0 genau dann verworfen, wenn 0.01 x n ≥ 5 + √ · q0.99 ≈ 5.005. 20 171 Beispiel 4 Betrachte bei gleichen Parametern die Hypothese µ ≥ µ0 . Diese wird genau dann verworfen, wenn 0.01 x n ≤ 5 − √ · q0.99 ≈ 4.994. 20 172 Nun: Normalverteilungen mit unbekannter Varianz. Im Folgenden gelte n ≥ 2. Zweiseitiger t-Test Für µ0 ∈ R ist zu entscheiden, ob H0 : X ∼ N(µ0 , σ 2 ) mit σ > 0 oder H1 : X ∼ N(µ, σ 2 ) mit µ 6= µ0 und σ > 0. Formal: X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ , Θ0 = {µ0 } × ]0, ∞[ . Bemerkung 5 Unter H0 ist X n −µ √0 Sn / n t-verteilt mit n − 1 Freiheitsgraden, siehe Satz 4.1.5. 173 Satz 6 Sei q1−α/2 das (1 − α/2)-Quantil von t(n − 1), und sei gn (x1 , . . . , xn ) = x n − µ0 √ . sn / n Dann definiert die Entscheidungsregel Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α/2 einen Signifikanztest zum Niveau α. 174 Einseitiger t-Test Für µ0 ∈ R ist zu entscheiden, ob H0 : X ∼ N(µ, σ 2 ) mit µ ≤ µ0 (µ < µ0 ) und σ > 0 oder H1 : X ∼ N(µ, σ 2 ) mit µ > µ0 (µ ≥ µ0 ) und σ > 0. Formal: X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[ , Θ0 = ]−∞, µ0 ] × ]0, ∞[ . Satz 7 Sei q1−α das (1 − α)-Quantil von t(n − 1), und sei gn (x1 , . . . , xn ) = x n − µ0 √ . sn / n Dann definiert die Entscheidungsregel Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α einen Signifikanztest zum Niveau α. 175 Beispiel 8 Füllmengenkontrolle mit Mindestfüllmenge µ0 = 5 und und unbekannter Standardabweichung. Der Produzent will zum Niveau α = 0.01 belegen, daß die Mindestfüllmenge eingehalten wird. Modell X ∼ N(µ, σ 2 ) mit (µ, σ) = ϑ ∈ Θ = R × ]0, ∞[, X1 , . . . , Xn unabhängig identisch wie X verteilt. Hypothese und Alternative H0 : µ < µ0 , H1 : µ ≥ µ 0 . Teststatistik gn (X1 , . . . , Xn ) = X n − µ0 √ . Sn / n 176 Eine Stichprobe vom Umfang n = 20 liefert das empirische Mittel x 20 = 5.07 und die empirische Standardabweichung s 20 = 0.124. Es gilt also g20 (x1 , . . . , x20 ) = √ 20 · 5.07 − 5 ≈ 2.524 0.124 und q0.99 ≈ 2.539. Die Hypothese µ < µ0 wird somit nicht verworfen. 177 5.2. Anpassungstests Im Folgenden sei m ∈ N mit m ≥ 2, und X sei diskret verteilt mit Werten in {0, . . . , m − 1} (nominale Skala, m mögliche Werte). Für die verfügbare Stichprobe gilt also x1 , . . . , xn ∈ {0, . . . , m − 1}. Notation, vgl. W’funktionen, n P = (p0 , . . . , pm−1 ) ∈ Rm : p0 , . . . , pm−1 ≥ 0, m−1 X o pj = 1 , j=0 pX = (PX ({0}), . . . , PX ({m − 1})) ∈ P. Für p ∈ P ist zu entscheiden, ob H0 : pX = p oder H1 : pX = p̃ mit p̃ ∈ P \ {p}. 178 Beispiel 1 Ist ein Würfel fair? Sind m Artikel gleichattraktiv? Hier gilt p(0) = (1/m, . . . , 1/m), und die Stichprobe besteht aus n Ergebnissen beim Würfeln bzw. n Kaufentscheidungen. Beispiel 2 Sei Y stetig verteilt, und sei f : R → R eine W’dichte. Besitzt Y die Dichte f ? Verfügbar sei eine Stichprobe y1 , . . . , yn ∈ R, die als Realisierung von unabhängigen, identisch wie Y verteilten Zufallsvariablen angesehen wird. 179 Wähle Klassengrenzen a1 < · · · < am−1 , und setze a0 = −∞ sowie am = ∞. Definiere p ∈ P durch Z aj+1 pj = f (t) dt. aj Definiere für j = 0, . . . , m − 2 xi = j, falls yi ∈ ]aj , aj+1 ], sowie xi = m − 1, falls yi ∈ ]am−1 , am [. Definiere analog die Zufallsvariable X . Entscheide statt der eingangs gestellten Frage, ob (schwächere Hypothese) H0 : pX = p oder H1 : pX = p̃ mit p̃ ∈ P \ {p}. 180 Bemerkung 3 Naheliegend: Entscheidungsregel auf Basis der absoluten Häufigkeiten hj = |{i ∈ {1, . . . , n} : xi = j}| für j = 0, . . . , m − 1. Definiere gn : {0, . . . , m − 1}n → Nm 0 durch gn (x1 , . . . , xn ) = (h0 , . . . , hm−1 ). (0) (0) Unter H0 gilt gn (X1 , . . . , Xn ) ∼ M n, p0 , . . . , pm−1 . Hiermit läßt sich prinzipiell ein Signifikanztest zum Niveau α konstruieren: Pm−1 Wähle An ⊆ {(k0 , . . . , km−1 ) ∈ Nm 0 : j=0 kj = n} möglichst klein mit X (k0 ,...,km−1 )∈An n! km−1 ≥ 1 − α. · p k0 · · · pm−1 k0 ! · · · km−1 ! 0 Entscheidungsregel: Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) 6∈ An . 181 Beispiel 4 Seien m = 3 und p = (1/3, 1/3, 1/3). Betrachte für n = 10 bzw. n = 50 n! 1 · n k0 ! · k1 ! · (n − k0 − k1 )! 3 als Funktion von k0 , k1 ∈ N0 mit k0 + k1 ≤ n. 0.07 10 9 50 0.016 45 0.014 0.06 40 8 0.03 4 3 0.02 2 k1 5 1 3n 0.01 30 25 0.008 20 0.006 15 " 35 " 0.04 n! k0 !"k1 !"(n!k0 !k1 )! k1 6 n! k0 !"k1 !"(n!k0 !k1 )! 1 3n 0.012 0.05 7 0.004 10 0.01 1 0.002 5 0 0 0 2 4 6 k0 8 10 0 0 0 10 20 30 40 50 k0 182 Für α = 0.05 sind die Verwerfungsbereiche jeweils durch rote Kreuze markiert. 0.07 10 9 0.016 45 0.014 40 0.06 0.012 0.03 4 3 0.02 2 k1 " 0.04 5 n! k0 !"k1 !"(n!k0 !k1 )! 6 0.01 30 25 0.008 20 0.006 15 " 1 3n 0.05 7 1 3n 35 n! k0 !"k1 !"(n!k0 !k1 )! 8 k1 50 0.004 10 0.01 1 0 0 0 2 4 6 k0 8 10 0.002 5 0 0 0 10 20 30 40 50 k0 Die W’keiten für Fehler 1. Art betragen 0.048 für n = 10 und 0.0498 für n = 50. 183 Bemerkung 5 Nachteile der Vorgehensweise gemäß Bemerkung 3: Abhängigkeit von n, m und p sowie hoher Rechenaufwand, falls n groß. Stattdessen verwendet man gn (x1 , . . . , xn ) = n · m−1 X j=0 (rj − pj )2 . pj mit den relativen Häufigkeiten rj = hj /n. Unter H0 ist gn (X1 , . . . , Xn ) näherungsweise χ2 -verteilt mit m − 1 Freiheitsgraden. Satz 6 (χ2 -Anpassungstest) Sei q1−α das (1 − α)-Quantil von χ2 (m − 1). Dann gilt unter H0 lim P({gn (X1 , . . . , Xn ) > q1−α }) = α. n→∞ 184 Bemerkung 7 Die Entscheidungsregel Verwirf H0 genau dann, wenn gn (x1 , . . . , xn ) > q1−α definiert also einen Test, dessen W’keit für einen Fehler 1. Art für große n nahe bei α ist. Beispiel 8 Seien m = 3, p = (1/3, 1/3, 1/3) und α = 0.05. Für die vorliegende Stichprobe gelte (r0 , r1 , r2 ) = (0.3, 0.4, 0.3). Man erhält q0.95 ≈ 5.991 sowie gn (x1 , . . . , xn ) = 3 · n · 2 · (3/10 − 1/3)2 + (4/10 − 1/3)2 = n . 5 Genau für n > 50 · 5.991 = 299.55 verwirft der Test die Hypothese. 185 6. Anhang: Kombinatorik Urnenmodelle: k-maliges Ziehen eines Elementes aus Ω = {1, . . . , n}. Modell I: Ziehen in Reihenfolge mit Zurücklegen. Modell II: Ziehen in Reihenfolge ohne Zurücklegen. Modell III: Ziehen ohne Reihenfolge ohne Zurücklegen. Modell IV: Ziehen ohne Reihenfolge mit Zurücklegen. Satz 1 (Modell I) Für endliche Mengen Ω1 , . . . , Ωk gilt |Ω1 × · · · × Ωk | = |Ω1 | · · · |Ωk |. Insbesondere |Ωk | = nk . 186 Beispiel 2 Ausstattungsvarianten eines E-Bike Ω1 Ω2 Ω3 Ω4 = {46, 49, 53} = {D, H} = {K, N} = {25, 45} .. . Rahmengröße Rahmentyp Schaltung Motor .. . Satz 3 (Modell II) Für 1 ≤ k ≤ n gilt |{ω ∈ Ωk : ω1 , . . . , ωk paarweise verschieden}| = n · (n − 1) · · · (n − (k − 1)). Insbesondere |{ω ∈ Ωn : ω1 , . . . , ωn paarweise verschieden}| = n!. 187 Beispiel 4 Die Anzahl der möglichen Bundesliga-Schlußtabellen in der kommenden Saison ist 18! = 6 402 373 705 728 000 ≈ 6.4 · 1015 . Satz 5 (Modell III) Für 0 ≤ k ≤ n gilt ! |{A ⊆ Ω : |A| = k}| = n . k Beispiel 6 Die Anzahl der Tippreihen im Lotto ist ! 49 6 = 13 983 816 ≈ 1.4 · 107 . 188 Satz 7 Es gilt | Pot(Ω)| = 2n und n n o X xi = k = x ∈ {0, 1}n : i=1 ! n . k 189 Satz 8 (Modell IV) Es gilt n n o X hi = k = (h1 , . . . , hn ) ∈ Nn0 : i=1 ! n+k −1 . k Beispiel 9 Tagesverkauf der Mensa: k = 2500 Gäste, n = 4 Menüs, also ! 2503 4 = 1 631 513 281 875 ≈ 1.6 · 1012 . 190