Kapitel 1 Wahrscheinlichkeitsräume und Zufallsvariablen 1.1 W-Raum Unter einem Zufallsexperiment verstehen wir einen vom Zufall beeinflussten Vorgang, der ein entsprechend zufälliges Ergebnis hervorbringt. Ein mathematisches Modell für ein Zufallsexperiment ist ein Wahrscheinlichkeitsraum (kurz: W-Raum). Dieser besteht aus einer Ergebnismenge M (die Menge aller möglichen Ergebnisse des Zufallsexperiments), und einer W-Verteilung P auf M . Definition [W-Verteilung] Eine Wahrscheinlichkeitsverteilung (kurz: W-Verteilung) auf einer Menge M ist eine Funktion P , die jeder Teilmenge A ⊆ M eine Zahl P (A) ∈ [ 0 , 1 ] als “Wahrscheinlichkeit des Ereignisses A” zuordnet und dabei die folgenden beiden Bedingungen erfüllt. (i) (ii) P (M ) = 1 . P ( A ∪ B ) = P (A) + P (B) für je zwei disjunkte Teilmengen A, B ⊆ M (d.h. A ∩ B = ∅) (Additivität). Wenn P eine W-Verteilung auf M ist, dann heißt das Paar (M, P ) ein Wahrscheinlichkeitsraum, (kurz: W-Raum). Sprechweisen im Kontext eines W-Raumes (M, P ) : • Jede Teilmenge A von M wird ein Ereignis genannt und P (A) seine Wahrscheinlichkeit. Grund für diese Sprechweise: Eine Teilmenge A ⊆ M steht für das Ereignis, dass das Ergebnis x ∈ M des Zufallsexperiments zu A gehört (also x ∈ A gilt), und P (A) ist die Wahrscheinlichkeit hierfür. • Eine ein-elementige Teilmenge {x} (für ein einzelnes x ∈ M ) wird ein Elementarereignis genannt. Wir können das Elementarereignis {x} mit dem Element x identifizieren. Ein Ereignis A ⊆ Ω, das aus mehr als nur einem Element besteht, wird auch ein zusammengesetztes Ereignis genannt. Als Folgerungen aus den Bedingungen (i), (ii) der Definition ergeben sich weitere Rechenregeln für eine W-Verteilung P , z.B.: P ( Ac ) = 1 − P (A) , P (∅) = 0; P(A ∪ B ) = P (A) + P (B) − P ( A ∩ B ) P(A \ B ) = P (A) − P ( A ∩ B ) für beliebige A, B ⊆ M ; aus A⊆B⊆M wobei Ac = M \ A, das Komplement von A; für beliebige A, B ⊆ M ; folgt P (A) ≤ P (B). 1 Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 1.2 2 Diskrete W-Räume Von einem diskreten W-Raum (M, P ) und einer diskreten W-Verteilung P sprechen wir, wenn die Menge M entweder endlich oder abzählbar-unendlich (wie z.B. N) ist. Dann ist die gesamte W-Verteilung P schon durch die Wahrscheinlichkeiten für die Elementarereignisse beschrieben, P (x) für alle x ∈ M . Denn wegen der Additivitätseigenschaft (ii) der allgemeinen Definition einer W-Verteilung ergeben sich die Wahrscheinlichkeiten beliebiger Ereignisse durch: X (∗) P (A) = P (x) für jedes A ⊆ Ω . x∈A Umgekehrt: Konstruktion diskreter W-Verteilungen Sei M eine endliche oder eine abzählbar-unendliche Menge. X Wenn für jedes x ∈ M eine Wahrscheinlichkeit P (x) ≥ 0 festgelegt wird und P (x) = 1 gilt, dann x∈M ist damit (unter Verwendung von Formel (∗))˙ eine W-Verteilung P auf M definiert. Definition [Spezielle diskrete W-Verteilungen] (a) Sei M endlich. Die Gleichverteilung oder Laplace-Verteilung auf M ist definiert durch P (x) = 1 |M | für alle x ∈ M , ( |M | = Anzahl der Elemente von M ). Abk.: P = UM . (b) M = { 0, 1, . . . , n } für ein gegebenes n ∈ N; sei noch p ∈ ( 0 , 1 ) gegeben. Die Binomialverteilung mit den Parameterwerten n und p ist definiert durch µ ¶ n k P (k) = p (1 − p)n−k für k = 0, 1, . . . , n . k Abk.: P = Bi(n, p) . (c) Seien N ∈ N, s ∈ N0 und n ∈ N mit s, n ≤ N gegeben. Sei M = { 0, 1, . . . , n }. Die hypergeometrische Verteilung mit den Parameterwerten N , s und n ist definiert durch µ ¶µ ¶Áµ ¶ s N −s N P (k) = für k = 0, 1, . . . , n . k n−k n Abk.: P = Hyp(N, s, n) . (d) M = N0 ; sei λ ∈ ( 0 , ∞) gegeben. Die Poisson-Verteilung mit dem Parameterwert λ ist definiert durch λk P (k) = e−λ · für alle k ∈ N0 . k! Abk.: P = Poi(λ) . (e) M = N ; sei p ∈ ( 0 , 1) gegeben. Die geometrische Verteilung mit dem Parameterwert p ist definiert durch P (k) = p (1 − p)k−1 für alle k ∈ N . Abk.: P = Geo(p) . Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 3 Wir skizzieren typische Zufallsexperimente, deren Modellierung durch W-Räume (a)–(e) obiger Definition erfolgt. Typische Zufallsexperimente (a) Ein Objekt wird “rein zufällig” aus einer endlichen Grundgesamtheit M gezogen. (b) n-malige unabhängige Durchführung eines 0-1-Experiments (Bernoulli-Experiments) mit Wahrscheinlichkeit p für “1” und 1 − p für “0”; als Ergebnis wird die Anzahl der erzielten “1”-en festgehalten. (c) Gegeben eine Grundgesamtheit mit N Objekten; jedes Objekt trägt einen binären (0-1-wertigen) Merkmalswert (z.B. gut/schlecht); insgesamt haben genau s Objekte den Merkmalswert “1”. Zufallsexperiment: Es wird eine Zufallsstichprobe vom Umfang n aus der Grundgesamtheit gezogen (Ziehen ohne Zurücklegen), und als Ergebnis wird die Anzahl der Objekte in der Stichprobe mit Merkmalswert “1” festgehalten. (d) Eine zufällige Anzahl, die nicht von vorne herein nach oben beschränkt ist (im Unterschied zu (b) und (c)), kann oft näherungsweise modelliert werden durch eine Poisson-Verteilung (mit einem geeigneten Parameterwert λ > 0). Konkretere Beispiele etwa: Anzahl von Kunden, die innerhalb eines definierten Zeitraumes eine bestimmte Service-Station besuchen; Anzahl der Verkehrsunfälle in einer Region in einem definierten Zeitraum. (e) Ein Bernoulli-Experiment mit Wahrscheinlichkeit p für “1” und 1 − p für “0” wird so oft unabhängig durchgeführt, bis erstmalig “1” auftritt. Die Anzahl der benötigten Durchführungen ist das Ergebnis des Zufallsexperiments. 1.3 Stetige W-Verteilungen Hier haben wir es mit “kontinuierlichen” Ergebnismengen M zu tun: Intervalle der Zahlengeraden, z.B. M = [ a , b ] , M = ( 0 , ∞) , M = (−∞ , ∞) = R . Entsprechende “kontinuierliche” W-Verteilungen auf M sind durch Dichtefunktionen definiert. Definition [W-Verteilung mit Dichtefunktion] Sei M ⊆ R ein Intervall. Eine Dichtefunktion auf M ist eine Funktion f : M −→ R mit den Eigenschaften Z f (x) ≥ 0 für alle x ∈ M und f (x) dx = 1 . M Wenn f eine Dichtefunktion auf M ist, dann definiert diese eine W-Verteilung P auf M durch Z P (I) = f (x) dx für jedes Teilintervall I ⊆ M . I Anmerkung: Zwar sind somit nur den “Intervall-förmigen” Ereignissen I ⊆ M Wahrscheinlichkeiten zugeordnet (und noch nicht beliebigen Ereignissen A ⊆ M ), aber andere Ereignisse als Intervalle sind für uns wenig interessant. Bemerkung. Für eine solche W-Verteilung P (mit einer Dichtefunktion f ) gilt, dass jedes ElemenR tarereigniss z ∈ M Wahrscheinlichkeit gleich 0 hat: P (z) = f (x) dx = 0 . {z} Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 4 Definition [Spezielle W-Verteilungen mit Dichtefunktionen] (a) M = [ a , b ] , wobei a, b ∈ R mit a < b . Die Gleichverteilung oder Rechteck-Verteilung auf dem Intervall [ a , b ] ist gegeben durch die (konstante) Dichtefunktion f (x) = Abk.: P = R(a, b) . 1 b−a für alle x ∈ [ a , b ] . (b) M = R ; seien µ ∈ R und σ ∈ ( 0 , ∞) gegeben. Die Normalverteilung mit den Parameterwerten µ und σ ist gegeben durch die Dichtefunktion f (x) = ³ 1 ³ x − µ ´2 ´ 1 √ exp − 2 σ σ 2π für alle x ∈ R . Abk.: P = N(µ, σ) . (c) M = (0 , ∞) ; sei λ ∈ ( 0 , ∞) gegeben. Die Exponentialverteilung mit dem Parameterwert λ ist gegeben durch die Dichtefunktion f (x) = λ e−λ x für alle x ∈ ( 0 , ∞) . Abk.: P = Exp(λ) . Anwendung in der Modellierung: Die in der Definition genannten Verteilungen werden oft zur Modellierung von Zufallsvorgängen mit kontinuierlichen Ergebnissen verwendet. Normalverteilungen haben einen fast universell erscheinenden Anwendungsbereich (z.B. eine ProduktCharakteristik in der industriellen Fertigung, eine Projektdauer, eine Nachfrage nach einem gehandelten Produkt). Die Gleichverteilung auf einem Intervall [ a , b ] bildet ein stetiges Analogon zu einer diskreten Gleichverteilung. Das Ergebnis des Zufallsexperiments ist eine “völlig zufällig” gezogene Zahl aus dem Intervall [ a , b ] . Die Erzeugung einer Standard-Zufallszahl mit dem Computer ist (näherungsweise) ein solches Zufallsexperiment mit a = 0 und b = 1. Exponentialverteilungen werden insbesondere zur Modellierung zufälliger kontinuierlicher Zeitdauern verwendet (Lebensdauern, Projektdauern, Wartezeiten). 1.4 Zufallsvariable Seien Ω und M zwei Mengen. Der Begriff einer Abbildung oder Funktion X von Ω (Definitionsbereich) in M (Wertevorrat) ist bekannt ; Kurzschreibweise: X : Ω −→ M . Im w-theoretischen Kontext nennen wir X eine Zufallsvariable, wenn außerdem eine W-Verteilung P auf Ω gegeben ist, also der Definitionsbereich (zusammen mit der W-Verteilung) einen W-Raum darstellt. Achtung: Entgegen der bisherigen Notation haben wir jetzt einen W-Raum (Ω, P ), während M “nur” eine Menge (der Wertevorrat der Zufallsvariablen) ist; jedoch werden wir gleich sehen, dass auch M durch “Transportieren” der W-Verteilung P mittels X ebenfalls ein W-Raum wird. Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 5 Definition [Verteilung einer Zufallsvariablen] Seien (Ω, P ) ein W-Raum und X : Ω −→ M eine Zufallsvariable. Dann wird die W-Verteilung PX auf M wie folgt definiert. © ª Für jedes B ⊆ M : PX (B) = P (A) , wobei A = {X ∈ B} = ω ∈ Ω : X(ω) ∈ B ; kurz: PX (B) = P (X ∈ B) für jedes B ⊆ M . Diese W-Verteilung PX heißt die Verteilung von X (unter P ). Bemerkung: Diskreter Wertevorrat Im Fall, dass der Wertevorrat M der Zufallsvariablen X endlich oder abzählbar-unendlich ist, genügen zur Beschreibung der Verteilung von X die Wahrscheinlichkeiten der ein-elementigen Mengen B = {x} für jedes x ∈ M : PX (x) = P (X = x) für alle x ∈ M . Reelle Zufallsvariable Wenn der Wertevorrat M der Zufallsvariablen X eine Teilmenge von R ist (M ⊆ R), so nennen wir X eine reelle Zufallsvariable. (a) Diskret-verteilte reelle Zufallsvariable : M ist eine endliche oder abzählbar-unendliche Teilmenge von R ; z.B.: eine auf {1, . . . , 6} uniform-verteilte Zufallsvariable: M = {1, . . . , 6} und PX = U{1,...,6} ; eine binomial-(n, p)-verteilte Zufallsvariable: M = {0, 1, . . . , n} und PX = Bi(n, p) ; eine Poisson-(λ)-verteilte Zufallsvariable: M = N0 und PX = Poi(λ) . (b) Stetig-verteilte reelle Zufallsvariable : M ist ein Intervall, und die Verteilung von X besitzt eine Dichtefunktion f (man sagt auch kürzer: X besitzt eine Dichtefunktion f ), d.h. Z P (X ∈ I) = f (x) dx für jedes Teilintervall I ⊆ M . I Zum Beispiel: Eine auf [ a , b ] uniform-verteilte Zufallsvariable: M = [ a , b ] und PX = R(a, b) ; eine normal-(µ, σ)-verteilte Zufallsvariable: M = R und PX = N(µ, σ) . Definition [Verteilungsfunktion einer reellen Zufallsvariablen] Sei X eine reelle Zufallsvariable. Die Verteilungsfunktion FX der Zufallsvariablen X ist die Funktion FX : R −→ [ 0 , 1 ] , FX (x) = P (X ≤ x) für alle x ∈ R , wobei wie üblich {X ≤ x} = {ω ∈ Ω : X(ω) ≤ x} . Bemerkungen: (1) P (u < X ≤ v) = FX (v) − FX (u) für alle u, v ∈ R, u < v. Insbes.: FX ist monoton wachsend. Desweiteren: limx→∞ FX (x) = 1 und limx→−∞ FX (x) = 0 . (2) Wenn X diskret-verteilt ist (mit dem endlichen oder abzählbar-unendlichen Wertevorrat M ⊆ R), dann X FX (x) = P (X = z) für alle x ∈ R ; z∈M, z≤x insbesondere: FX ist eine Treppenfunktion. Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen (3) Wenn X stetig-verteilt ist mit Dichtefunktion f (und mit dem Intervall M ⊆ R als Wertevorrat), dann Z FX (x) = f (z) dz für alle x ∈ R ; (−∞,x]∩M insbesondere: FX ist stetig, und FX ist an jeder Stetigkeitsstelle x der Dichtefunktion f differenzierbar mit Ableitung FX0 (x) = f (x) . Definition [Quantile einer reellen Zufallsvariablen] Sei X eine reelle Zufallsvariable. Sei p ∈ ( 0 , 1 ) gegeben. Ein p-Quantil der Verteilung von X (man sagt auch kürzer: ein p-Quantil von X) ist eine reelle Zahl xp mit der Eigenschaft P (X ≤ xp ) ≥ p und P (X < xp ) ≤ p. Anmerkung: Wenn X stetig-verteilt ist, dann ist die Bedingung für ein p-Quantil xp äquivalent mit −1 FX (xp ) = p ; wenn außerdem FX strikt monoton wachsend ist, dann ist xp = FX (p) . Grundsätzliche Bemerkung: Modellformulierungen mit Zufallsvariablen Die Modellierung eine Zufallsexperiments kann durch Angabe eines (geeigneten) W-Raumes (M, P ) erfolgen, (M die Ergebnismenge, P eine passende W-Verteilung). Im Folgenden, insbesondere im statistischen Kontext, werden wir oft eine optisch andere Modellformulierung vornehmen, mit Hilfe von Zufallsvariablen. Die Ergebnismenge wird dabei nach wie vor mit M bezeichnet, aber es werden ein W-Raum (Ω, P ) im Hintergrund und eine Zufallsvariable X : Ω −→ M postuliert. Das Ergebnis x ∈ M des Zufallsexperiments wird aufgefasst als ein Wert X(ω) der Zufallsvariablen X, (wobei ω ∈ Ω vom Zufall gewählt wird). Geeignet festzulegen ist die Verteilung der Zufallsvariablen X. Der eigentliche (konkrete) W-Raum, der den Zufallsvorgang modelliert, ist hier (M, PX ), während der “Hintergrund-W-Raum” (Ω, P ) in der Regel nicht weiter spezifiziert wird; auch die Zufallsvariable X wird (in der Regel) nicht vollständig spezifiziert, sondern nur ihre Verteilung. Zum Beispiel: Würfelexperiment einmal Würfeln. X eine Zufallsvariable mit Werten in M = {1, 2, 3, 4, 5, 6} und Verteilung P (X = i) = 1/6 für alle i = 1, . . . , 6 (d.h. PX die Gleichverteilung auf {1, . . . , 6}). Diese Art der Modellierung mag auf den ersten Blick unnötig umständlich erscheinen, erweist sich aber für komplexere Zufallsexperimente (mit mehrdimensionalen Ergebnissen) als nützlich, insbesondere weil der Begriff der Unabhängigkeit von Zufallsvariablen (s. Abschnitt 1.6) eingebracht werden kann. Zum Beispiel: Würfelexperiment zweimal (unabhängig) Würfeln. X1 , X2 zwei unabhängige Zufallsvariablen, X1 : Ω −→ {1, 2, . . . , 6} und X2 : Ω −→ {1, 2, . . . , 6} , deren Verteilungen gegeben sind durch P (X1 = i) = 1/6 für alle i = 1, 2, . . . , 6 und P (X2 = j) = 1/6 für alle j = 1, 2, . . . , 6 . Die Voraussetzung der Unabhängigkeit der beiden Zufallsvariablen besagt: ¡ ¢ P X1 = i , X2 = j = P (X1 = i) · P (X2 = j) = 1/36 für alle i, j = 1, 2, . . . , 6 . Die Ergebnismenge M ist hier M = {1, 2, . . . , 6}2 und die Zufallsvariable X ist X = (X1 , X2 ) . 6 Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 1.5 7 Skalare Kenngrößen reeller Zufallsvariablen Erwartungswert, Varianz und Standardabweichung Sei X eine reelle Zufallsvariable, also X : Ω −→ M ⊆ R . (a) Wenn X diskret-verteilt ist, also M endlich oder abzählbar-unendlich ist: X X¡ ¢2 x P (X = x) und Var(X) = E(X) = x − E(X) . x∈M x∈M (b) Wenn X stetig-verteilt ist, also M ein Intervall ist und X eine Dichtefunktion f besitzt : Z Z ¡ ¢2 E(X) = x f (x) dx und Var(X) = x − E(X) dx . M Die (nicht-negative) Zahl M p Var(X) heißt die Standardabweichung von X. Alternative Formel für die Varianz ¡ ¢ ¡ ¢2 Var(X) = E X 2 − E(X) . ¡ ¢ Die (nicht-negative) Zahl E X 2 heißt das zweite Moment der (reellen) Zufallsvariablen X ; die Berechnung hiervon kann mit Hilfe der Transformationsformeln des nachfolgenden Theorems erfolgen, mit der quadratischen Transformation g(x) = x2 . Theorem [Erwartungswert transformierter Zufallsvariablen] Sei X eine reelle Zufallsvariable, also X : Ω −→ M ⊆ R . Sei eine Funktion (“Transformation”) g : M −→ N ⊆ R gegeben. Für den Erwartungswert der transformierten reellen Zufallsvariablen g(X) gilt dann: (a) Wenn X diskret-verteilt ist, also M endlich oder abzählbar-unendlich ist : X ¡ ¢ E g(X) = g(x) P (X = x) . x∈M (b) Wenn X stetig-verteilt ist, also M ein Intervall ist und X eine Dichtefunktion f besitzt : Z ¡ ¢ E g(X) = g(x) f (x) dx . M Theorem [Lineare Transformation einer reellen Zufallsvariablen] Sei X eine reelle Zufallsvariable, und seien β, c ∈ R. Dann: E(β X + c) = β E(X) + c und Var(β X + c) = β 2 Var(X) . Wenn X normalverteilt ist, X ∼ N(µ, σ) , dann β X + c ∼ N(βµ + c , |β| σ) (sofern β 6= 0). ½ R(βa + c , βb + c) , falls β > 0 Wenn X Rechteck-verteilt ist, X ∼ R(a, b) , dann β X + c ∼ . R(βb + c , βa + c) , falls β < 0 Wenn X exponential-verteilt ist, X ∼ Exp(λ) , und β > 0, dann β X ∼ Exp(λ/β) . Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 8 Für die in Abschnitten 1.2 und 1.3 genannten speziellen Verteilungen sind die Erwartungswerte und Varianzen in nachfolgender Tabelle zusammengestellt. X 0-1-wertig mit P (X = 1) = p E(X) Var(X) p p(1 − p) x 1 X (xi − x)2 m m gleichverteilt auf {x1 , . . . , xm } i=1 binomial-(n, p)-verteilt np hypergeometrisch-(N, s, n)-verteilt ns N np(1 − p) s´ N −n s ³ 1− n N −1 N N Poisson-(λ)-verteilt λ λ geometrisch-(p)-verteilt 1 p 1−p p2 normal-(µ, σ)-verteilt µ σ2 1 (a + b) 2 1 λ (b − a)2 12 1 λ2 gleichverteilt auf [a, b] exponential-(λ)-verteilt Theorem [Linearkombination zweier reeller ZV’en: Linearität des Erwartungswertes] Seien X1 und X2 zwei reelle Zufallsvariablen und β1 , β2 und c reelle Zahlen. Dann: ¡ ¢ E β1 X1 + β2 X2 + c = β1 E(X1 ) + β2 E(X2 ) + c . Definition [Kovarianz und Korrelation zweier reeller Zufallsvariablen] Für zwei reelle Zufallsvariablen X1 und X2 heißen £¡ ¢¡ ¢¤ Cov(X1 , X2 ) = E X1 − E(X1 ) X2 − E(X2 ) = E(X1 X2 ) − E(X1 ) E(X2 ) die Kovarianz der Zufallsvariablen X1 , X2 und Cov(X1 , X2 ) p Var(X1 ) Var(X2 ) ρ(X1 , X2 ) = p ∈ [ −1 , 1 ] die Korrelation (oder der Korrelationskoeffizient) der Zufallsvariablen X1 , X2 . Die Korrelation ρ(X1 , X2 ) ist eine Maßzahl für die lineare Abhängigkeit der beiden Zufallsvariablen X1 , X2 . Die extremen Werte ρ(X1 , X2 ) = ±1 bedeuten perfekte (positive oder negative) lineare Abhängigkeit; der Wert ρ(X1 , X2 ) = 0 (Unkorreliertheit) bedeutet, dass keine lineare Abhängigkeit vorhanden ist. Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 1.6 9 Stochastische Unabhängigkeit Definition [Unabhängigkeit von Ereignissen] Sei (Ω, P ) ein W-Raum. (a) Zwei Ereignisse A1 , A2 ⊆ Ω heißen (stochastisch) unabhängig, wenn P (A1 ∩A2 ) = P (A1 )·P (A2 ). (b) Allgemeiner: n Ereignisse A1 , A2 , . . . , An ⊆ Ω heißen (stochastisch) unabhängig, wenn gilt: ¡ ¢ P Ai1 ∩ Ai2 ∩ . . . ∩ Aik = P (Ai1 ) · P (Ai2 ) · . . . · P (Aik ) für alle 1 ≤ i1 < i2 < . . . < ik ≤ n , k = 1, . . . , n . Theorem [Ein nützliches Resultat] Seien unabhängige Ereignisse A1 , A2 , . . . , An gegeben. Betrachte eine Gruppierung dieser Ereignisse in K Gruppen: {A1 , . . . , An1 } , {An1 +1 , . . . , An2 } , . . . , {AnK−1 +1 , . . . , An } , wobei 1 ≤ n1 < n2 < . . . < nK−1 < n . Wenn für jedes k = 1, . . . , K ein Ereignis Bk gebildet wird aus den Ereignissen der k-ten Gruppe durch Mengenoperationen (Vereinigung, Durchschnitt, Differenzmenge, Komplement), dann sind die Ereignisse B1 , . . . , BK unabhängig. Definition [Unabhängigkeit von Zufallsvariablen] Sei (Ω, P ) ein W-Raum, und seien X1 , . . . , Xn Zufallsvariablen, Xi : Ω −→ Mi , i = 1, . . . , n. Die Zufallsvariablen X1 , . . . , Xn heißen (stochastisch) unabhängig, wenn ¢ ¡ P X1 ∈ B1 , X2 ∈ B2 , . . . , Xn ∈ Bn = P (X1 ∈ B1 ) · P (X2 ∈ B2 ) · . . . · P (Xn ∈ Bn ) für alle B1 ⊆ M1 , B2 ⊆ M2 , . . . , Bn ⊆ Mn . Bemerkung: Diskrete Wertevorräte Wenn Mi , i = 1, . . . , n, endlich oder abzählbar unendlich sind, dann genügt es in der Definition, ein-elementige Mengen Bi = {xi } , i = 1, . . . , n, zu betrachten: Die Zufallsvariablen X1 , . . . , Xn sind genau dann unahhängig, wenn ¢ ¡ P X1 = x1 , X2 = x2 , . . . , Xn = xn = P (X1 = x1 ) · P (X2 = x2 ) · . . . · P (Xn = xn ) für alle x1 ∈ M1 , x2 ∈ M2 , . . . , xn ∈ Mn . Theorem [Analog zu oben] Seien unabhängige Zufallsvariablen X1 , X2 , . . . , Xn gegeben. Betrachte eine Gruppierung dieser Zufallsvariablen in K Gruppen: {X1 , . . . , Xn1 } , {Xn1 +1 , . . . , Xn2 } , . . . , {XnK−1 +1 , . . . , Xn } , wobei 1 ≤ n1 < n2 < . . . < nK−1 < n . Wenn für jedes k = 1, . . . , K eine neue Zufallsvariable Yk gebildet wird aus den Zufallsvariablen der k-ten Gruppe durch Anwendung einer Funktion, ¡ ¢ Yk = gk Xnk−1 +1 , . . . , Xnk , k = 1, . . . , K , (dabei sei n0 = 0, nK = n), dann sind die Zufallsvariablen Y1 , . . . , YK unabhängig. Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 10 Theorem [Produktregel für Erwartungswerte unabhängiger reeller ZV’en] Wenn X1 , . . . , Xn unabhängige reelle Zufallsvariablen sind, dann gilt ¡ ¢ E X1 · X2 · . . . · Xn = E(X1 ) · E(X2 ) · . . . · E(Xn ) . Insbesondere für n = 2 : Zwei unabhängige reelle Zufallsvariablen sind stets auch unkorreliert. Theorem [Summationsregel für Varianzen unabhängiger reeller ZV’en] Wenn X1 , . . . , Xn unabhängige reelle Zufallsvariablen sind, dann gilt ³P ´ n n P Var Var(Xi ) . Xi = i=1 i=1 1.7 Summen von unabhängigen reellen Zufallsvariablen Theorem [Spezielle Verteilungen] Seien X1 , . . . , Xn unabhängige reelle Sufallsvariablen. Betrachte die Summenvariable Sn = n P i=1 Xi . (a) (Bernoulli-Variablen) Wenn Xi ∼ Bi(1, p) , i = 1, . . . , n , dann Sn ∼ Bi(n, p) . (b) (Poisson-verteilte ZV’en) Wenn Xi ∼ Poi(λi ) , i = 1, . . . , n , dann Sn ∼ Poi(λ) mit λ = n P i=1 λi . (c) (Normalverteilte ZV’en) Wenn Xi ∼ N(µi , σi ) , i = 1, . . . , n , dann Sn ∼ N(µ, σ) mit µ = n P i=1 µi und σ 2 = n P i=1 σi2 . Theorem [Zentraler Grenzwertsatz] Seien X1 , . . . , Xn unabhängige und identisch verteilte reelle Zufallsvariablen; (identisch verteilt: PX1 = PX2 = . . . = PXn ). Bezeichne µ = E(Xi ) und σ 2 = Var(Xi ) . Betrachte die Summenvariable sowie die standardisierte Summenvariable Sn = n P i=1 Xi Dann gilt für großes n näherungsweise: ¢ 1 ¡ und Sn∗ = √ Sn − nµ . nσ ¡ √ ¢ Sn∗ ∼ N(0, 1) und Sn ∼ N nµ , n σ . Anmerkung: Die präzise Formulierung des Resultats ist die Konvergenz (für n → ∞) der Verteilung von Sn∗ gegen die Standard-Normalverteilung, im Sinne der gleichmäßigen Konvergenz der Verteilungsfunktionen: Z x ¢ ¡ ¢ ¡ gleichmäßig für alle x ∈ R , lim P Sn∗ ≤ x = Φ(x) = exp − 21 z 2 dz n→∞ und folglich −∞ h ¡ ³ x − nµ ´ i ¢ = 0 lim P Sn ≤ x − Φ √ n→∞ nσ für jedes x ∈ R . Norbert Gaffke: Kurzskript zur Vorlesung “Schätzen und Testen”, Wintersemester 2011/12 Kapitel 1: Wahrscheinlichkeitsräume und Zufallsvariablen 11 Spezialfall: U.i.v. Bernoulli-Variablen X1 , . . . , Xn ∼ Bi(1, p) . Die exakte Verteilung der p ¡ ¢ Summenvariablen Sn ist Bi(n, p) ; für großes n (gemäß ZGWS) : Bi(n, p) ≈ N np , np(1 − p) , d.h. bxc µ ¶ ³ x − np ´ X n i P (Sn ≤ x) = p (1 − p)n−i ≈ Φ p für alle x ∈ R , x ≥ 0 i np(1 − p) i=0 Theorem [Starkes Gesetz der Großen Zahlen] Sei X1 , X2 , . . . , Xn , . . . eine unendliche Folge von unabhängigen und identisch verteilten reellen Zufallsvariablen; bezeichne µ = E(Xi ) . Betrachte die Folge der arithmetischen Mittel, n 1X Xn = Xi , (n ∈ N) . n i=1 ³ ´ Diese konvergieren (für n → ∞) mit Wahrscheinlichkeit 1 gegen µ : P lim X n = µ = 1 . n→∞ Interpretation des StGGZ für die Modellierung: Zufallsexperiment und w-theoretisches Modell n unabhängige Durchführungen eines Zufallsexperiments modelliert durch u.i.v. ZV’en X1 , . . . , Xn (reelle) Daten x1 , . . . , xn interpretiert als Werte von X1 , . . . , Xn konvergieren (für n → ∞) gegen Wahrscheinlichkeiten relative Häufigkeiten νn (x) = 1 n ¯ ¯ ¯{i : xi = x}¯ ¡ ¢ νn [ a , b ] = 1 n ¯ ¯ ¯{i : a ≤ xi ≤ b}¯ (n→∞) ——–−→ (n→∞) ——–−→ (n→∞) empirische Verteilungsfunktion: ¯ ¯ Fn (x) = n1 ¯{i : xi ≤ x}¯ ——–−→ empirischer Mittelwert: n P x = n1 xi ——–−→ empirische Varianz: n 1 P s2 = n−1 (xi − x)2 ——–−→ (n→∞) P (X = x) P (a ≤ X ≤ b) Verteilungsfunktion: FX (x) = P (X ≤ x) Erwartungswert µ = E(Xi ) i=1 i=1 (n→∞) Varianz σ 2 = Var(Xi )