WAHRSCHEINLICHKEITSVERTEILUNGEN 2. Maßzahlen von Zufallsvariablen Häufig ist man nicht am gesamten Realisationsbereich einer Zufallsvariablen, sondern lediglich an Bereichen hoher Wahrscheinlichkeit interessiert. Für die qualitative Untersuchung von Zufallsvariablen benötigt man entsprechend geeignete Maß-/Kennzahlen. Definition: Der Erwartungswert E(X) X:Ω→R Peiner diskreten Zufallsvariablen P mit X(Ω) = {x1 , x2 , . . .} ist E(X) = i≥1 xi · P (X = xi ) = i≥1 xi · f (xi ) (falls P Zufallsvai≥1 |xi | · f (xi ) existiert). Analog ist Rder Erwartungswert einer stetigen R∞ ∞ riablen X mit Dichte f durch E(X) = −∞ x·f (x) dx definiert (falls −∞ |x|·f (x) dx existiert). Besteht keine Verwechslungsgefahr, bezeichnet man den Erwartungswert häufig auch mit µ (sonst µX ). Bemerkung: P (i) Existiert in der obigen Definition die Summe i≥1 |xi | · f (xi ) bzw. das R∞ Integral −∞ |x| · f (x) dx, so existiert auch der Erwartungswert. Im Allgemeinen braucht der Erwartungswert zwar nicht zu existieren (z.B. bei der sog. Cauchy-Verteilung), aber wir gehen in dieser Vorlesung stets davon aus, dass wir es lediglich mit Zufallsvariablen zu tun haben, deren Erwartungswert existiert, ohne dies jedes Mal explizit zu erwähnen. (ii) DerPErwartungsert Pn ist linear, d.h. sind X1 , . . . , Xn Zufallsvariablen, so gilt n E( i=1 Xi ) = i=1 E(Xi ) und E(c · Xi ) = c · E(Xi ) für alle Zahlen c ∈ R. In der Regel wird der Wert, den X annimmt, jedoch mehr oder weniger vom Erwartungswert µ abweichen. Diese Abweichung wird beschrieben durch die Zufallsvariable X − µ. Um diese Abweichung zu untersuchen, betrachtet man, statt z.B. den Erwartungswert E(X − µ), die mathematisch besser geeignete Varianz. Definition: Ist X eine Zufallsvariable, so nennt man den Erwartungswert ihrer quadratischen Abweichung von E(X) = µ die Varianz von X und bezeichnet diese mit V (X), d.h. V (X) = E((X − µ)2 ) (falls existent). Besteht keine Verwechslungs2 2 gefahr, p so bezeichnet man die Varianz häufig auch mit σ (sonst σX ). Die Größe σ = V (X) heißt die Standardabweichung von X. Um einen für die Praxis brauchbaren Ausdruck für die Berechnung der Varianz zu bekommen, benötigen wir den folgenden Satz. Satz: Es sei X : Ω → R eine Zufallsvariable und g : X(Ω) → R stetig. Dann gilt für die Zufallsvariable Y = g ◦ X : Ω → R R∞ (i) Ist X stetig mit Dichte f , so ist E(Y ) = −∞ g(x)f (x) dx (falls existent). P (ii) Ist X diskret mit X(Ω) = {x1 , x2 , . . .}, so ist E(Y ) = i≥1 g(xi )f (xi ). Als direkte Konsequenz erhalten wir nun entsprechende Ausdrücke für die Varianz einer Zufallsvariablen, indem wir im obigen Satz g(x) = (x − µ)2 setzen. Folgerungen: (i) Ist X eine stetige R ∞ Zufallsvariable mit Dichte f und Erwartungswert µ, so gilt V (X) = −∞ (x − µ)2 f (x) dx (falls existent). (ii) Ist X eine diskrete Zufallsvariable mit Realisationen X(Ω) = {x1 , x2 , . . .} und Wahrscheinlichkeitsverteilung P f (xi ) = P (X = xi ) sowie Erwartungswert E(X) = µ, so gilt V (X) = i≥1 (xi − µ)2 f (xi ). (iii) Es gilt der sogenannte Verschiebungssatz V (X) = E(X 2 ) − (E(X))2 . Beispiel: Es gilt: (i) Ist X normalverteilt nach N (µ, σ 2 ), so ist E(X) = µ und V (X) = σ 2 . (ii) Ist X binomialverteilt nach Bn,p , so ist E(X) = np und V (X) = np(1 − p). (iii) Ist X Poisson-verteilt nach Pλ , so ist E(X) = λ und V (X) = λ. (iv) Ist X gleichverteilt auf [a, b], so ist E(X) = a+b 2 und V (X) = (b−a)2 12 . Eine wichtige Beobachtung bei der Untersuchung von Zufallsvariablen liefert der sogenannte Zentrale Grenzwertsatz. Satz (Zentraler Grenzwertsatz) Es seien X1 , . . . , Xn : Ω → R unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Dann ist für hinreichend großes n die SumPn me Z = i=1 Xi annähernd normalverteilt mit Erwartungswert E(Z) = nµ und √ Varianz V (Z) = nσ 2 . Insbesodere ist dann die standardisierte Variable Y = Z−µ σ n annähernd standardnormalverteilt. Bemerkungen (i) Die Näherung ist meistens bereits für n ≥ 30 brauchbar. (ii) Die Voraussetzungen des Satzes sind insbesondere erfüllt, wenn man ein Experiment hinreichend oft (unabhängig) durchführt. Ganz allgemein nennt man Zufallsvariablen X1 , . . . , Xn : Ω → R unabhängig, falls P ({X1 = x1 } ∩ . . . ∩ {Xn = xn }) = P (X1 = x1 ) · . . . · P (Xn = xn ) für alle x1 , . . . , xn ∈ R gilt. (iii) Sind alle Xi normalverteilt, so ist auch Z normalverteilt. Pn 2 (iv) Allgemein ist für X̄ = n1 i=1 Xi entsprechend E(X̄) = µ und V (X̄) = σn . (v) In der Vorlesung haben wir gesehen, wie man mithilfe des Zentralen Grenzwertsatzes sieht, dass man die Binomialverteilung Bn,p für große n durch die Normalverteilung N (np, np(1−p)) approximieren kann. Diese Näherung ist brauchbar für np(1 − p) > 9. Oft ist man hauptsächlich an Bereichen hoher Wahrscheinlichkeiten interessiert. Hierfür benötigt man dann die Grenzen der entsprechenden Wertebereiche, die man mithilfe der sogenannten Quantile bestimmt. Definition Für eine Zufallsvariable X und eine Zahl α ∈ (0, 1) nennen wir einen Wert ξα , der die Gleichung P (X ≤ ξα ) = α erfüllt ein α-Quantil von X. Ein 0.5-Quantil wird auch als Median bezeichnet. Bemerkungen (i) Man bezeichnet die Quantile oft auch mit den entsprechenden Prozentzahlen, d.h. man spricht beispielsweise bei ξ0.75 auch vom 75%-Quantil und ein 0.2-Quantil ist dasselbe wie ein 20%-Quantil. (ii) Im Allgemeinen muss ein Quantil nicht existieren oder eindeutig sein, wie wir in der Vorlesung gesehen haben. (iii) Ist X stetig, so existieren alle Quantile. Gilt zudem für die Dichte f > 0 auf dem Inneren von X(Ω), so ist die Verteilungsfunktion F umkehrbar und ξα (eindeutig) gegeben durch ξα = F −1 (α), d.h. das α-Quantil kann in diesem R ξα Fall über Gleichung α = −∞ f (x)dx bestimmt werden.