Statistische Inferenz Propädeutikum Dipl.-Kffr. Katja Rettke Lehrstuhl für Wirtschafts- und Sozialstatistik Friedrich-Schiller-Universität Jena Ablauf: Montag, 05.10.2015: Dienstag, 06.10.2015: Vorlesung Vorlesung Montag, 12.10.2015: Dienstag, 13.10.2015: Mittwoch, 14.10.2015: Freitag, 16.10.2015: Übung Vorlesung Vorlesung Übung Uhrzeit: jeweils 9:00 - 11:00 Uhr und 12:00 - 14:00 Uhr Ort: 05.10. - 14.10.2015: 16.10.2015: Hörsaal Bachstraße 18k Hörsaal Astoria, Unterm Markt 8 Kleingruppenkolloquium: (Raum 4.62) Dienstag, 06.10.2015: Mittwoch, 07.10.2015: Dienstag, 13.10.2015: Donnerstag, 15.10.2015: 15:30 09:00 15:30 09:00 1 - 18:30 12:00 18:30 12:00 Uhr Uhr Uhr Uhr Inhaltsverzeichnis Literaturempfehlungen 4 Elementare Rechenregeln 6 1 Grundlagen der Analysis 1.1 Funktionen einer reellen Variablen . . . . . . . . . . 1.1.1 Funktionsbegriff . . . . . . . . . . . . . . . . 1.1.2 Eigenschaften von Funktionen . . . . . . . . 1.1.3 Differentiation von Funktionen . . . . . . . . 1.2 Funktionen mehrerer reeller Variablen . . . . . . . . 1.2.1 Darstellung von Funktionen f : Rn −→ R . . 1.2.2 Partielle Ableitungen und totales Differential 1.3 Integration von Funktionen . . . . . . . . . . . . . 1.3.1 Unbestimmte und bestimmte Integrale . . . 1.3.2 Integrationsregeln . . . . . . . . . . . . . . . 1.3.3 Stammfunktionen elementarer Funktionen . . . . . . . . . . . . 7 7 7 8 9 11 11 12 13 13 15 17 2 Grundlagen der linearen Algebra 2.1 Vektoren und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Einfache Rechenoperationen . . . . . . . . . . . . . . . . . . . . . . . . . 18 18 19 3 Eindimensionale Zufallsvariablen und ihre Verteilungen 3.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.2 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . 3.2.1 Definition und grundlegende Eigenschaften . . 3.2.2 Bernoulli-Verteilung . . . . . . . . . . . . . . 3.2.3 Binomialverteilung . . . . . . . . . . . . . . . 3.2.4 Geometrische Verteilung . . . . . . . . . . . . 3.2.5 Poisson-Verteilung . . . . . . . . . . . . . . . 3.2.6 Hypergeometrische Verteilung . . . . . . . . . 3.2.7 Zusammenfassung . . . . . . . . . . . . . . . . 3.3 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . 3.3.1 Definition und grundlegende Eigenschaften . . 3.3.2 Rechteckverteilung . . . . . . . . . . . . . . . 3.3.3 Gammaverteilung . . . . . . . . . . . . . . . . 22 22 23 23 24 25 26 26 27 28 28 28 29 30 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 3.3.5 3.3.6 3.3.7 3.3.8 3.3.9 Exponentialverteilung . . . . . . Normalverteilung . . . . . . . . . Logarithmische Normalverteilung χ2 -Verteilung . . . . . . . . . . . t-Verteilung . . . . . . . . . . . . Beta-Verteilung . . . . . . . . . . . . . . . . 30 31 31 31 32 32 . . . . . . 34 34 35 37 37 39 40 . . . . . . . . . 41 41 41 42 45 45 46 47 47 47 6 Funktionen von Zufallsvariablen 6.1 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Transformationssatz für Dichtefunktionen . . . . . . . . . . . . . . . . . . 6.3 Bedingter Erwartungswert und bedingte Erwartung . . . . . . . . . . . . 49 49 51 51 4 Mehrdimensionale Zufallsvariablen 4.1 Grundlagen . . . . . . . . . . . . . . 4.2 Randverteilungen . . . . . . . . . . . 4.3 Unabhängigkeit von Zufallsvariablen 4.4 Bedingte Verteilungen . . . . . . . . 4.5 Satz von Bayes . . . . . . . . . . . . 4.6 Zweidimensionale Normalverteilung . . . . . . . . . . . . . 5 Momente und Quantile von Zufallsvariablen 5.1 Eindimensionale Zufallsvariablen . . . . 5.1.1 Erwartungswert . . . . . . . . . . 5.1.2 Varianz und Standardabweichung 5.1.3 Schiefe . . . . . . . . . . . . . . . 5.1.4 Kurtosis . . . . . . . . . . . . . . 5.1.5 Quantile . . . . . . . . . . . . . . 5.2 Mehrdimensionale Zufallsvariablen . . . 5.2.1 Kovarianz . . . . . . . . . . . . . 5.2.2 Korrelation . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literaturempfehlungen Bamberg, G./Baur, F./Krapp, M. (2012): Statistik, Oldenbourgs Lehr- und Handbücher der Wirtschafts- u. Sozialwissenschaften, De Gruyter. Berg, C./Korb, U. (2013): Mathematik für Wirtschaftswissenschaftler: Teil I Analysis - Lehrstoffkurzfassung und Aufgabensammlung mit Lösungen, Gabler Verlag. Bosch, K. (2012): Übungs- und Arbeitsbuch Mathematik für Ökonomen, De Gruyter. Bücker, R. (2003): Mathematik für Wirtschaftswissenschaftler, De Gruyter. Clausen, M./Kerber, A. (1991): Mathematische Grundlagen für Wirtschaftswissenschaftler, Bayreuther mathematische Schriften, BI-Wiss.-Verlag. Czado, C./Schmidt, T. (2011): Mathematische Statistik, Statistik und ihre Anwendungen, Springer. Eckey, H./Kosfeld, R./Türck, M. (2015): Wahrscheinlichkeitsrechnung und Induktive Statistik: Grundlagen – Methoden – Beispiele, Gabler Verlag. Fahrmeir, L./Künstler, R./Pigeot, I./Tutz, G. (2013): Statistik: Der Weg zur Datenanalyse, Springer. Gal, T./Gal, J. (2013): Mathematik für Wirtschaftswissenschaftler: Aufgabensammlung, Heidelberger Lehrtexte Wirtschaftswissenschaften, Springer. Luderer, B./Würker, U. (2014): Einstieg in die Wirtschaftsmathematik, Studienbücher Wirtschaftsmathematik, Springer. Mosler, K./Schmid, F. (2008): Wahrscheinlichkeitsrechnung und schließende Statistik, Springer. Ohse, D. (2000): Elementare Algebra und Funktionen: ein Brückenkurs zum Studium, Vahlen. Ohse, D. (2004): Mathematik für Wirtschaftswissenschaftler: Analysis, Mathematik für Wirtschaftswissenschaftler, Vahlen. Ohse, D. (2005): Mathematik für Wirtschaftswissenschaftler 2: Lineare Wirtschaftsalgebra, Mathematik für Wirtschaftswissenschaftler, Vahlen. 4 Pfuff, F. (2009): Mathematik für Wirtschaftswissenschaftler kompakt: Kurz und verständlich mit vielen einfachen Beispielen, Studienbücher Wirtschaftsmathematik, Vieweg+Teubner Verlag. Pfuff, F. (2010): Mathematik für Wirtschaftswissenschaftler 1: Grundzüge der Analysis - Funktionen einer Variablen, Vieweg+Teubner Verlag. Purkert, W. (2014): Brückenkurs Mathematik für Wirtschaftswissenschaftler, Studienbücher Wirtschaftsmathematik, Springer. Rommelfanger, H. (2001): Mathematik für Wirtschaftswissenschaftler II, B.I.Hochschultaschenbücher, Spektrum Akademischer Verlag. Schwarze, J. (2003): Mathematik für Wirtschaftswissenschaftler: elementare Grundlagen für Studienanfänger mit zahlreichen Kontrolltests, Übungsaufgaben und Lösungen, Mathematik für Wirtschaftswissenschaftler, Verlag Neue Wirtschafts-Briefe. Schwarze, J. (2008): Aufgabensammlung zur Mathematik für Wirtschaftswissenschaftler, NWB Studium Betriebswirtschaft, Verlag Neue Wirtschafts-Briefe. Schwarze, J. (2011): Mathematik für Wirtschaftswissenschaftler: Lineare Algebra, lineare Optimierung und Graphentheorie, Mathematik für Wirtschaftswissenschaftler, NWB. Vogt, H. (2013): Einführung in die Wirtschaftsmathematik, Physica-Verlag HD. 5 Elementare Rechenregeln Binomische Formeln (x + y)2 = x2 + 2xy + y 2 (x + y)(x − y) = x2 − y 2 (x − y)2 = x2 − 2xy + y 2 (x + y)n = Pn k=0 n k · xn−k · y k , n ∈ N0 Potenz- und Wurzelgesetze xn · xm = xn+m xn · y n = (x · y)n (xn )m = xnm = (xm )n √ n √ n √ n 1 x = xn xy = √ √ n xny x−n = 1 xn q √ nx √ ny n x y = m xm = x n Logarithmengesetze loga x = y ⇐⇒ ay = x loga 1 = 0 für a, x > 0 und a 6= 1 loga (xn ) = n loga x loga a = 1 loga ( xy ) = loga x − loga y loga (xy) = loga x + loga y loga x = logb x logb a für a, b, x > 0 und a, b 6= 1 Für die spezielle Basis b = e ≈ 2.71828182845905 (EULER-sche Zahl) erhält man den natürlichen Logarithmus, der mit ln x bezeichnet wird. Es gilt die Bezeichnung loga x = ln x . ln a Lösung von quadratischen Gleichungen 2 x + px + q = 0 =⇒ x1/2 p =− ± 2 6 s p2 −q 4 für p2 −q ≥0 4 1 Grundlagen der Analysis 1.1 Funktionen einer reellen Variablen 1.1.1 Funktionsbegriff Definition 1 (Funktion) Durch eine Funktion f : R −→ R wird jedem Element x des Definitionsbereiches Df eindeutig ein Element y ∈ R zugeordnet. Schreibweisen: y = f (x) x ∈ Df ⊆ R −→ y ∈ R f : Df −→ R Wertebereich: Wf = {y ∈ R : ∃ x ∈ Df mit y = f (x)} Definition 2 (Surjektivität) Die Funktion f heißt surjektiv, wenn jedes y ∈ Wf mindestens einmal als Bildpunkt eines x ∈ Df auftritt. D. h. ∀ y ∈ Wf ∃ x ∈ Df : f (x) = y. Definition 3 (Injektivität) Die Funktion f heißt injektiv (eineindeutig), wenn jedes y ∈ Wf genau einmal als Bildpunkt eines x ∈ Df auftritt. D. h. ∀ x1 , x2 ∈ Df mit f (x1 ) = f (x2 ) folgt stets x1 = x2 . Für injektive Funktionen y = f (x) existiert die inverse Funktion (Umkehrfunktion) y = f −1 (x) mit f −1 : Wf −→ R f −1 (f (x)) = x Df −1 = Wf Wf −1 = Df und f (f −1 (y)) = y. Geometrisch entspricht der Übergang zur inversen Funktion einer Spiegelung an der Geraden y = x. 7 1.1.2 Eigenschaften von Funktionen Definition 4 (Linksseitiger Grenzwert) Sei Df ⊆ R und f : Df −→ R eine Funktion. Man sagt, dass f in einem Punkt x0 ∈ R den linksseitigen Grenzwert L− ∈ R besitzt, wenn zu jedem > 0 ein δ > 0 existiert, so dass aus x0 − δ < x < x0 stets |f (x) − L− | < folgt. Entsprechend sagt man, dass f in einem Punkt x0 ∈ R den rechtsseitigen Grenzwert L+ ∈ R besitzt, wenn zu jedem > 0 ein δ > 0 existiert, so dass aus x0 < x < x0 + δ stets |f (x) − L+ | < folgt. Schreibweisen: L− = x→x lim f (x) bzw. L− = lim− f (x) bzw. 0 x<x0 L+ = x→x lim f (x) 0 x>x0 x→x0 L+ = lim+ f (x) x→x0 Im Falle L− = L+ schreibt man: L = limx→x0 f (x). Definition 5 (Stetigkeit) Sei Df ⊆ R, x0 ∈ Df und f : Df −→ R eine Funktion. Dann heißt f stetig in x0 , falls der Grenzwert L = limx→x0 f (x) von f in x0 existiert und mit dem Funktionswert f (x0 ) übereinstimmt. Ist f in jedem Punkt x0 ∈ Df stetig, so heißt f stetig auf Df . • Die Stetigkeit einer Funktion f in einem Punkt x0 erfordert somit, dass die folgenden vier Bedingungen erfüllt sind: i) Der linksseitige Grenzwert existiert. ii) Der rechtsseitige Grenzwert existiert. iii) Der Funktionswert f (x0 ) existiert. iv) Es gilt: L− = L+ = f (x0 ). • Umgekehrt bedeutet dies: Eine Funktion f ist unstetig in x0 , falls (die Existenz von f (x0 ) vorausgesetzt) mindestens die erste, zweite oder vierte Bedingung der Liste verletzt ist. • Man nennt x0 eine Unstetigkeitststelle 1. Art bzw. Sprungstelle von f , falls beide einseitigen Grenzwerte existieren, aber verschieden sind. 8 Definition 6 (Monotonie) Eine Funktion f : Df −→ R, heißt: • monoton steigend, wenn ∀ x1 , x2 ∈ Df mit x1 ≤ x2 gilt, dass f (x1 ) ≤ f (x2 ) • streng monoton steigend, wenn ∀ x1 , x2 ∈ Df mit x1 < x2 gilt, dass f (x1 ) < f (x2 ) • monoton fallend, wenn ∀ x1 , x2 ∈ Df mit x1 ≤ x2 gilt, dass f (x1 ) ≥ f (x2 ) • streng monoton fallend, wenn ∀ x1 , x2 ∈ Df mit x1 < x2 gilt, dass f (x1 ) > f (x2 ) • monoton, wenn sie entweder monoton steigt oder fällt • streng monoton, wenn sie entweder streng monoton steigt oder streng monoton fällt • Streng monotone Funktionen sind stets injektiv: Aus x1 6= x2 (o.B.d.A.1 x1 < x2 ) folgt f (x1 ) > f (x2 ) (streng monoton fallend) oder f (x1 ) < f (x2 ) (streng monoton steigend), in jedem Fall aber f (x1 ) 6= f (x2 ). Für streng monotone Funktionen existiert daher immer eine Umkehrfunktion. 1.1.3 Differentiation von Funktionen Ableitung der Funktion f : R −→ R Differenzenquotient: ∆y f (x + ∆x) − f (x) = ∆x ∆x Differentialquotient (1. Ableitung): y 0 (x) = f 0 (x) = 1 df f (x + ∆x) − f (x) (x) = lim ∆x→0 dx ∆x Ohne Beschränkung der Allgemeinheit 9 Differentiationsregeln (Ableitungen nach x mit c ∈ R) (c · f (x))0 = c · f 0 (x) (f (x) + g(x))0 = f 0 (x) + g 0 (x) (f (x) · g(x))0 = f 0 (x) · g(x) + f (x) · g 0 (x) = f 0 (x)g(x)−f (x)g 0 (x) [g(x)]2 = f 0 (g(x)) · g 0 (x) = 1 f 0 (f −1 (x)) f (x) 0 g(x) (f (g(x)))0 0 (f −1 (x)) Ableitung elementarer Funktionen Ableitung f 0 Funktion f xα , α∈R αxα−1 ax , a>0 ax ln a ex loga x, ex 1 x ln a a > 0, a 6= 1 ln x 1 x sin x cos x cos x − sin x tan x 1 + tan2 x = 10 1 cos2 x Untersuchung einer Funktion f : R −→ R mit Hilfe der Ableitung Relativer Extremwert in x0 ∈ Df : notwendige Bedingung hinreichende Bedingung Minimum für Maximum für Wendepunkt in x0 ∈ Df : f 0 (x0 ) = 0 f 00 (x0 ) 6= 0 f 00 (x0 ) > 0 f 00 (x0 ) < 0 notwendige Bedingung hinreichende Bedingung Monotonie: f 00 (x0 ) = 0 f 000 (x0 ) 6= 0 Gilt für alle x ∈ I ⊆ Df f 0 (x) ≥ 0, so ist f auf f 0 (x) > 0, so ist f auf f 0 (x) ≤ 0, so ist f auf f 0 (x) < 0, so ist f auf f 0 (x) = 0, so ist f auf Krümmungsverhalten: I I I I I monoton wachsend streng monoton wachsend monoton fallend streng monoton fallend konstant. Gilt für alle x ∈ I ⊆ Df f 00 (x) ≥ 0, so ist f auf I konvex f 00 (x) ≤ 0, so ist f auf I konkav 1.2 Funktionen mehrerer reeller Variablen 1.2.1 Darstellung von Funktionen f : Rn −→ R Funktionen f : Rn −→ R allgemein Durch eine Funktion f : Rn −→ R wird jedem Element x = (x1 , ..., xn ) des Definitionsbereiches Df ⊆ Rn eindeutig ein Element y ∈ R zugeordnet. Man verwendet die Schreibweise y = f (x) = f (x1 , ..., xn ). Spezialfall n = 2 häufig verwendete Darstellungen: y = f (x1 , x2 ) z = f (x, y) 11 Möglichkeit der graphischen Darstellung im dreidimensionalen Raum mit dem Koordinatensystem x, y, z durch ein Funktionsgebirge über der x, y-Ebene mit der Höhe z = f (x, y). 1.2.2 Partielle Ableitungen und totales Differential Definition 7 (Partielle Ableitung ) Für die Funktion f : Rn −→ R mit y = f (x) wird durch f (x01 , ..., x0k−1 , x0k + ∆xk , x0k+1 , ..., x0n ) − f (x01 , ..., x0k−1 , x0k , x0k+1 , ..., x0n ) ∆xk →0 ∆xk lim die partielle Ableitung der Funktion f an der Stelle x0 = (x01 , ..., x0n ) ∈ Df nach der Variablen xk definiert. Schreibweisen: ∂f ∂f 0 oder kurz (x) (x ) ∂xk ∂xk x=x0 Definition 8 (Gradient) Sei eine Funktion f : Rn −→ R gegeben. Der Vektor aller partiellen Ableitungen erster Ordnung in x0 ∈ Df !T grad(f )(x0 ) = ∂f 0 ∂f 0 ∂f 0 (x ), (x ), ..., (x ) ∂x1 ∂x2 ∂xn heißt Gradient der Funktion f an der Stelle x0 . • Für f : R −→ R ist f 0 (x) die Steigung der Funktion f an der Stelle x. • Für f : Rn −→ R ist grad(f ) ein Vektor. Dabei zeigt der Vektor grad(f ) in die Richtung des steilsten Anstiegs. Der Betrag des Vektors grad(f ) gibt an, wie steil dieser Anstieg ist. Jedem Punkt x ∈ Rn wird somit ein Vektor grad(f ) ∈ Rn zugeordnet. Definition 9 (Hessematrix ) Ist die Funktion f : Rn −→ R gegeben. Die Matrix aller partiellen Ableitungen zweiter Ordnung an einer Stelle x0 ∂2f (x0 ) ∂x 1 ∂x1 ··· ∂2f (x0 ) ∂xn ∂x1 ··· H(x0 ) = .. . 12 ∂2f (x0 ) ∂x1 ∂xn .. . ∂2f (x0 ) ∂xn ∂xn heißt Hessematrix der Funktion f an der Stelle x0 . Totales Differential dy = n X ∂f 0 ∂f 0 ∂f 0 ∂f 0 (x ) d xk = (x ) d x1 + (x ) d x2 + ... + (x ) d xn ∂x1 ∂x2 ∂xn k=1 ∂xk Für n = 2 und z = f (x, y): dz = ∂f ∂f (x0 , y0 ) d x + (x0 , y0 ) d y ∂x ∂y verallgemeinerte Kettenregel Ist die Funktion g : R −→ R durch den Zusammenhang g(t) = f (x(t)) = f (x1 (t), ..., xn (t)) gegeben, so gilt: ∂f d x1 ∂f d xn dg (t) = g 0 (t) = (x(t)) (t) + ... + (x(t)) (t). dt ∂x1 dt ∂xn dt 1.3 Integration von Funktionen 1.3.1 Unbestimmte und bestimmte Integrale Definition 10 (Unbestimmtes Integral ) Sei eine Funktion f : R −→ R mit dem Definitionsbereich Df gegeben. Eine Funktion F : Df −→ R heißt Stammfunktion zu f , wenn F differenzierbar ist und F 0 (x) = f (x) gilt. Man schreibt: F (x) = Z f (t) d t und nennt diesen Ausdruck das unbestimmte Integral der Funktion f . • Das unbestimmte Integral ist nur bis auf eine additive Konstante bestimmt. Es gilt: Z f (x) d x = F (x) + C 13 mit einer Stammfunktion F von f und einer beliebigen Konstanten C (Integrationskonstante). • Hauptsatz der Infinitesimalrechnung (1. Teil): Sei die Funktion f : [a, b] −→ R stetig und [a, b] ⊆ R. Zudem sei x0 ∈ [a, b]. Dann ist die Integralfunktion Z x f (t) d t F (x) := x0 differenzierbar und eine Stammfunktion von f . Es gilt: F 0 (x) = f (x) für alle x ∈ [a, b]. • Das unbestimmte Integral F (x) = xx0 f (t) d t repräsentiert den Flächeninhalt zwischen der Kurve f (t) (f (t) sei positiv für alle t ∈ [x0 , x]) und der t-Achse (Abszissenachse) im Intervall t ∈ [x0 , x] in Abhängigkeit von der Obergrenze x und wird daher auch als Flächenfunktion bezeichnet. R • Hauptsatz der Infinitesimalrechnung (2. Teil): Sei f : R −→ R eine stetige Funktion. Wenn das endliche Intervall [a, b] ⊆ Df ist und die Funktion f in diesem beschränkt ist, gilt für das bestimmte Integral Z b f (x) d x = F (b) − F (a) a mit einer beliebigen Stammfunktion F (x) von f (x). • Wenn die Funktion f im Intervall [a, b] positiv ist, ist der Flächeninhalt A der Fläche, die durch die x-Achse, die Kurve f (x) mit x ∈ [a, b], die Gerade x = a und die Gerade x = b begrenzt wird, gleich dem bestimmten Integral A= Z b f (x) d x. a Parameterabhängige Integrale Gegeben sei die Funktion g, die mit Hilfe der Funktion f : R2 −→ R und den Funktionen α : R −→ R und β : R −→ R durch den Ausdruck g(x) = Z β(x) f (x, t) d t α(x) definiert ist. Dann gilt für die Ableitung von g(x) nach x die Beziehung: g 0 (x) = Z β(x) α(x) ∂f (x, t) dβ dα d t + f (x, β(x)) (x) − f (x, α(x)) (x). ∂x dx dx 14 Diese Differentiationsregel für Parameterintegrale wird Leibniz-Regel genannt. Spezialfälle: g(x) = Z x f (t) d t =⇒ g 0 (x) = f (x) x0 g(x) = Z b 0 f (x, t) d t =⇒ g (x) = Z b a a ∂f (x, t) dt ∂x Mehrfachintegrale (Doppelintegrale) Gegeben ist die Funktion f : R2 −→ R durch z = f (x, y). Dann kann man Doppelintegrale der Form Z bZ d f (x, y) d y d x c a berechnen. Dabei wird immer das innere Integral zuerst berechnet. • Es gilt: Z bZ d a f (x, y) d y d x = Z dZ b c c f (x, y) d x d y a • Eine Verallgemeinerung auf Funktionen f : Rn −→ R mit f (x1 , ..., xn ) und Integrale der Form Z b1 a1 ... Z bn an f (x1 , ..., xn ) d xn ... d x1 ist einfach möglich. 1.3.2 Integrationsregeln Linearität (konstante Faktoren und Summen): Z b λ · f (x) d x = λ · a Z b Z b λ∈R f (x) d x, a (f (x) + g(x)) d x = a Z b f (x) d x + a Obergrenze = Untergrenze: Z a f (x) d x = 0 a 15 Z b a g(x) d x Umkehrung der Integrationsrichtung: Z b f (x) d x = − a Z a f (x) d x b Unterteilung des Integrationsintervalls: Z b f (x) d x + Z c a f (x) d x = b Z c f (x) d x a Partielle Integration: Ist [a, b] ein Intervall und sind f, g : [a, b] −→ R zwei stetig differenzierbare Funktionen auf ]a, b[, dann gilt: Z b 0 f (x) · g(x) d x = [f (x) · a g(x)]ba − Z b f (x) · g 0 (x) d x a = f (b) · g(b) − f (a) · g(a) − Z b f (x) · g 0 (x) d x a Substitutionsregel: Sei F eine Stammfunktion von f . Nach der Kettenregel gilt für die Ableitung der zusammengesetzten Funktion Φ(x) = F (g(x)): Φ0 (x) = φ(x) = F 0 (g(x)) · g 0 (x) = f (g(x)) · g 0 (x) mit g 0 (x) 6= 0. Durch zweimalige Anwendung des Hauptsatzes der Differential- und Integralrechnung erhält man: Z b f (g(x)) · g 0 (x) d x = Φ(b) − Φ(a) a = F (g(b)) − F (g(a)) = Z g(b) g(a) mit z = g(x) und d z = g 0 (x) d x. 16 f (z) d z 1.3.3 Stammfunktionen elementarer Funktionen R Funktion f (x) Stammfunktion F (x) = f (x) d x xα , α 6= −1 1 xα+1 α+1 ax , a>0 ax ln a +c +c ex ex + c 1 x ln |x| + c sin x − cos x + c cos x sin x + c 17 2 Grundlagen der linearen Algebra 2.1 Vektoren und Matrizen Hier wird nur der Vektorraum Rn betrachtet. Die Elemente eines Vektorraumes heißen Vektoren. Ein Vektor x ∈ Rn besteht aus n Zahlen (Koordinaten) x1 , x2 , ..., xn ∈ R. Mögliche Darstellungen sind die Spalten- bzw. Zeilenschreibweise. x 1 x2 T x= .. = (x1 , x2 , ..., xn ) . xn Wichtig ist, dass die Summe von zwei Vektoren x und y wieder im Vektorraum liegt. Das gilt auch für das Vielfache eines Vektors x mit einer reellen Zahl λ. Es gilt: x + y1 y x 1 1 1 x2 + y2 x2 y 2 x+y = . + . = . .. .. .. xn und yn xn + yn λx x 1 1 λx2 x2 λ · x = λ . = . .. .. xn λxn Eine (m, n)-Matrix A ist ein System von m · n reellen Zahlen aik (den Elementen der Matrix) für i = 1, ..., m und k = 1, ..., n, die in einem rechteckigen Schema mit m Zeilen und n Spalten angeordnet sind, d. h. A = (aik )(m,n) a 11 .. = . ··· am1 · · · a1n .. . . amn • Eine (m, 1)-Matrix ist ein Spaltenvektor. Eine (1, n)-Matrix ist ein Zeilenvektor. • Für m = n heißt die Matrix A quadratisch. Eine wichtige quadratische Matrix ist die 18 (n, n) - Einheitsmatrix. 0 ··· 0 1 · · · 0 .. . . .. . . . 0 0 ··· 1 1 0 In = .. . • Eine symmetrische Matrix A ist eine quadratische Matrix, deren Elemente spiegelsymmetrisch bzgl. der Hauptdiagonalen sind. Es gilt: aik = aki . • Ein Skalar ist eine Matrix mit nur einem Element und kann wie eine reelle Zahl behandelt werden. • Zwei Matrizen A und B sind nur dann gleich, wenn sie vom gleichen Typ (m, n) sind und für alle i und k stets aik = bik gilt. • Bei der Nullmatrix 0 sind alle Elemente gleich Null. 2.2 Einfache Rechenoperationen Multiplikation einer Matrix mit einem Skalar: Sind A und B Matrizen vom Typ (m, n) und c, d reelle Zahlen, so gilt: i) cA = (caik )(m,n) ii) Kommutativgesetz: cA = Ac iii) Assoziativgesetz: c(dA) = (cd)A iv) Distributivgesetz: (c + d)A = cA + dA (c − d)A = cA − dA c(A + B) = cA + cB c(A − B) = cA − cB Addition und Subtraktion von Matrizen: Sind A und B Matrizen vom Typ (m, n), so gilt A + B = (aik + bik )(m,n) 19 bzw. A − B = (aik − bik )(m,n) . Die Addition und Subtraktion von Matrizen ist nur möglich, wenn sie vom gleichen Typ sind Multiplikation von Matrizen: Ist A = (aik ) eine (m, n) Matrix und B = (bkl ) eine (n, p) Matrix, so wird das Produkt durch AB = C = (cil )(m,p) definiert. Dabei gilt cil = n X aik bkl k=1 für i = 1, .., m und l = 1, ..., p. Damit ist die Multiplikation von Matrizen nur möglich, wenn die Spaltenzahl vom ersten Faktor mit der Zeilenzahl vom zweiten Faktor übereinstimmt. Das Produkt ist dann eine Matrix C vom Typ (m, p). Es gilt das Assoziativgesetz: A(BC) = (AB)C, jedoch nicht das Kommutativgesetz: AB 6= BA. Transponieren von Matrizen: Ist A eine Matrix vom Typ (m, n). Dann ist die zur Matrix A = (aik )(m,n) a 11 .. = . ··· am1 · · · a1n .. . amn transponierte Matrix AT definiert durch AT = (aik )(n,m) a ··· 11 .. = . a1n · · · am1 .. . amn . Folglich ergibt sich die transponierte Matrix AT durch das Vertauschen der Zeilen und Spalten von Matrix A. 20 Es gilt: i) (A + B)T = AT + B T ii) (c · A)T = c · AT iii) (AT )T = A iv) (A · B)T = B T · AT v) (A−1 )T = (AT )−1 Invertieren von Matrizen: Zu einer quadratischen Matrix A vom Typ (n, n) existiert die inverse Matrix A−1 , wenn A · A−1 = A−1 · A = I n gilt. Hinweis: Nicht jede quadratische Matrix besitzt eine inverse Matrix. Anwendung einer Matrix auf einen Vektor: Ist A = (aik ) eine (m, n) Matrix und x = (x1 , x2 , ..., xn )T ein Vektor im Rn , so ist durch Ax = y = (y1 , y2 , ..., ym )T mit yi = n X aik xk für i = 1, 2, ..., m k=1 die Anwendung der Matrix A auf den Vektor x definiert. Das Ergebnis dieser Anwendung ist ein Vektor y ∈ Rm . Damit kann jede (m, n) - Matrix A als eine Abbildung von Rn nach Rm betrachtet werden. Die Beziehung Ax = y wird lineare Transformation des Vektors x in den Vektor y genannt. 21 3 Eindimensionale Zufallsvariablen und ihre Verteilungen 3.1 Grundlagen Wahrscheinlichkeitsraum • (Ω, ε, P ) Wahrscheinlichkeitsraum • Ω Menge der möglichen Ergebnisse ω eines zufallsabhängigen Vorgangs • ε σ-Algebra auf Ω, d.h. ε ist eine Menge von Teilmengen von Ω mit folgenden Eigenschaften: i) ∅ ∈ ε ii) A ∈ ε ⇒ AC ∈ ε iii) Ai ∈ ε(i = 1, 2, ...) ⇒ ∪Ai ∈ ε i mit AC = Ω \ A dem Komplement der Menge A. • P Wahrscheinlichkeitsmaß auf ε, d.h. i) P (A) ∈ [0, 1] ∀A∈ε ii) P (Ω) = 1 iii) A1 , A2 , ... ∈ ε, Ai ∩ Aj = ∅ für i 6= j P ⇒ P (∪Ai ) = P (Ai ) i i • P (A) Wahrscheinlichkeit, dass ein Ergebnis ω mit ω ∈ A eintritt (Wahrscheinlichkeit des Ereignisses A) • P (A∪B) = P (A)+P (B), falls A und B sich ausschließende Ereignisse sind (A∩B = ∅) • P (A ∪ B) = P (A) + P (B) − P (A ∩ B) für alle Ereignisse A, B Zufallsvariable • X:Ω → R heißt Zufallsvariable (ZV), falls für alle Intervalle I gilt: X −1 (I) := {ω ∈ Ω|X(ω) ∈ I} ∈ ε • d. h. für alle a, b ∈ R, a ≤ b, kann die Wahrscheinlichkeit des Ereignisses A = {ω ∈ Ω|a ≤ X(ω) ≤ b} bestimmt werden 22 P (X = x) = P ({ω ∈ Ω|X(ω) = x}) = Wahrscheinlichkeit, dass X den Wert x annimmt P (X ∈ [a, b]) = P ({ω ∈ Ω|X(ω) ∈ [a, b]}) = Wahrscheinlichkeit, dass X Werte im Intervall [a, b] annimmt • Sei X ZV. Die Verteilung PX von X ist gegeben durch PX (I) := P (X −1 (I)) = P ({ω ∈ Ω|X(ω) ∈ I}) für alle Intervalle I Schreibweise: PX (I) = P (X ∈ I) PX ([a, b]) = P (a ≤ X ≤ b) Ist I einelementig, I = {x} : PX (I) = P (X = x). • Sei X eine ZV. FX :R → [0, 1] x → P (X ≤ x) mit P (X ≤ x) = PX (] − ∞, x]) = P ({ω ∈ Ω|X(ω) ≤ x}) heißt Verteilungsfunktion (VF) von X. 3.2 Diskrete Zufallsvariablen 3.2.1 Definition und grundlegende Eigenschaften Definition 11 (Diskrete Zufallsvariable) Eine ZV X : Ω → R heißt diskret, wenn sie nur endlich oder abzählbar unendlich viele Realisationen (Werte) annimmt. 23 Realisationen von X: {x1 , ..., xn } (endlicher Fall) {x1 , x2 , ...} (unendlicher Fall) Definition 12 (Verteilung ) Die Verteilung von X, i. Z. PX , ist gegeben durch die Werte P (X = xi ) für alle Realisationen xi Es gilt: 0 ≤ P (X = xi ) ≤ 1 X P (X = xi ) = 1 i P (X ∈ [a, b]) = P P (X = xi ) i:xi ∈[a,b] Definition 13 (Verteilungsfunktion) Die Funktion FX :R → [0, 1] mit FX (x) = P (X ∈] − ∞, x]) = P i:xi ≤x P (X = xi ) heißt Verteilungsfunktion von X. Es gilt: • F ist monoton wachsend. • F (X) → 0 für x → −∞ • F (X) → 1 für x → +∞ • Sei x1 < x2 : F (x2 ) − F (x1 ) = P (X ∈]x1 , x2 ] = P (x1 < X ≤ x2 ) 3.2.2 Bernoulli-Verteilung • Bernoulli-Experimente sind Zufallsexperimente, bei denen nur die beiden disjunkten Versuchsausgänge A (Erfolg) und A (Misserfolg) interessieren. • Beispiele: – Werfen eines Würfels mit A={Die Augenzahl ist gerade} – Qualitätsprüfung eines Erzeugnisses mit A={Das geprüfte Produkt ist fehlerfrei} 24 – Telefongespräch mit A={Das Gespräch dauert höchstens 5 Minuten} • Bei der Bernoulli-Verteilung wird das Bernoulli-Experiment einmal durchgeführt. Definition 14 (Bernmoulli-verteilte ZV ) Eine diskrete ZV X genügt einer Bernoulli-Verteilung mit Parameter p ∈ [0, 1], i. Z. X ∼ Bern(p), falls gilt: P (X = 1) = p, P (X = 0) = 1 − p. 3.2.3 Binomialverteilung Definition 15 (Binomialverteilte ZV ) Eine ZV X mit den n + 1 Realisationen 0, 1, ..., n heißt binomialverteilt mit Parameter p ∈ [0, 1] und n ∈ R, i. Z. X ∼ Bin(n, p), falls gilt: n P (X = x) = px (1 − p)n−x x (x = 0, 1, ..., n). Es gilt: n X x=0 n x px (1 − p)n−x =1 und • Sei A ein Ereignis, das mit Wahrscheinlichkeit p eintritt. X ist die ZV, die die Anzahl des Eintretens von A bei n Wiederholungen unter den jeweils gleichen Bedingungen (unabhängige Wiederholungen) angibt. • Standardbeispiel: Urne mit weißen und schwarzen Kugeln. p sei der Anteil der weißen Kugeln. n Kugeln werden nacheinander mit Zurücklegen entnommen. X ist die Anzahl der gezogenen weißen Kugeln. 25 3.2.4 Geometrische Verteilung Definition 16 (Geometrisch verteilte ZV ) Eine ZV X heißt geometrisch verteilt mit Parameter p ∈ (0, 1), i. Z. X ∼ Geo(p), falls gilt: P (X = x) = (1 − p)x · p (x = 0, 1, 2, ...). Es gilt: • Sei A ein Ereignis (Erfolg), das mit Wahrscheinlichkeit p eintritt. Die ZV X bezeichnet die Anzahl der Durchführungen des Zufallsvorgangs unter den jeweils gleichen Bedingungen (unabhängige Wiederholungen), bei denen das Ereignis A nicht realisiert wird (= Misserfolge) vor dem ersten Erfolg (= Eintreten des Ereignisses A). Die ZV X nimmt den Wert x an, wenn bei der (x + 1)-ten Durchführung des Zufallsvorgangs erstmals A realisiert wurde. • Standardbeispiel: Urne mit weißen und schwarzen Kugeln. p sei der Anteil der weißen Kugeln. A ist das Ereignis, dass eine weiße Kugel gezogen wird. Es werden so lange Kugeln mit Zurücklegen entnommen, bis zum ersten Mal eine weiße Kugel gezogen wird. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen, ist im Verlauf des Zufallsvorgangs daher konstant. X ist die Anzahl der gezogenen schwarzen Kugeln, bis zum ersten Mal eine weiße Kugel gezogen wird. 3.2.5 Poisson-Verteilung Definition 17 (Poisson-verteilte ZV ) Eine ZV X heißt Poisson-verteilt mit Parameter λ > 0, i. Z. X ∼ P o(λ), falls gilt: P (X = x) = e−λ · λx x! (x = 0, 1, 2, ...). Es gilt: • ∞ X P (X = x) = e−λ x=0 ∞ X λx =1 x=0 x! • X beschreibt häufig die Anzahl des zufälligen Eintretens seltener Ereignisse 26 • Beipiele – Anzahl der Druckfehler auf Buchseite – Anzahl der Verkehrsunfälle pro Zeiteinheit an einer Kreuzung – Ankünfte von Flugzeugen auf einem Flughafen pro Minute – Anzahl der Telefonanrufe in einer Vermittlungsstelle während einer Stunde • Anwendung der Poisson-Verteilung bei Vorliegen der folgenden Annahmen möglich: – in jedem der n Teilintervalle kann das Ereignis A im Wesentlichen einmal oder keinmal auftreten – Eintreten von A im i-ten Intervall ist unabhängig vom Eintreten von A im j-ten Intervall (i 6= j) – Wahrscheinlichkeit für Eintreten von A, P (A) = p, ist für jedes Teilintervall gleich groß • Für n ≥ 50, np ≤ 10, p ≤ 0, 1 ist die Binomialverteilung approximativ Poissonverteilt: B(n, p) ≈ P o(n · p) 3.2.6 Hypergeometrische Verteilung Definition 18 (Hypergeometrische ZV ) Eine ZV X heißt hypergeometrisch verteilt mit Parametern L, M , n (L, M, n ∈ N mit M ≤ L, n ≤ L), i. Z. X ∼ Hyp(L, M, n), falls gilt: P (X = x) = M L − M x n−x L n mit max{0, n − (L − M )} ≤ x ≤ min{n, M }. Es gilt: • M L − M X x n−x x L n 27 =1 • Standardbeispiel: Urne mit M weißen und L−M schwarzen Kugeln. n Kugeln werden ohne Zurücklegen entnommen. X ist die Anzahl der gezogenen weißen Kugeln. • Ist n wesentlich kleiner als L, so ist eine hypergeometrisch verteilte Zufallsvariable approximativ binomialverteilt: M H(L, M, n) ≈ B n, L 3.2.7 Zusammenfassung Anwendung verschiedener diskreter Verteilungen, die auf der Bernoulli-Verteilung basie- ren: Zufallsexperiment mit zwei Ausprägungen Ziehen ohne Zurücklegen (Wahrscheinlichkeit ändert sich bei jeder Ziehung) Ziehen mit Zurücklegen (gleiche Wahrscheinlichkeit für jede Ziehung) Anzahl der Erfolge Misserfolge bis zum ersten Erfolg Seltenes Ereignis Anzahl der Erfolge Binomialverteilung Geometrische Verteilung Poisson‐Verteilung Hypergeometrische Verteilung 3.3 Stetige Zufallsvariablen 3.3.1 Definition und grundlegende Eigenschaften Definition 19 (Stetige ZV ) Eine ZV X : Ω → R heißt stetig mit Dichte f , wenn eine integrierbare Funktion 28 f : R → R existiert mit der Eigenschaft, dass für alle Intervalle I = [a, b] gilt P (X ∈ I) = P ({ω ∈ Ω|X(ω) ∈ [a, b]}) = P (X ∈ [a, b]) = Zb f (y) d y a Definition 20 (Verteilung ) Die Verteilung von X, i. Z. PX , ist gegeben durch die Werte Rb f (y) d y für alle a Intervalle [a, b]. Es gilt: • P (X ∈ [a, b]) = P (X ∈]a, b]) = P (X ∈ [a, b[) = P (X ∈]a, b[) • ∀x∈R P (X = x) = 0 • P (X ∈ R) = +∞ Z f (y) d y = 1 −∞ Definition 21 (Verteilungsfunktion) Die Funktion FX : R → [0, 1] mit FX (x) = P (X ∈] − ∞, x]) = Rx f (y) d y heißt −∞ Verteilungsfunktion von X. 0 Ist f stetig, so gilt F (x) = f (x). 3.3.2 Rechteckverteilung Definition 22 (Rechteckverteilte ZV ) Eine stetige ZV X : Ω → R heißt rechteckverteilt über [a, b], i. Z. X ∼ Re[a, b], wenn sie die Dichte 1 für a ≤ y ≤ b f (y) = b−a 0 für sonst 29 besitzt. Für die Verteilungsfunktion gilt: F (x) = Zx f (y) d y = −∞ 0 für x < a, x−a für a ≤ x ≤ b, b−a 1 für x > b. Für alle Intervalle I1 , I2 ⊂ [a, b] mit gleicher Länge gilt P (X ∈ I1 ) = P (X ∈ I2 ). 3.3.3 Gammaverteilung X genügt einer Gammaverteilung, G(α, β) mit α > 0, β > 0, falls für die Dichte gilt: f (x) = x · xα−1 · e− β 1 Γ(α)β α für x > 0 für x ≤ 0 0 Für α = 1 liegt eine Exponentialverteilung vor: f (x) = 1 β x · e− β für x > 0 für x ≤ 0 0 3.3.4 Exponentialverteilung Definition 23 (Exponentialverteilte ZV ) Eine ZV X heißt exponentialverteilt mit Parameter λ (λ > 0), i. Z. X ∼ Ex(λ), wenn für ihre Dichte gilt f (y) = 0 für y < 0 λ · e−λ·y für y ≥ 0 Für die Verteilungsfunktion gilt: 0 für x ≤ 0 1 − e−λ·x für x > 0 F (x) = 30 3.3.5 Normalverteilung Definition 24 (Normalverteilte ZV ) Eine ZV X heißt normalverteilt mit den Parametern µ, σ 2 (µ ∈ R, σ 2 > 0), i. Z. X ∼ N (µ, σ 2 ), wenn für die Dichte von X gilt: f (y) = √ 1 2 1 · e− 2σ2 (y−µ) 2π · σ 2 (y ∈ R). Es gilt • Für µ = 0 und σ 2 = 1 heißt eine normalverteilte ZV standardnormalverteilt. • Die Verteilungsfunktion einer standardnormalverteilten ZV wird mit Φ bezeichnet: Φ(x) = Zx −∞ 1 2 1 √ · e− 2 y d y 2π • Für alle x ∈ R gilt: Φ(−x) = 1 − Φ(x) • Für X ∼ N (µ, σ 2 ) gilt: X−µ σ ∼ N (0, 1) • Für X ∼ N (µ, σ 2 ) gilt: " X −µ a−µ b−µ P (X ∈ [a, b]) = P ∈ , σ σ σ ! b−µ a−µ =Φ −Φ σ σ #! 3.3.6 Logarithmische Normalverteilung Sei X eine N (µ, σ 2 )−verteilte ZV und sei Y = eX . Dann besitzt Y eine logarithmische Normalverteilung, LN (µ, σ 2 ) mit µ ∈ R, σ 2 > 0 und für die Dichte gilt: f (y) = √ 1 2πσ · 1 y · e− (ln y−µ)2 2σ 2 für y > 0 für y ≤ 0 0 3.3.7 χ2 -Verteilung Seien X1 , ..., Xn unabhängige N (0, 1)−verteilte ZV. Die Verteilung von Z = n P i=1 χ2 -Verteilung mit n Freiheitsgraden, i. Z. χ2 (n). 31 Xi2 heißt 3.3.8 t-Verteilung Sei X eine N (0, 1)−verteilte ZV und sei Z eine χ2 (n)−verteilte ZV. Dann heißt die Verteilung von T =q X 1 n ·Z t-Verteilung mit n Freiheitsgraden, i. Z. t(n). 3.3.9 Beta-Verteilung X genügt einer Beta-Verteilung über dem Intervall (0,1) mit den reellwertigen Parametern p, q > 0 (X ∼ Beta(p, q)), falls für die Dichte gilt: xp−1 · (1 − x)q−1 B(p, q) f (x) = mit für x ∈ (0; 1) 1 Γ(p)Γ(q) Z p−1 = u · (1 − u)q−1 d u B(p, q) = Γ(p + q) 0 Eigenschaften: • p < q: linkssteile Verteilung • p = q: symmetrische Verteilung • p > q: rechtssteile Verteilung • p, q < 1: u-förmige Beta-Verteilung • p = 2, q = 1 bzw. p = 1, q = 2: Dreiecksverteilung • p = q = 1: Gleichverteilung X genügt einer allgemeinen Beta-Verteilung über dem Intervall (a, b), i. Z. X ∼ Beta(a, b, p, q), falls für die Dichte gilt: f (x) = (x − a)p−1 · (b − x)q−1 B(a, b, p, q) 32 für x ∈ (a; b) mit B(a, b, p, q) = B(p, q) · (b − a)p+q−1 = Zb (u − a)p−1 · (b − u)q−1 d u a 33 4 Mehrdimensionale Zufallsvariablen 4.1 Grundlagen Sei (Ω, ε, P ) ein Wahrscheinlichkeitsraum (vgl. 1.1). Die Abbildung X = (X1 , ..., Xk ): Ω → Rk heißt k-dimensionale ZV, falls für alle kdimensionalen Intervalle I gilt: X −1 (I) = {ω ∈ Ω|X1 (ω), ..., Xk (ω)) ∈ I} ∈ ε. Zweidimensionale ZV: Sei (X, Y ): Ω → R2 eine zweidimensionale ZV. Die gemeinsame Verteilung P(X,Y ) von (X, Y ) ist gegeben durch die Angabe von P(X,Y ) ([a1 , b1 ] × [a2 , b2 ]) := P ({ω|a1 ≤ X(ω) ≤ b1 , a2 ≤ Y (ω) ≤ b2 }) für alle Intervalle [ai , bi ] (i = 1, 2). P (X = x, Y = y) = P ({ω ∈ Ω|X(ω) = x und Y (ω) = y}) = Wahrscheinlichkeit, dass X den Wert x und (zugleich) Y den Wert y annimmt. Diskrete mehrdimensionale ZV: Sei (X, Y ) eine zweidimensionale ZV mit endlich vielen Werten (x1 , y1 ), ..., (xn , yn ) oder mit abzählbar unendlich vielen Werten (xi , yi ) (i ∈ N). Dann heißt (X, Y ) diskrete ZV. Die Verteilung einer diskreten ZV ist gegeben durch P (X = xi , Y = yj ) = P ({ω ∈ Ω|X(ω) = xi und Y (ω) = yj }) für 1 ≤ i, j ≤ n oder für i, j ∈ N. Es gilt: n X n X P (X = xi , Y = yj ) = 1 i=1 j=1 (analoge Definition für k-dimensionale ZV) Definition 25 (Verteilungsfunktion einer 2-dimensionalen diskreten Zufallsvariable) Sei (X, Y ) eine 2-dimensionale diskrete Zufallsvariable. Dann heißt die Funktion F :R2 → 34 [0, 1] mit F (x, y) = P (X ∈] − ∞, x], Y ∈] − ∞, y]) X = X P (X = xi , Y = yj ) i:xi ≤x j:yj ≤y Verteilungsfunktion von (X, Y ). Stetige mehrdimensionale ZV: Sei (X, Y ) eine zweidimensionale ZV und f eine nichtnegative, integrierbare Funktion, so dass für alle x, y ∈ R gilt: P (X ∈] − ∞, x], Y ∈] − ∞, y]) = Zx Zy f (w, r) d r d w. −∞ −∞ Dann heißt (X, Y ) stetige ZV mit Dichte f . Für alle Intervalle [a1 , b1 ] × [a2 , b2 ] gilt: P (X ∈ [a1 , b1 ], Y ∈ [a2 , b2 ]) = Zb1 Zb2 f (x, y) d y d x. a1 a2 Insbesondere gilt: +∞ R +∞ R f (x, y) d y d x = 1. −∞ −∞ Definition 26 (Verteilungsfunktion einer 2-dimensionalen stetigen Zufallsvariable) Sei (X, Y ) eine 2-dimensionale stetige ZV mit gemeinsamer Dichte f . Dann heißt die Funktion F : R2 → [0, 1] mit F (x, y) = P (X ∈] − ∞, x], Y ∈] − ∞, y]) = Zx Zy f (w, r) d r d w −∞ −∞ Verteilungsfunktion von (X, Y ). 4.2 Randverteilungen Sei (X, Y ) eine zweidimensionale diskrete ZV. 35 P1 (X = x) := X P (X = x, Y = yi ) (x ∈ R) i P2 (Y = y) := X P (X = xi , Y = y) (y ∈ R) i definieren die zur gemeinsamen Verteilung P(X,Y ) gehörenden Randverteilungen P1 bzw. P2 von X bzw. Y . Sei (X, Y ) eine stetige ZV mit Dichte f . f1 (x) = fx := f2 (y) = fy := +∞ Z f (x, y) d y (x ∈ R) −∞ +∞ Z f (x, y) d x (y ∈ R) −∞ definieren die zur gemeinsamen Verteilung P(X,Y ) gehörenden Dichten der (stetigen) Randverteilungen P1 bzw. P2 von X bzw. Y . Es gilt: P1 (X ∈ [a, b]) = P2 (Y ∈ [c, d]) = Zb a Zd f1 (x) d x f2 (y) d y c ⇒ Die gemeinsame Verteilung impliziert die beiden Randverteilungen. ⇒ Verschiedene gemeinsame Verteilungen können dieselben Randverteilungen besitzen. Sei (X, Y, Z) eine dreidimensionale diskrete ZV. P2 (Y = y) = XX i P (X = xi , Y = y, Z = z` ) (y ∈ R) ` definiert die Randverteilung von Y . P13 (X = x, Z = z) = X P (X = x, Y = yj , Z = z) (x, z ∈ R) j definiert die Randverteilung von (X, Z). 36 (analog für andere Kombinationen, für k-dimensionale ZV und für den stetigen Fall) 4.3 Unabhängigkeit von Zufallsvariablen Sei (X, Y ) eine diskrete ZV. X und Y heißen unabhängig, falls gilt: P (X = xi , Y = yj ) = P1 (X = xi ) · P2 (Y = yj ) für alle xi , yj . Sei (X, Y ) eine stetige ZV mit gemeinsamer Dichte f und Randdichten fx , fy . X und Y heißen unabhängig, falls gilt: f (x, y) = f1 (x) · f2 (y) für alle x, y. n ZV X1 , ..., Xn heißen gemeinsam unabhängig, wenn ihre gemeinsame Verteilung das Produkt ihrer n Randverteilungen ist. n ZV X1 , ..., Xn heißen i. i. d. (independently, identically distributed), wenn sie (gemeinsam) unabhängig sind und alle dieselbe Verteilung besitzen. Die 3-dimensionale ZV (X, Y, Z) heißt gemeinsam unabhängig, falls gilt (diskreter Fall): P (X = x, Y = y, Z = z) = P1 (X = x) · P2 (Y = y) · P3 (Z = z) für alle x, y, z. Es ist möglich, dass je 2 der Zufallsvariablen X, Y, Z unabhängig sind (paarweise Unabhängigkeit), jedoch keine gemeinsame Unabhängigkeit besteht. 4.4 Bedingte Verteilungen Diskrete Zufallsvariablen Sei (X, Y ) eine diskrete zweidimensionale ZV. Die bedingte Verteilung von X gegeben Y = y ist gegeben durch: P (X = x|Y = y) = P (X = x, Y = y) P2 (Y = y) mit P2 (Y = y) > 0 37 Die bedingte Verteilung von Y gegeben X = x ist gegeben durch: P (Y = y|X = x) = P (X = x, Y = y) P1 (X = x) mit P1 (X = x) > 0 Es gilt: X P (X = x|Y = y) = 1 für alle y mit P (Y = y) > 0 x X P (Y = y|X = x) = 1 für alle x mit P (X = x) > 0 y Sind X und Y unabhängig, so gilt: P (X = x|Y = y) = P1 (X = x) für alle x, y P (Y = y|X = x) = P2 (Y = y) für alle x, y Sei (X, Y, Z) eine diskrete dreidimensionale ZV mit den Randverteilungen P1 , P2 , P3 . Die bedingte Verteilung von X gegeben Y = y und Z = z ist gegeben durch (diskreter Fall): P (X = x, Y = y, Z = z) (x ∈ R) P (X = x|Y = y, Z = z) = P23 (Y = y, Z = z) Die bedingte Verteilung von (X, Z) gegeben Y = y ist gegeben durch: P (X = x, Z = z|Y = y) = P (X = x, Y = y, Z = z) P2 (Y = y) (x, z ∈ R) (analog für die anderen Kombinationen und für den stetigen Fall) Stetige Zufallsvariable Sei (X, Y ) eine stetige zweidimensionale ZV mit gemeinsamer Dichte f und den Randdichten f1 , f2 . Die Dichte der bedingten Verteilung von X gegeben Y = y ist f (x|y) = f (x, y) f2 (y) (x ∈ R) falls f2 (y) > 0 Die Dichte der bedingten Verteilung von Y gegeben X = x ist 38 f (y|x) = f (x, y) f1 (x) (y ∈ R) falls f1 (x) > 0 Sind X und Y unabhängig, so gilt: f (x|y) = f1 (x), f (y|x) = f2 (y) für alle x, y ∈ R Es gilt: P (X ∈ [a, b]|Y = y) = Zb f (x|y)dx a (analog für Y ) 4.5 Satz von Bayes Sei (X, Y ) eine diskrete ZV mit Verteilung P(X,Y ) und Randverteilungen P1 bzw. P2 . Alle auftretenden bedingten Verteilungen seien wohldefiniert. P (X = x0 |Y = y) = P (X = x0 , Y = y) P2 (Y = y) = P (X = x0 , Y = y) P1 (X = x0 ) P1 (X = x0 ) P2 (Y = y) = P (Y = y|X = x0 )P1 (X = x0 ) P2 (Y = y) P2 (Y = y) = P (X ∈ R, Y = y) = X P (X = x, Y = y) X = X P (Y = y|X = x)P1 (X = x) X Es gilt (Satz von Bayes für diskrete Zufallsvariablen) P (Y = y|X = x0 )P1 (X = x0 ) P (X = x0 |Y = y) = P P (Y = y|X = x)P1 (X = x) x (analog für P (Y = y0 |X = x)) 39 4.6 Zweidimensionale Normalverteilung Definition 27 (Zweidimensionale Normalverteilung ) Eine stetige ZV (X, Y ) heißt zweidimensional normalverteilt mit Parametern µ1 , µ2 ∈ R, σ1 , σ2 ∈ R+ , |ρ| < 1, falls für die Dichte f von (X, Y ) gilt: f (w, r) = " 1 √ 2πσ1 σ2 1 − ρ2 1 1 exp − 2 (1 − ρ2 ) . (w − µ1 )2 (r − µ2 )2 (w − µ1 )(r − µ2 ) + − 2ρ 2 2 σ1 σ2 σ1 σ2 mit E(X) = µ1 , E(Y ) = µ2 , V(X) = σ12 , V(Y ) = σ22 , cov(X, Y ) = ρσ1 σ2 , corr(X, Y ) = ρ. (vgl. Kapitel 5) X und Y sind genau dann unabhängig, wenn ρ = 0 gilt. 40 !# 5 Momente und Quantile von Zufallsvariablen 5.1 Eindimensionale Zufallsvariablen 5.1.1 Erwartungswert Sei X eine diskrete ZV mit Realisationen x1 , x2 , ... oder eine stetige ZV mit Dichte f . Definition 28 (Erwartungswert einer diskreten Zufallsvariablen) Sei X eine diskrete ZV und es gelte X |xi |P (X = xi ) < ∞. i Dann heißt E(X) = X xi P (X = xi ) i Erwartungswert der Zufallsvariablen X. Definition 29 (Erwartungswert einer stetigen Zufallsvariablen) Sei X stetige ZV mit Dichte f und es gelte +∞ Z |x|f (x) d x < ∞. −∞ Dann heißt E(X) = +∞ Z xf (x) d x −∞ Erwartungswert der ZV X. Für alle ZV X mit Verteilungsfunktion F gilt: E(X) = Z∞ (1 − F (x)) d x − Z0 F (x) d x −∞ 0 Erwartungswert ausgewählter parametrischer Verteilungsfamilien: diskrete Zufallsvariablen 41 Bernoulli-Verteilung, X ∼ Bern(p): Binomialverteilung, X ∼ Bin(n, p): Geometrische Verteilung, X ∼ Geo(p): Poisson-Verteilung, X ∼ P o(λ): Hypergeometrische Verteilung, X ∼ Hyp(L, M, n): E(X) = p E(X) = n · p E(X) = 1−p p E(X) = λ E(X) = n · M L stetige Zufallsvariablen Rechteckverteilung, X ∼ Re[a, b]: Gammaverteilung, X ∼ G(α, β): Exponentialverteilung, X ∼ Ex(λ): Normalverteilung, X ∼ N (µ, σ 2 ): Logarithmische Normalverteilung, Y ∼ LN (µ, σ 2 ): χ2 -Verteilung, Z ∼ χ2 (n): t-Verteilung, T ∼ t(n): für n > 1 gilt: Beta-Verteilung, X ∼ Beta(p, q): E(X) = a+b 2 E(X) = α · β E(X) = λ1 E(X) = µ σ2 E(Y ) = eµ+ 2 E(Z) = n E(T ) = 0 p E(X) = (p+q) 5.1.2 Varianz und Standardabweichung Definition 30 (Varianz einer diskreten Zufallsvariablen) Sei X diskrete ZV mit dem Erwartungswert E(X) und es gelte X x2i P (X = xi ) < ∞. i Dann heißt V(X) = X (xi − E(X))2 · P (X = xi ) i 2 Varianz von X (auch σ (X)). Interpretation: (diskreter Fall) V(X) ist ein mit P (X = xi ) gewichteter Mittelwert der quadrierten Abweichungen der xi vom Erwartungswert (Maß der Variabilität von X) 42 Definition 31 (Varianz einer stetigen Zufallsvariablen) Sei X stetige ZV mit Dichte f und es gelte +∞ Z x2 f (x) d x < ∞. −∞ 43 Dann heißt V(X) = +∞ Z (x − E(X))2 f (x) d x −∞ Varianz von X. Für alle ZV gilt: • V(X) = 0 ⇔ ZV X ist degeneriert (X ≡ c) • V(X) = E((X − E(X))2 ) • V(X) = E(X 2 ) − (E(X))2 Definition 32 (Standardabweichung einer Zufallsvariablen) Die Standardabweichung von X, i. Z. σ(X), ist gegeben durch: σ(X) = q V(X). Varianz ausgewählter parametrischer Verteilungsfamilien: diskrete Zufallsvariablen Bernoulli-Verteilung, X ∼ Bern(p): Binomialverteilung, X ∼ Bin(n, p): Geometrische Verteilung, X ∼ Geo(p): Poisson-Verteilung, X ∼ P o(λ): Hypergeometrische Verteilung, X ∼ Hyp(L, M, n): V(X) = p(1 − p) V(X) = n · p · (1 − p) V(X) = 1−p p2 V(X) = λ V(X) = n · M (1 − M )· L L stetige Zufallsvariablen Rechteckverteilung, X ∼ Re[a, b]: Gammaverteilung, X ∼ G(α, β): Exponentialverteilung, X ∼ Ex(λ): Normalverteilung, X ∼ N (µ, σ 2 ): Logarithmische Normalverteilung, Y ∼ LN (µ, σ 2 ): χ2 -Verteilung, Z ∼ χ2 (n): t-Verteilung, T ∼ t(n): für n > 2 gilt: Beta-Verteilung, X ∼ Beta(p, q): V(X) = (b−a) 12 V(X) = α · β 2 V(X) = λ12 V(X) = σ 2 2 2 V(Y ) = e2µ+σ (eσ − 1) V(Z) = 2n n V(T ) = n−2 pq V(X) = (p+q)2 ·(p+q+1) 44 2 L−n L−1 5.1.3 Schiefe Sei X eine ZV mit unimodaler Verteilung Definition 33 (Schiefe einer diskreten Zufallsvariablen) Sei X eine ZV mit Erwartungswert E(X) und Varianz V(X). Dann heißt S(X) = E((X − E(X))3 ) 3 q (xi − E(X))3 · P (X = xi ) P i = !3 rP V(X) (xi − i E(X))2 · P (X = xi ) Schiefe von X. Definition 34 (Schiefe einer stetigen Zufallsvariablen) Sei X eine ZV mit Erwartungswert E(X) und Varianz V(X). Dann heißt +∞ R 3 S(X) = E((X − E(X)) ) = 3 q −∞ s V(X) (x − E(X))3 f (x) d x !3 +∞ R −∞ (x − E(X))2 f (x) d x Schiefe von X. (Bemerkung: Es wird angenommen, dass Es gilt: symmetrische Verteilung linksschiefe/rechtssteile Verteilung rechtsschiefe/linkssteile Verteilung E(X) und V(X) existieren.) ⇒ S(X)=0 ⇒ S(X) < 0 ⇒ S(X) > 0 5.1.4 Kurtosis Sei X eine ZV mit unimodaler Verteilung Definition 35 (Kurtosis einer diskreten Zufallsvariablen) Sei X eine ZV mit Erwartungswert E(X) und Varianz V(X). Dann heißt K(X) = E((X − E(X))4 ) q 4 (xi − E(X))4 · P (X = xi ) P = i (xi − P V(X) i Kurtosis/Wölbung von X. 45 E(X))2 · P (X = xi ) 2 Definition 36 (Kurtosis einer stetigen Zufallsvariablen) Sei X eine ZV mit Erwartungswert E(X) und Varianz V(X). Dann heißt +∞ R 4 K(X) = E((X − E(X)) ) q 4 = V(X) −∞ +∞ R (x − E(X))4 f (x) d x (x − −∞ !2 E(X))2 f (x) d x Kurtosis/Wölbung von X. (Bemerkung: Es wird angenommen, dass E(X) und V(X) existieren.) Unterscheidung von 3 Fällen: - bei K(X) = 3 spricht man von einer mesokurtischen (normalgipfligen) Verteilung - bei K(X) > 3 spricht man von einer leptokurtischen (steilgipfligen) Verteilung - bei K(X) < 3 spricht man von einer platykurtischen (flachgipfligen) Verteilung 5.1.5 Quantile Definition 37 (α-Quantil ) Sei α ∈]0; 1[. Eine Zahl xα heißt α-Quantil von X, falls P (X ≤ xα ) ≥ α und P (X ≥ xα ) ≥ 1 − α. Für ein α-Quantil gilt: • F (xα ) ≥ α und F (xα ) ≤ α + P (X = xα ) • Ist X stetig, so gilt: F (xα ) = α • Ist F strikt monoton wachsend, so ist das α-Quantil eindeutig bestimmt. • Für α = 0, 5 heißt das α-Quantil Median 46 5.2 Mehrdimensionale Zufallsvariablen 5.2.1 Kovarianz Sei (X, Y ) eine zweidimensionale Zufallsvariable mit Erwartungswerten E(X), E(Y ) (berechnet bzgl. der Randverteilungen von X bzw. Y ). Definition 38 (Kovarianz ) Der Erwartungswert der Zufallsvariablen (X − E(X)) · (Y − E(Y )) heißt Kovarianz von (X, Y ): cov(X, Y ) = E((X − E(X))(Y − E(Y ))). (Bemerkung: Es sei angenommen, dass der Erwartungswert von (X − E(X)) · (Y − E(Y )) existiert.) Ist (X, Y ) diskret, so gilt: cov(X, Y ) = XX (xi − E(X))(yj − E(Y ))P (X = xi , Y = yj ) i j Ist (X, Y ) stetig mit Dichte f , so gilt: cov(X, Y ) = +∞ Z +∞ Z (x − E(X))(y − E(Y ))f (x, y) d y d x −∞ −∞ Es gilt: • cov(X, Y ) = E(X · Y ) − E(X)E(Y ) • cov(X, X) = V(X) 5.2.2 Korrelation Definition 39 (Korrelationskoeffizient von (X, Y ))) corr(X, Y ) = ρ = q cov(X, Y ) V(X) · V(Y ) Es gilt: • Die Korrelation misst die Stärke des linearen Zusammenhangs zwischen X und Y . • −1 ≤ corr(X, Y ) ≤ +1 für alle Zufallsvariablen (X, Y ) 47 • corr(X, Y ) = +1 ⇔ Y = a + bX mit b > 0 • corr(X, Y ) = −1 ⇔ Y = a + bX mit b < 0 • X und Y heißen unkorreliert, falls corr(X, Y ) = 0. • Sind X und Y unabhängig, so sind sie auch unkorreliert. Die Umkehrung gilt i. a. nicht. • Sind X und Y gemeinsam normalverteilt, so gilt: corr(X, Y ) = 0 ⇔ X und Y sind unabhängig 48 6 Funktionen von Zufallsvariablen 6.1 Momente Funktionen von eindimensionalen ZV Sei X eine ZV. Sei g eine Funktion auf R, derart, dass Y := g ◦ X mit g ◦ X(ω) := g(X(ω)) eine ZV ist. Dann gilt: P g(xi )P (X E(Y ) = i +∞ R = xi ) falls X diskret g(x)f (x) d x falls X stetig −∞ V(Y ) = P 2 g(xi ) − E(Y )) P (X = xi ) falls X diskret i +∞ R −∞ (g(x) − E(Y ))2 f (x) d x falls X stetig Lineartransformation Sei Y = α + βX mit α, β ∈ R, β > 0. Dann gilt: y−α FY (y) = P (Y ≤ y) = P X ≤ β ! = FX y−α β ! Sei Y = α + βX mit α, β ∈ R, β < 0. Dann gilt: ! FY (y) = 1 − FX y−α y−α +P X = β β ! Sei Y = α + βX mit α, β ∈ R. Dann gilt: E(Y ) = α + βE(X) V(Y ) = β 2 V(X) Seien X und Y ZV. Für alle α, β, γ, δ ∈ R gilt: cov(α + βX, γ + δY ) = β · δ · cov(X, Y ). corr(α + βX, γ + δY ) = corr(X, Y ) falls βδ > 0 −corr(X, Y ) falls βδ < 0 Funktionen von mehrdimensionalen ZV Sei q ◦ (X, Y ) eine reellwertige Funktion von (X, Y ), z. B. q ◦ (X, Y ) = X · Y . 49 diskreter Fall: E(q ◦ (X, Y )) = XX i V(q ◦ (X, Y )) = XX i q(xi , yj )P (X = xi , Y = yj ) j (q(xi , yj ) − E(q ◦ (X, Y )))2 P (X = xi , Y = yj ) j stetiger Fall: E(q ◦ (X, Y )) = +∞ Z +∞ Z q(x, y)f (x, y) d y d x −∞ −∞ V(q ◦ (X, Y )) +∞ Z +∞ Z (q(x, y) − E(q ◦ (X, Y )))2 f (x, y) d y d x = −∞ −∞ Insbesondere gilt: E(X + Y ) = E(X) + E(Y ) für alle ZV X, Y E(X · Y ) = E(X) · E(Y ) für unabhängige ZV X, Y V(X + Y ) = V(X) + V(Y ) + 2cov(X, Y ) für alle ZV X, Y V(X + Y ) = V(X) + V(Y ) für unabhängige ZV X, Y Sei (X1 , ..., Xm ) eine m-dimensionale ZV mit Varianz-Kovarianzmatrix X V(X1 ) .. . cov(X1 , X2 ) .. . ··· cov(Xm , X1 ) ··· cov(Xm , Xm−1 ) = Zudem sei Z die eindimensionale ZV Z = m P ai X i i=1 mit ai ∈ R (1 ≤ i ≤ m). Dann gilt: E(Z) = m X ai E(Xi ) i=1 V(Z) = (a1 , · · · , am ) = m X m X (a1 , · · · , am )T X ai aj cov(Xi , Xj ) i=1 j=1 50 cov(X1 , Xm ) .. . V(Xm ) 6.2 Transformationssatz für Dichtefunktionen Sei X eine stetige ZV mit Dichte fX (x). Die Transformation g: R → R sei streng monoton und stetig differenzierbar. Dann hat die ZV Y := g(X) die Dichtefunktion: fY (y) = fX (g −1 ∂g −1 (y) (y)) · ∂y 6.3 Bedingter Erwartungswert und bedingte Erwartung Sei (X, Y ) eine zweidimensionale ZV und sei g ◦ X eine Funktion von X. Bedingter Erwartungswert von g ◦ X gegeben Y = y heißt: E(g ◦ X|y) = P g(xi ) · P (X i +∞ R −∞ = xi |Y = y) diskreter Fall g(x)fX|Y (x|y) d x stetiger Fall Bedingte Erwartung von g ◦ X gegeben Y heißt die ZV E(g ◦ X|Y ), die den Wert E(g ◦ X|y) annimmt, wenn Y den Wert y annimmt. E(g ◦ X|Y ) : Ω → R ω → E(g ◦ X|Y (ω)) Es gilt: • E(α(g1 ◦ X) + β(g2 ◦ X)|Y ) = αE(g1 ◦ X|Y ) + βE(g2 ◦ X)|Y ) • P (X ≥ 0) = 1 ⇒ E(X|Y ) ≥ 0 • Sind X und Y unabhängig, so gilt: E(X|Y ) ≡ E(X) 51 • Ist q ◦ (X, Y ) eine Funktion von (X, Y ), so gilt: E(q ◦ (X, Y )|y) = E(q ◦ (X, y)|y) • E(g ◦ X) = E(E(g ◦ X|Y )) 52