Folien zur Vorlesung Statistik II (Wahrscheinlichkeitsrechnung und schließende Statistik) Sommersemester 2011 Donnerstag, 10.15 - 11.45 Uhr (regelmäßig) Montag, 30.05.2011, 10.15 - 11.45 Uhr (1. Zusatztermin) Montag, 20.06.2011, 10.15 - 11.45 Uhr (2. Zusatztermin) Hörsaal: Aula am Aasee Prof. Dr. Bernd Wilfling Westfälische Wilhelms-Universität Münster Inhalt 1 1.1 1.2 Einleitung Organisatorisches Was ist ’Schließende Statistik’ ? 2 2.1 Zufallsvorgänge und Wahrscheinlichkeiten Zufallsvorgänge und Ereignisse 2.2 2.3 2.4 Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit und Unabhängigkeit Totale Wahrscheinlichkeit und das Bayes-Theorem 3 3.1 3.2 3.3 3.4 Zufallsvariable und Verteilungen Grundbegriffe und Definitionen Erwartungswert und Varianz einer Zufallsvariablen Spezielle diskrete Verteilungen Spezielle stetige Verteilungen 4 Gemeinsame Verteilung und Grenzwertsätze 4.1 4.2 Gemeinsame Verteilung von Zufallsvariablen Grenzwertsätze 5 5.1 5.2 5.3 5.4 Stichproben und Statistiken Zufallsstichprobe Statistiken Exkurs: χ2 - und t-Verteilung Statistiken bei normalverteilter Stichprobe 6 6.1 6.2 6.3 Schätzverfahren für Parameter Punktschätzung Eigenschaften von Punktschätzern Intervallschätzung 7 7.1 7.2 Hypothesentests Grundbegriffe des Testens Tests für Erwartungswerte Tests für Varianzen 7.3 i Literatur Deutschsprachig: Hartung, J. (2005). Statistik (14. Auflage). Oldenbourg Verlag, München. Mosler, K. und F. Schmid (2008). Wahrscheinlichkeitsrechnung und schließende Statistik (3. Auflage). Springer Verlag, Heidelberg. Schira, J. (2009). Statistische Methoden der VWL und BWL – Theorie und Praxis (3. Auflage). Pearson Studium, München. Englischsprachig: Barrow, M. (2009). Statistics for Economics, Accounting and Business Studies (5th Edition). Prentice Hall, Singapore. Mood, A.M., Graybill, F.A. and D.C. Boes (1974). Introduction to the Theory of Statistics (3rd Edition). McGraw-Hill, Tokyo. ii 1. Einleitung 1.1 Organisatorisches Ziel der Vorlesung: • Einführung in die Wahrscheinlichkeitsrechnung ’schließende Statistik’ (auch: induktive Statistik) 1 Internet-Seite der Vorlesung: • http://www1.wiwi.uni-muenster.de/oeew/ −→ Studium −→ Veranstaltungen im Sommersemester 2011 −→ Bachelor −→ Statistik II Vorlesungsstil: • Freier Vortrag anhand von Projektor-Folien • Folien stehen als PDF-Dateien auf Internetseite zur Verfügung (Beschaffung der Folien wird unbedingt empfohlen) 2 Literatur: • Mosler, K. , Schmid, F. (2008). Wahrscheinlichkeitsrechnung und schließende Statistik (3. Auflage), Springer-Verlag • Formelsammlung ”Definitionen, Formeln und Tabellen zur Statistik” (6. Auflage) von Bomsdorf/Gröhn/Mosler/Schmid (notwendiges Hilfsmittel, in der Klausur zugelassen) 3 Klausurvorbereitung: • Stoff der Vorlesung • Aufgaben der Tutoriums Ansprechpartner: Frau Dipl.-Vw. Heike Bornewasser-Hermes • Klausurtraining durch Ferienarbeitsgruppen 4 Zugelassene Hilfsmittel in der Klausur: • Taschenrechner (nicht programmierbar) • Formelsammlung ”Definitionen, Formeln und Tabellen zur Statistik” von Bomsdorf/Gröhn/Mosler/Schmid, 6. (aktuelle und frühere) Auflage(n) Akzeptierte äußere Form für die Klausur: – Zulässig sind nur Unter- bzw. Überstreichungen, Verweise auf Seiten bzw. Nummern – Nicht zulässig sind somit z.B. verbale Erläuterungen, mathematische Umformungen, grafische Darstellungen u.ä., die als Lösungshilfen für Klausuraufgaben angesehen werden können 5 Ansprechpartner: • Frau Heike Bornewasser-Hermes (Koordinatorin der Tutorien) • Tutorinnen und Tutoren (Adressen und Nummern: siehe Tutorien) 6 1.2 Was ist ’Schließende Statistik’ ? Stoff der VL ’Statistik I’: • Deskriptive Statistik Ziel: Beschreibung erhobener Daten x1, . . . , xn Problem: • Erhobene Daten x1, . . . , xn sind i.d.R. nur ’Stichprobe’ (keine Vollerhebung) 7 Deshalb Frage: • Wie können (deskriptive) Ergebnisse für die Stichprobe zur Beurteilung der (unbekannten) Grundgesamtheit genutzt werden? Antwort: • Mit Methoden der ’Schließenden Statistik’ Synonyme Bezeichnungen: • Induktive Statistik • Statistische Inferenz 8 Wesenszüge der schließenden Statistik: • Schlussfolgerung von Stichprobe auf Grundgesamtheit • Statistische Schlüsse sind nicht sicher, sondern gelten nur mit ’bestimmter Wahrscheinlichkeit’ −→ Unbedingtes Erfordernis: Beschäftigung mit Wahrscheinlichkeitsrechnung 9 Zwischenfazit: • Schließende Statistik überträgt Stichprobenergebnisse auf GG basiert auf Wahrscheinlichkeitsrechnung Man beachte: Wahrscheinlichkeitsrechnung • ist mehr als Grundlage der schließeden Statistik • hat enorme eigenständige ökonomische Bedeutung z.B. in Mikroökonomik Investition und Finanzierung Portfoliotheorie 10 Praktische Anwendungen der schließenden Statistik Beispiel 1: (Qualitätskontrolle): • Unternehmen produziert 5000 Glühbirnen pro Tag • Frage: Wie hoch ist der Anteil p defekter Glühbirnen in der Tagesproduktion? • Statistisches Problem: Schätzen des Anteils p aufgrund einer Stichprobe 11 Beispiel 2: (Ausgabenplanung des Staates): • Wichtigste Einnahmequelle des Staates: Steuern • Problem: Für Ausgabenplanung sind Steuereinnahmen zu schätzen (Steuereinnahmen sind aufgrund von Erhebungsproblemen lange Zeit unbekannt) • Statistisches Problem: Angabe eines (möglichst engen) Intervalls, das den tatsächlichen unbekannten Wert der Steuereinnahmen mit ’hoher’ Wahrscheinlichkeit überdeckt 12 Beispiel 3: (Effizienz von Werbung) [I] • Einfluss von Werbemaßnahmen auf den Absatz von 84 USUnternehmen (vgl. Statistik I) • Statistisches Modell (Y = Absatz, X = Werbeausgaben) yi = α + β · xi + ui (α, β unbekannte Parameter, ui Fehler) 13 Stichprobenergebnisse für 84 Unternehmen Schätzung: Absatz = 502.92 + 0.218 * Werbeausgaben Absatz in Mill. US-$ 560 540 520 500 480 0 20 40 60 80 100 Werbeausgaben in Mill. US-$ 14 Beispiel 3: (Effizienz von Werbung) [II] • Eine mögliche Schätzung von α, β über KQ-Methode: a = 502.9174, b = 0.2183 • Statistische Fragen: Sind die KQ-Werte a, b ’zuverlässige’ Schätzwerte für die (unbekannten) tatsächlichen Parameter α, β? Ist der wahre unbekannte Steigungsparameter β wirklich von Null verschieden, d.h. gilt β=0 oder β 6= 0? (Im Falle von β = 0 hätten Werbeausgaben keinen Einfluss auf den Absatz) 15 Fazit: • Grundlegende Aufgaben der schließenden Statistik: Punktschätzungen von unbekannten Parametern Intervallschätzungen von unbekannten Parametern Testen von Hypothesen über unbekannte Parameter 16 2. Zufallsvorgänge und Wahrscheinlichkeiten Ziel des Kapitels: • Einführung elementarer Begriffe der Wahrscheinlichkeitsrechnung (definitorisch) Ziel der Wahrscheinlichkeitsrechnung: • Modellierung von zufälligen Vorgängen, wie z.B. (zukünftiger) Umsatz eines Unternehmens (zukünftige) Rendite einer Kapitalanlage (zukünftige) Wachstumsraten einer VW (zukünftige) Arbeitslosenquote 17 Zu präzisierende Begriffe: • Zufallsvorgang, Zufallsexperiment • (Zufalls)Ereignis, Wahrscheinlichkeit Mathematische Hilfsmittel: • Mengenlehre, Kombinatorik • Analysis (Differential-, Integralrechnung) 18 2.1 Zufallsvorgänge und Ereignisse Definition 2.1: (Zufallsvorgang, Zufallsexperiment) Unter einem Zufallsvorgang verstehen wir einen Vorgang, bei dem (a) im Voraus feststeht, welche möglichen Ausgänge dieser theoretisch haben kann, (b) der sich einstellende, tatsächliche Ausgang im Voraus jedoch unbekannt ist. Zufallsvorgänge, die geplant sind und kontrolliert ablaufen, heißen Zufallsexperimente. 19 Beispiele für Zufallsexperimente: • Ziehung der Lottozahlen • Roulette, Münzwurf, Würfelwurf • ’Technische Versuche’ (Härtetest von Stahlproben etc.) In der VWL: • Oft keine Zufallsexperimente (historische Daten, Bedingungen nicht kontrollierbar) • Moderne VWL-Disziplin: ’Experimentelle Ökonomik’ 20 Definition 2.2: (Ergebnis, Ergebnismenge) Die Menge aller möglichen Ausgänge eines Zufallsvorgangs heißt Ergebnismenge und wird mit Ω bezeichnet. Ein einzelnes Element ω ∈ Ω heißt Ergebnis. Wir notieren die Anzahl aller Elemente von Ω (d.h. die Anzahl aller Ergebnisse) mit |Ω|. Beispiele: [I] • Zufallsvorgang ’Werfen eines Würfels’: Ω = {1, 2, 3, 4, 5, 6} • Zufallsvorgang ’Werfen einer Münze solange, bis Kopf erscheint’: Ω = {K, ZK, ZZK, ZZZK, ZZZZK, . . .} 21 Beispiele: [II] • Zufallsvorgang ’Bestimmung des morgigen Wechselkurses zwischen Euro und US-$’: Ω = [0, ∞) Offensichtlich: • Die Anzahl der Elemente von Ω kann endlich, abzählbar unendlich oder nicht abzählbar unendlich sein Jetzt: • Mengentheoretische Definition des Begriffes ’Ereignis’ 22 Definition 2.3: (Ereignis) Unter einem Ereignis verstehen wir eine Zusammenfassung von Ergebnissen eines Zufallsvorgangs, d.h. ein Ereignis ist eine Teilmenge der Ergebnismenge Ω. Man sagt ’Das Ereignis A tritt ein’, wenn der Zufallsvorgang ein ω ∈ A als Ergebnis hat. Bemerkungen: [I] • Notation von Ereignissen: A, B, C, . . . oder A1, A2, . . . • A = Ω heißt das sichere Ereignis (denn für jedes Ergebnis ω gilt: ω ∈ A) 23 Bemerkungen: [II] • A = ∅ (leere Menge) heißt das unmögliche Ereignis (denn für jedes ω gilt: ω ∈ / A) • Falls das Ereignis A eine Teilmenge des Ereignisses B ist (A ⊂ B), so sagt man: ’Das Eintreten von A impliziert das Eintreten von B’ (denn für jedes ω ∈ A folgt ω ∈ B) Offensichtlich: • Ereignisse sind Mengen −→ Anwendung von Mengenoperationen auf Ereignisse ist sinnvoll 24 Ereignisverknüpfungen (Mengenoperationen): [I] • Durchschnittsereignis (-menge): C = A ∩ B tritt ein, wenn A und B eintreten • Vereinigungsereignis (-menge): C = A ∪ B tritt ein, wenn A oder B eintritt • Differenzereignis (-menge): C = A\B tritt ein, wenn A eintritt, aber B nicht 25 Ereignisverknüpfungen (Mengenoperationen): [II] • Komplementärereignis: C = Ω\A ≡ A tritt ein, wenn A nicht eintritt • Die Ereignisse A und B heißen unvereinbar oder disjunkt, wenn A ∩ B = ∅ (beide Ereignisse können nicht gleichzeitig eintreten) Jetzt: • Übertragung der Konzepte von 2 auf n Mengen A1, . . . , An 26 Ereignisverknüpfungen: [I] • Durchschnittsereignis: n T i=1 Ai tritt ein, wenn alle Ai eintreten • Vereinigungsereignis: n S i=1 Ai tritt ein, wenn mindestens ein Ai eintritt 27 Ereignisverknüpfungen: [II] • Die Mengen A1, . . . , An heißen Partition (oder vollständige Zerlegung) von Ω, falls gilt: n [ Ai = Ω i=1 Ai ∩ Aj = ∅ Ai = 6 ∅ 6 j für alle i = für alle i 28 Wichtige Rechenregeln für Mengen (Ereignisse): • Kommutativ-, Assoziativ-, Distributivgesetze • De Morgansche Regeln: A∪B =A∩B A∩B =A∪B 29 2.2 Wahrscheinlichkeiten Ziel: • Jedem Ereignis A soll eine Zahl P (A) zugeordnet werden, welche die Wahrscheinlichkeit für das Eintreten von A repräsentiert • Formal: P : A −→ P (A) Frage: • Welche Eigenschaften sollte die Zuordnung (Mengenfunktion) P besitzen? 30 Definition 2.4: (Kolmogorov’sche Axiome) Die folgenden 3 Mindestanforderungen an P werden als Kolmogorov’sche Axiome bezeichnet: • Nichtnegativität: Für alle A soll gelten: P (A) ≥ 0 • Normierung: P (Ω) = 1 • Additivität: Für zwei disjunkte Ereignisse A und B (d.h. für A ∩ B = ∅) soll gelten: P (A ∪ B) = P (A) + P (B) 31 Es ist leicht zu zeigen: • Die 3 Kolmogorov’schen Axiome implizieren bestimmte Eigenschaften und Rechenregeln für Wahrscheinlichkeiten von Ereignissen 32 Satz 2.5: (Eigenschaften von Wahrscheinlichkeiten) Aus den Kolmogorov’schen Axiomen ergeben sich folgende Eigenschaften für die Wahrscheinlichkeit beliebiger Ereignisse: • Wahrscheinlichkeit des Komplimentärereignisses: P (A) = 1 − P (A) • Wahrscheinlichkeit des unmöglichen Ereignissses: P (∅) = 0 • Wertebereich der Wahrscheinlichkeit: 0 ≤ P (A) ≤ 1 33 Satz 2.6: (Rechenregeln für Wahrscheinlichkeiten) [I] Aus den Kolmogorov’schen Axiomen ergeben sich die folgenden Rechenregeln für die Wahrscheinlichkeit von beliebigen Ereignissen A, B, C: • Additionssatz für Wahrscheinlichkeiten: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (Wahrscheinlichkeit, dass A oder B eintritt) • Additionssatz für 3 Ereignisse: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) −P (A ∩ B) − P (B ∩ C) −P (A ∩ C) + P (A ∩ B ∩ C) (Wahrscheinlichkeit, dass A oder B oder C eintritt) 34 Satz 2.6: (Rechenregeln für Wahrscheinlichkeiten) [II] • Wahrscheinlichkeit des Differenzereignisses: P (A\B) = P (A ∩ B) = P (A) − P (A ∩ B) Man beachte: • Wenn das Ereignis B das Ereignis A impliziert (d.h. wenn B ⊂ A gilt), dann folgt P (A\B) = P (A) − P (B) 35 Beispiel: [I] • In einer Stadt erscheinen 2 Lokalzeitungen, die Morgenpost und der Stadtspiegel. Die Wahrscheinlichkeit, dass ein Bewohner der Stadt die Morgenpost liest (Ereignis A) sei 0.6, den Stadtspiegel liest (Ereignis B) sei 0.5, die Morgenpost oder den Stadtspiegel liest sei 0.9 36 Beispiel: [II] • Die Wskt., dass jemand beide Blätter liest, beträgt P (A ∩ B) = P (A) + P (B) − P (A ∪ B) = 0.6 + 0.5 − 0.9 = 0.2 • Die Wskt., dass jemand kein Blatt liest, beträgt P (A ∪ B) = 1 − P (A ∪ B) = 1 − 0.9 = 0.1 • Die Wskt., dass jemand genau eines der beiden Blätter liest, beträgt P ((A ∪ B)\(A ∩ B)) = P (A ∪ B) − P (A ∩ B) = 0.9 − 0.2 = 0.7 37 Bisher: • Formale Anforderungen an Wahrscheinlichkeiten −→ Eigenschaften und grundlegende Rechenregeln Noch ungeklärt: • Wie wird eine explizite Wskt. für ein bestimmtes Ereignis A überhaupt festgelegt? Verschiedene Wahrscheinlichkeitsbegriffe: • Klassische Wahrscheinlichkeit (Laplace-Experiment) • Statistische Wahrscheinlichkeit (Häufigkeitstheorie) • Subjektive Wahrscheinlichkeit (durch Experimente) 38 Zentraler Begriff der VL: • Der Laplace-sche Wahrscheinlichkeitsbegriff: Pierre-Simon Marquis de Laplace, 1812: Wenn ein Experiment eine Anzahl verschiedener und gleich möglicher Ausgänge hervorbringen kann und einige davon als günstig anzusehen sind, dann ist die Wahrscheinlichkeit eines günstigen Ausgangs gleich dem Verhältnis der Anzahl der günstigen zur Anzahl der möglichen Ausgänge. 39 Offensichtlich: • Dem Laplace-schen Wahrscheinlichkeitsbegriff liegt die Vorstellung eines Zufallsexperimentes zugrunde, bei dem die Ergebnismenge Ω aus n Ergebnissen ω1, . . . , ωn besteht, die alle die gleiche Eintrittswahrscheinlichkeit 1/n aufweisen Jetzt: • Formale Definition 40 Definition 2.7: (Laplace-Experiment, -Wahrscheinlichkeit) Ein Zufallsexperiment heißt Laplace-Experiment, wenn die Ergebnismenge Ω aus n Ergebnissen besteht (d.h. Ω = {ω1, . . . , ωn}) und jedes Ergebnis ωi die gleiche Wahrscheinlichkeit 1/n besitzt, d.h. 1 P ({ωi}) = für alle i = 1, . . . , n. n Die Laplace-Wahrscheinlichkeit eines Ereignisses A ⊂ Ω ist dann definiert als Anzahl der Elemente von A |A| |A| P (A) = = = . Anzahl der Elemente von Ω |Ω| n 41 Offensichtlich: • Laplace-Wahrscheinlichkeit erfüllt die Kolmogorov’schen Axiome (Definition 2.4), denn P (A) ≥ 0 P (Ω) = n n=1 Für die Ereignisse A, B mit A ∩ B = ∅ gilt: |A| + |B| |A| |B| = + = P (A) + P (B) P (A ∪ B) = n n n 42 ’Fairer’ Würfelwurf als Beispiel für Laplace-Experiment: • Es ist: Es gilt: Ω = {ω1, ω2, ω3, ω4, ω5, ω6} = {1, 2, 3, 4, 5, 6} 1 P ({ωi}) = 6 für alle i = 1, . . . , 6 • Laplace-Wahrscheinlichkeit für das Ereignis A = ’Würfeln einer geraden Zahl’ Es ist: A = {2, 4, 6} −→ Laplace-Wahrscheinlichkeit: P (A) = |A|/|Ω| = 3/6 = 0.5 43 Offensichtlich: • Laplace-Wahrscheinlichkeit erfordert Berechnung von Anzahlen Mathematische Technik hierfür: • Kombinatorik Einige grundsätzliche Fragen der Kombinatorik: • Wie Möglichkeiten gibt es, bestimmte Objekte anzuordnen? • Wie viele Möglichkeiten gibt es, bestimmte Objekte aus einer Menge auszuwählen? 44 Mathematische Werkzeuge der Kombinatorik: • Fakultät • Binomialkoeffizient Zunächst: • Definitionen von Fakultät und Binomialkoeffizient 45 Definition 2.8: (Fakultät) Es sei n ∈ N eine natürliche Zahl. Unter der Fakultät von n, in Zeichen n!, versteht man das Produkt der natürlichen Zahlen von 1 bis n, d.h. n! = 1 · 2 · . . . · n. Für n = 0 wird die Fakultät definitorisch festgelegt als 0! = 1. Beispiele: • 2! = 1 · 2 = 2 • 5! = 1 · 2 · . . . · 5 = 120 • 10! = 1 · 2 · . . . · 10 = 3628800 46 Offensichtlich: • Fakultäten wachsen sehr schnell an Definition 2.9: (Binomialkoeffizient) Es seien n, k ∈ N zwei natürliche Zahlen mit n > 0, k ≥ 0 und n ≥ k. Unter dem Binomialkoeffizienten, gesprochen als ’n über k’, versteht man den Ausdruck n n! = k k! · (n − k)! 47 Beispiele: • ’Einfaches Rechenbeispiel’: 3 2 = 3! 6 = =3 2! · (3 − 2)! 2·1 • ’Komplizierteres Rechenbeispiel’: 9 9! 1·2·3·4·5·6·7·8·9 6·7·8·9 = = = = 126 4 4! · 5! 1·2·3·4·1·2·3·4·5 1·2·3·4 • ’Formales Beispiel’: n n n! n! = = = k k! · (n − k)! (n − k)! · (n − (n − k))! n−k 48 Jetzt: • Inhaltliche (kombinatorische) Bedeutung von Fakultät und Binomialkoeffizient für die Bestimmung der Anzahl von Anordnungs- bzw. Auswahlmöglichkeiten −→ Bestimmung von Laplace-Wahrscheinlichkeiten Zunächst Fundamentalprinzip der Kombinatorik: • Wenn ein erster Sachverhalt auf n1 Arten erfüllt werden kann und ein zweiter Sachverhalt unabhängig davon auf n2 Arten, so ist die Gesamtzahl der Möglichkeiten, gleichzeitig beide Sachverhalte zu erfüllen, gerade gleich dem Produkt n1 · n2 49 Beispiel: • Ein Fußballtrainer hat für den Posten des Torwarts 3 Kandidaten und für die Besetzung des Mittelstürmers 4 (andere) Kandidaten zur Auswahl. Insgesamt kann er also das Mannschaftsgespann (Torwart, Mittelstürmer) auf 3 · 4 = 12 Arten besetzen Verallgemeinerung: • Gegeben seien k Sachverhalte, die unabhängig voneinander auf jeweils n1, n2, . . . , nk Arten erfüllt werden können −→ Anzahl der Möglichkeiten, die k Sachverhalte gleichzeitig zu erfüllen, beträgt n1 · n2 . . . · nk 50 Spezialfall: • n1 = n2 = . . . = nk ≡ n −→ Anzahl der Möglichkeiten, die k Sachverhalte gleichzeitig zu erfüllen, beträgt k = n · n1 · n2 . . . · nk = n · n · . . . n {z } | k mal Beispiel: • Wie viele Autokennzeichen kann die Stadt Münster vergeben, wenn nach dem Stadtkürzel ’MS’ 1 oder 2 Buchstaben und eine 1 bis 3 stellige Zahl vergeben wird? Lösung: 27 · 26 · 10 · 10 · 10 = 702000 51 Zwischenfazit: • Die Bestimmung von Laplace-Wahrscheinlichkeiten erfordert die Bestimmung von Anzahlen. Die Kombinatorik liefert Methoden zur Berechnung der Anzahlen möglicher Anordnungen von Objekten (Permutationen) der Möglichkeiten, Objekte aus einer vorgegebenen Menge auszuwählen (Variationen, Kombinationen) 52 Definition 2.10: (Permutation) Gegeben sei eine Menge mit n Elementen. Jede Anordnung all dieser Elemente in irgendeiner Reihenfolge heißt eine Permutation dieser n Elemente. Beispiel: • Aus der Menge {a, b, c} lassen sich die folgenden 6 Permutationen bilden: abc bac cab acb bca cba Allgemein gilt: • Die Anzahl aller Permutationen von n verschiedenen Objekten beträgt n · (n − 1) · (n − 2) · . . . · 1 = n! 53 Jetzt: • Von den n Objekten sollen nicht alle verschieden sein. Vielmehr sollen sich die n Objekte in J Kategorien aufteilen mit den Kategorienanzahlen n1 (z.B. Anzahl weiße Kugeln), n2 (Anzahl rote Kugeln) bis nJ (Anzahl schwarze Kugeln) Es gilt: • n = n1 + n2 + . . . + nJ • Die Anzahl aller Permutationen der n Objekte ist gegeben durch n! n1! · n2! · . . . · nJ ! 54 Bemerkungen: • Die Anordnungen, bei denen Objekte der gleichen Art permutiert werden, sind nicht unterscheidbar • Sind alle n Objekte verschieden, so ist die Anzahl aller möglichen Permutationen gleich n! (vgl. Folie 54) Beispiel: • Die Anzahl der Permutationen der n = 9 Buchstaben des Wortes STATISTIK beträgt 9! = 15120 2! · 3! · 1! · 2! · 1! 55 Jetzt: • Auswahl von Objekten aus einer vorgegebenen Menge Definition 2.11: (Kombination) Gegeben sei eine Menge mit n unterscheidbaren Elementen (z.B. Kugeln mit den Nummern 1, 2, . . . , n). Jede Zusammenstellung (bzw. Auswahl) von k Elementen aus dieser Menge heißt Kombination der Ordnung k. 56 Unterscheidungsmerkmale von Kombinationen: • Berücksichtigung der Auswahl-Reihenfolge Ja −→ Kombination wird Variation genannt Nein −→ Keine besond. Bezeichnung (Kombination) • Auswahl mit oder ohne Zurücklegen Insgesamt also 4 alternative Fälle: • Variationen mit Zurücklegen • Variationen ohne Zurücklegen • Kombinationen ohne Zurücklegen • Kombinationen mit Zurücklegen 57 1. Fall: Variationen mit Zurücklegen Beim Ziehen mit Zurücklegen unter Berücksichtigung der Reihenfolge gibt es nach dem Fundamentalprinzip der Kombinatorik k |n · n ·{z. . . · n} = n k Faktoren verschiedene Möglichkeiten Beispiel: • Ein ’fairer’ Würfel werde 4 mal hintereinander geworfen und das Ergebnis in einer 4-Sequenz notiert (z.B. 1, 5, 1, 2). Die Anzahl aller möglichen Ergebnissequenzen beträgt · 6 · 6} = 64 = 1296 |6 · 6{z 4 Würfe 58 2. Fall: Variationen ohne Zurücklegen Beim Ziehen ohne Zurücklegen unter Berücksichtigung der Reihenfolge gibt es nach dem Fundamentalprinzip der Kombinatorik n! · . . . · (n − k + 1)} = n · (n − 1) · (n − 2) | {z (n − k)! k Faktoren verschiedene Möglichkeiten (k ≤ n) Beispiel: • Im olympischen Finale eines 100-Meter-Laufes starten 8 Teilnehmer. Die Anzahl der verschiedenen Kombinationen für Gold, Silber und Bronze beträgt 8! = 8 · 7 · 6 = 336 (8 − 3)! 59 3. Fall: Kombinationen ohne Zurücklegen Beim Ziehen ohne Zurücklegen ohne Berücksichtigung der Reihenfolge ist die Anzahl der verschiedenen Kombinationen gleich der Anzahl der Möglichkeiten, aus einer Menge vom Umfang n eine Teilmenge vom Umfang k (k ≤ n) zu entnehmen. Die Anzahl dieser Möglichkeiten beträgt n n! = k k! · (n − k)! (Binomialkoeffizient, vgl. Definition 2.9, Folie 47) 60 Begründung: • Betrachte die Formel für Variationen ohne Zurücklegen aus Fall 2. Die dort bestimmte Anzahl n!/(n − k)! muss nun noch durch k! dividiert werden, da es in jeder Menge mit k Elementen auf die Reihenfolge der Elemente nicht ankommt Beispiel: • Ziehung der Lotto-Zahlen ’6 aus 49’. Anzahl der möglichen Kombinationen beträgt: 49 6 = 13983816 61 4. Fall: Kombinationen mit Zurücklegen Beim Ziehen mit Zurücklegen ohne Berücksichtigung der Reihenfolge beträgt die Anzahl der verschiedenen Kombinationen n + k − 1 n + k − 1 (n + k − 1)! = = n−1 (n − 1)! · k! k (Binomialkoeffizient, vgl. Definition 2.9, Folie 47) Begründung: • Etwas technisch, vgl. eines der angegebenen Standardlehrbücher, z.B. Mosler / Schmid (2008) 62 Beispiel: (Häufungswahl) • Bei einer Wahl stehen 10 Kandidaten zur Auswahl. Ein Wähler hat 3 Stimmen und das Recht, bei einem Kandidaten mehr als 1 Kreuz zu machen. Die Anzahl der Möglichkeiten Kreuze zu setzen beträgt somit 10 + 3 − 1 3 = 12 3 = 220 63 Überblick Kombinationen Anzahl der Möglichkeiten, aus n verschiedenen Objekten k auszuwählen ohne Berücksichtigung der Reihenfolge (Kombinationen) mit Berücksichtigung der Reihenfolge (Variationen) ohne Zurücklegen n k n! (n − k)! mit Zurücklegen n + k − 1 nk k 64 Beispiel für die Berechnung einer Laplace-Wskt: [I] • Wskt. für ’4 Richtige im Lotto’ • Zunächst: Anzahl aller möglichen Kombinationen beträgt 49 6 = 13983816 • Jetzt gesucht: Anzahl von Kombinationen, die einen Vierer darstellen • Für einen Vierer müssen 4 von den 6 Richtigen und gleichzeitig 2 von den 43 Falschen zusammenkommen 65 Beispiel für die Berechnung einer Laplace-Wskt: [II] • Nach dem Fundamentalprinzip der Kombinatorik ergeben sich 6 43 = 15 · 903 = 13545 · 4 2 verschiedene Viererkombinationen −→ Hieraus folgt für die Laplace-Wahrscheinlichkeit: 13545 P (’4 Richtige im Lotto’) = = 0.0009686 13983816 66 2.3 Bedingte Wahrscheinlichkeiten und Unabhängigkeit Jetzt: • Berechnung von Wahrscheinlichkeiten unter Zusatzinformationen Genauer: • Berechnung der Wahrscheinlichkeit des Ereignisses A, wenn bekannt ist, dass ein anderes Ereignis B bereits eingetreten ist 67 Beispiel: • Betrachte ’fairen Würfelwurf’ • Ereignis A: Würfeln der ’6’. Es gilt zunächst P (A) = 1/6 • Ereignis B: ’Würfeln einer geraden Zahl’ soll bereits eingetreten sein (Vorinformation) −→ Wskt. von A unter der Bedingung B ist P (A|B) = 1/3 • Grund: Müssen zur Berechnung der Wskt. von A nur noch die Ergebnisse {2}, {4}, {6} aus B betrachten 68 Andererseits: • Betrachte Ereignis C: Würfeln der ’3’ • Offensichtlich gilt: P (C|B) = 0 • Grund: Ereignisse B und C können nicht gemeinsam eintreten, d.h. P (B ∩ C) = 0 Frage: • Wie kommt man mathematisch zur bedingten Wskt. P (A|B) = 1/3 69 Antwort: • Indem man die Wskt. des gemeinsamen Eintretens von A und B (d.h. von A ∩ B) zur Wskt. des Eintretens von B in Beziehung setzt Definition 2.12: (Bedingte Wahrscheinlichkeit) Es seien A und B zwei Ereignisse, wobei P (B) > 0 gelten soll. Die Wahrscheinlichkeit für das Eintreten von A unter der Bedingung, dass B bereits eingetreten ist, kurz: die bedingte Wahrscheinlichkeit von A unter der Bedingung B, ist definiert als P (A|B) = P (A ∩ B) . P (B) 70 Beispiel 1 (Fairer Würfelwurf): • A: Würfeln der ’6’, d.h. A = {6} • B: Würfeln einer geraden Zahl, d.h. B = {2, 4, 6} −→ A ∩ B = {6} −→ P (A|B) = P ({6}) 1/6 P (A ∩ B) 1 = = = P (B) P ({2, 4, 6}) 3/6 3 71 Beispiel 2 (2-facher fairer Würfelwurf): [I] • Ein Würfel werde zweimal geworfen und das Ergebnis in einer 2-Sequenz notiert. Wie groß ist die Laplace-Wahrscheinlichkeit, dass in einer der beiden Würfe eine 6 fällt unter der Bedingung, dass die Augensumme der beiden Würfe größer als 9 ist? • Mögliche Ergebnisse des Experimentes: (1, 1) (2, 1) (3, 1) (4, 1) (5, 1) (6, 1) (1, 2) (2, 2) (3, 2) (4, 2) (5, 2) (6, 2) (1, 3) (2, 3) (3, 3) (4, 3) (5, 3) (6, 3) (1, 4) (2, 4) (3, 4) (4, 4) (5, 4) (6, 4) (1, 5) (2, 5) (3, 5) (4, 5) (5, 5) (6, 5) (1, 6) (2, 6) (3, 6) (4, 6) (5, 6) (6, 6) 72 Beispiel 2 (2-facher fairer Würfelwurf): [II] • A = ’mindestens eine 6’, d.h. A = {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6), (1, 6), (2, 6), (3, 6), (4, 6), (5, 6)} • B = ’Augensumme > 9’, d.h. B = {(6, 4), (6, 5), (6, 6), (5, 5), (5, 6), (4, 6)} • Somit gilt 6 1 P (B) = = 36 6 73 Beispiel 2 (2-facher fairer Würfelwurf): [III] • Der Schnitt ergibt sich zu A ∩ B = {(6, 4), (6, 5), (6, 6), (5, 6), (4, 6)} • Somit gilt P (A ∩ B) = 5 36 • Für die bedingte Wahrscheinlichkeit ergibt sich: P (A|B) = 5 5/36 P (A ∩ B) = = P (B) 6/36 6 74 Jetzt verallgemeinerte Sichtweise: • Betrachte die bedingte Wskt. P (A|B) für beliebige Ereignisse A ⊂ Ω (in Zeichen: P (·|B)) Es gilt: • Die bedingte Wskt. P (·|B) erfüllt die Kolmogorov’schen Axiome (vgl. Definition 2.4, Folie 31) Beweis: [I] • Für jedes A gilt: P (A ∩ B) P (A|B) = ≥0 P (B) 75 Beweis: [II] • Für das sichere Ereignis Ω gilt: P (Ω|B) = P (Ω ∩ B) P (B) = =1 P (B) P (B) • Für A1 ∩ A2 = ∅ gilt: P ((A1 ∪ A2) ∩ B) P (A1 ∪ A2|B) = P (B) P ((A1 ∩ B) ∪ (A2 ∩ B)) = P (B) P (A2 ∩ B) P (A1 ∩ B) = + P (B) P (B) = P (A1|B) + P (A2|B) 76 Konsequenz: • Die aus den Kolmogorov’schen Axiomen folgenden Rechenreglen für Wahrscheinlichkeiten gelten weiter, z.B. P (A|B) = 1 − P (A|B) P (∅|B) = 0 0 ≤ P (A|B) ≤ 1 P (A1 ∪ A2|B) = P (A1|B) + P (A2|B) − P (A1 ∩ A2|B) ... 77 Aus Definition 2.12 folgt unmittelbar: P (A ∩ B) = P (A|B) · P (B) Ebenso gilt: P (A ∩ B) = P (B ∩ A) = P (B|A) · P (A) Fazit: • Die Wskt. für das gleichzeitige Eintreten zweier Ereignisse A und B (d.h. für A ∩ B) ist jeweils das Produkt einer bedingten Wskt. mit der unbedingten Wskt. des bedingenden Ereignisses • Die beiden obigen Formeln heißen Multiplikationssatz für zwei Ereignisse 78 Natürliche Erweiterung: • Multiplikationssatz für n Ereignisse A1, . . . , An (d.h. Formel für Wskt. des gleichzeitigen Eintretens) • nicht hier, siehe z.B. Mosler / Schmid (2008) Hier: • Multiplikationssatz für 3 Ereignisse A, B, C: P (A ∩ B ∩ C) = P (A|B ∩ C) · P (B ∩ C) = P (A|B ∩ C) · P (B|C) · P (C) 79 Beispiel (Bestehen der Statistik-II-Klausur): [I] • Für den Erwerb des Statistik-II-Scheines hat man 3 Versuche. Für die 3 Ereignisse Ai: ’StudentIN besteht beim i-ten Versuch’, (i = 1, . . . , 3), seien folgende Wahrscheinlichkeiten bekannt: P (A1) = 0.6 P (A2|A1) = 0.5 P (A3|A1 ∩ A2) = 0.4 • Frage: Wie hoch ist die Wskt., den Schein zu erwerben? 80 Beispiel (Bestehen der Statistik-II-Klausur): [II] • Die gesuchte Wskt. ergibt sich zu: P (A1 ∪ A2 ∪ A3) = 1 − P (A1 ∪ A2 ∪ A3) = 1 − P (A1 ∩ A2 ∩ A3) = 1 − P (A3 ∩ A2 ∩ A1) = 1 − P (A3|A1 ∩ A2) · P (A2|A1) · P (A1) = 1 − (1 − 0.4) · (1 − 0.5) · (1 − 0.6) = 0.88 81 Betrachte nun den folgenden Fall: • Das Eintreten des Ereignisses A hat keinerlei Einfluss auf das Eintreten des Ereignisses B (und umgekehrt) −→ Begriff der stochastischen Unabhängigkeit Definition 2.13: (Stochastische Unabhängigkeit) Zwei Ereignisse A und B heißen stochastisch unabhängig (oder kurz: unabhängig), falls P (A ∩ B) = P (A) · P (B) gilt. A und B heißen abhängig, falls die Ereignisse nicht unabhängig sind. 82 Bemerkungen: [I] • In Definition 2.13 sind die Rollen von A und B vertauschbar • Unter der Annahme P (B) > 0 gilt: A und B sind unabhängig ⇐⇒ P (A|B) = P (A) Unter der Annahme P (A) > 0 gilt: A und B sind unabhängig ⇐⇒ P (B|A) = P (B) (Bei Unabhängigkeit hängen die bedingten Wskt.’en nicht von den jeweils bedingenden Ereignissen ab) 83 Bemerkungen: [II] • Mit A und B sind auch die folgenden Ereignisse jeweils unabhängig: A und B, A und B, A und B • Ist A ein Ereignis mit P (A) = 0 oder P (A) = 1, so ist A von jedem beliebigen Ereignis B unabhängig • Wenn A und B disjunkt (d.h. A ∩ B = ∅) und die Wskt.’en P (A), P (B) > 0 sind, können A und B nicht unabhängig sein 84 Beispiel: [I] • Betrachte zweimaligen Münzwurf (Z=Zahl, K=Kopf). Ergebnisse des Laplace-Experimentes werden als 2-Sequenzen notiert. Es ist Ω = {(Z, Z), (Z, K), (K, Z), (K, K)} • Betrachte die Ereignisse A: Zahl beim ersten Wurf B: Kopf beim zweiten Wurf C: Kopf bei beiden Würfen 85 Beispiel: [II] • Für die Ereignisse A und B gilt: P (A ∩ B) = P ({(Z, K)}) = 1/4 sowie P (A) · P (B) = P ({(Z, Z), (Z, K)}) · P ({(Z, K), (K, K)}) = 1/2 · 1/2 = 1/4 = P (A ∩ B) =⇒ A und B sind stochastisch unabhängig 86 Beispiel: [III] • Für die Ereignisse B und C gilt: P (B ∩ C) = P ({(K, K)}) = 1/4 sowie P (B) = P ({(Z, K), (K, K)}) = 1/2 P (C) = P ({(K, K)}) = 1/4 =⇒ P (B) · P (C) = 1/2 · 1/4 = 1/8 6= 1/4 = P (B ∩ C) =⇒ B und C sind stochastisch abhängig 87 Jetzt: • Verallgemeinerung des Unabhängigkeitsbegriffes von 2 auf n Ereignisse Definition 2.14: (Unabhängigkeit von n Ereignissen) Die n Ereignisse A1, A2, . . . , An heißen paarweise unabhängig, falls für alle i, j = 1, . . . , n mit i = 6 j gilt P (Ai ∩ Aj ) = P (Ai) · P (Aj ). Die n Ereignisse A1, A2, . . . , An heißen vollständig unabhängig, falls für jede Auswahl von m Indizes, gilt i1, i2, . . . , im ∈ {1, 2, . . . , n}, 2 ≤ m ≤ n, P (Ai1 ∩ Ai2 ∩ . . . ∩ Aim ) = P (Ai1 ) · P (Ai2 ) · . . . · P (Aim ). 88 Bemerkungen: • Für den Fall n = 3 ist die paarweise Unabhängigkeit gegeben, falls gilt P (A1 ∩ A2) = P (A1) · P (A2) P (A1 ∩ A3) = P (A1) · P (A3) P (A2 ∩ A3) = P (A2) · P (A3) Die 3 Ereignisse sind vollständig unabhängig, falls gilt P (A1 ∩ A2 ∩ A3) = P (A1) · P (A2) · P (A3) • Vorsicht: vollständige und paarweise Unabhängigkeit sind nicht das gleiche. Das Konzept der vollständigen Unabhängigkeit ist strenger 89 Beispiel: [I] • Betrachte das Laplace-Experiment des zweifachen Würfelwurfes mit den Ereignissen A1: A2: A3: Augenzahl beim 1. Wurf ist ungerade Augenzahl beim 2. Wurf ist ungerade Augensumme ungerade • Es gilt zunächst: P (A1 ∩ A2) = 1/4 = 1/2 · 1/2 = P (A1) · P (A2) P (A1 ∩ A3) = 1/4 = 1/2 · 1/2 = P (A1) · P (A3) P (A2 ∩ A3) = 1/4 = 1/2 · 1/2 = P (A2) · P (A3) =⇒ A1, A2, A3 sind paarweise unabhängig 90 Beispiel: [II] • Es gilt weiterhin: P (A1 ∩ A2 ∩ A3) = 0 6= 1/8 = 1/2 · 1/2 · 1/2 = P (A1) · P (A2) · P (A3) =⇒ A1, A2, A3 sind nicht vollständig unabhängig 91 2.4 Totale Wahrscheinlichkeit und das BayesTheorem Idee des Konzeptes der totalen Wahrscheinlichkeit: • Man kann die (unbedingte) Wskt. des Ereignisses A ausrechnen, wenn man bestimmte bedingte Wskt.’en von A und die zugehörigen Wskt.’en der Bedingungen kennt Satz 2.15: (Satz von der totalen Wahrscheinlichkeit) Es seien A1, . . . , An eine Partition der Ergebnismenge Ω und B ein beliebiges Ereignis. Dann gilt für die (unbedingte) Wahrscheinlichkeit von B: P (B) = n X i=1 P (B|Ai) · P (Ai). 92 Herleitung: [I] • Da A1, . . . , An eine vollständige Zerlegung von Ω darstellt, folgt B = (B ∩ A1) ∪ (B ∩ A2) ∪ . . . ∪ (B ∩ An) • Man beachte, dass die Mengen (B ∩ A1), (B ∩ A2), . . . , (B ∩ An) paarweise disjunkt sind 93 Herleitung: [II] • Aus der paarweisen Disjunktheit, dem 3. Kolmogorov’schen Axiom (vgl. Folie 31) sowie der Definition der bedingten Wahrscheinlichkeit folgt: P (B) = P n [ i=1 = n X i=1 (B ∩ Ai) = n X i=1 P (B ∩ Ai) P (B|Ai) · P (Ai) Fazit: • Die (unbedingte) Wskt. von B ergibt sich aus gewichteten bedingten Wskt.’en von B 94 Beispiel: [I] • Ein und derselbe Massenartikel werde auf zwei Maschinen gefertigt. Die schnellere Maschine M 1 hinterläßt 10% Ausschuss, produziert aber doppelt soviel wie die langsamere Maschine M 2, die aber nur einen Ausschuss von 7% aufweist. Wie groß ist die Wskt., dass ein zufällig aus der Gesamtproduktion gezogenes Einzelstück defekt ist? • Definition der Ereignisse: B: Stück ist defekt A1 : Stück auf M 1 produziert A2: Stück auf M 2 produziert 95 Beispiel: [I] • Folgende Wskt.’en sind gegeben: P (B|A1) P (B|A2) P (A1) P (A2) • Daraus folgt: P (B) = 2 X i=1 = = = = 0.1 0.07 2/3 1/3 P (B|Ai) · P (Ai) = 0.1 · 2/3 + 0.07 · 1/3 = 0.09 96 Jetzt: • Verbindung zwischen bedingten Wahrscheinlichkeiten, bei denen die Rollen zwischen bedingtem und bedingendem Ereignis vertauscht sind (etwa Zusammenhang zwischen P (A|B) und P (B|A)) −→ Bayes-Theorem 97 Herleitung des Bayes-Theorems: [I] • Betrachte den Multiplikationssatz für zwei Ereignisse (vgl. Folie 78) P (A ∩ B) = P (A|B) · P (B) = P (B|A) · P (A) • Daraus folgt: P (A|B) = P (A) · P (B|A) P (B) • Diese Beziehung gilt für zwei beliebige Ereignisse und deshalb auch für jedes Ai, i = 1, . . . , n, einer beliebigen Partition der Grundmenge Ω: P (Ai|B) = P (Ai) · P (B|Ai) P (B) 98 Herleitung des Bayes-Theorems: [II] • Ersetzt man P (B) durch den Ausdruck aus dem Satz 2.15 der totalen Wahrscheinlichkeit (vgl. Folie 92), so erhält man das Bayes-Theorem Satz 2.16: (Bayes-Theorem) Es seien A1, . . . , An eine Partition der Ergebnismenge Ω und B ein beliebiges Ereignis mit P (B) > 0. Dann gilt für jedes Ai: P (B|Ai) · P (Ai) P (Ai|B) = n . X P (B|Ai) · P (Ai) i=1 99 Beispiel: [I] • An Patienten einer bestimmten Population wird durch einen Labortest untersucht, ob eine bestimmte Krankheit vorliegt oder nicht. Der Anteil der Kranken in der Population ist bekannt und wird mit π bezeichnet. Falls ein konkret untersuchter Patient krank ist, zeigt der Test die Krankheit mit einer Wskt. von 99% an (Ergebnis ’positiv’). Falls er nicht krank ist, zeigt der Test die Krankheit (fälschlicherweise) mit einer Wskt. von 2% an. • Wie groß ist die Wskt., dass die Krankheit vorliegt unter der Bedingung, dass der Test positiv ausfällt? 100 Beispiel: [II] • Definition der Ereignisse: A1 : A2 = A1: B: Krankheit liegt vor Krankheit liegt nicht vor Test zeigt Krankheit an • Folgende Wskt.’en sind gegeben: P (B|A1) = 0.99 P (B|A2) = 0.02 P (A1) = π • Gesucht: P (A1|B) 101 Beispiel: [III] • Mit dem Bayes-Theorem gilt: P (B|A1) · P (A1) P (A1|B) = P (B|A1) · P (A1) + P (B|A2) · P (A2) = 0.99 · π 0.99 · π + 0.02 · (1 − π) • Offensichtlich: Krankenanteil π hat starken Einfluss auf die gesuchte Wahrscheinlichkeit 102 Beispiel: [III] • Beispielswerte: P (A1|B) = 0.846 (π = 0.1) P (A1|B) = 0.333 (π = 0.01) P (A1|B) = 0.005 (π = 0.0001) P (A1|B) = 0.047 (π = 0.001) 103 3. Zufallsvariable und Verteilungen Häufige Situation in der Praxis: • Es interessiert nicht so sehr das konkrete Ergebnis ω ∈ Ω eines Zufallsexperimentes, sondern eine Zahl, die von ω abhängt Beispiele: • Gewinn in Euro im Roulette • Gewinn einer Aktie an der Börse • Monatsgehalt einer zufällig ausgewählten Person 104 Intuitive Bedeutung einer Zufallsvariablen: • Vorschrift, die das ’abstrakte’ ω in eine Zahl übersetzt Begrifflichkeiten: Deskriptive Statistik Grundgesamtheit Merkmal Messwert Wskt.-Rechnung ←→ Ergebnismenge ←→ Realisation ←→ Zufallsvariable 105 3.1 Grundbegriffe und Definitionen Definition 3.1: (Zufallsvariable [kurz: ZV]) Unter einer Zufallsvariablen versteht man formal eine (mathematische) Funktion X : Ω −→ R ω −→ X(ω). Bemerkungen: • Eine Zufallsvariable ordnet jedem Ergebnis ω ∈ Ω eine reelle Zahl zu 106 Zufallsvariable als Abbildung der Ergebnismenge auf die reelle Zahlenachse (vgl. Schira, 2009, S. 258) 107 Bemerkungen: [I] • Intuition: Eine Zufallsvariable X charakterisiert eine Zahl, deren Wert man noch nicht kennt • Nach der Durchführung des Zufallsexperimentes realisiert sich die Zufallsvariable X im Wert x • x heißt die Realisation oder Realisierung der ZV X nach Durchführung des zugehörigen Zufallsexperimentes • In dieser VL: Zufallsvariablen werden immer mit Großbuchstaben, Realisationen immer mit Kleinbuchstaben bezeichnet 108 Bemerkungen: [II] • Die Zufallsvariable X beschreibt die Situation ex ante, d.h. vor der tatsächlichen Durchführung des Zufallsexperimentes • Die Realisation x beschreibt die Situation ex post, d.h. nach der Durchführung des Zufallsexperimentes • Wahrscheinlichkeitsaussagen kann man nur über die Zufallsvariable X treffen • Für den Rest der VL sind Zufallsvariablen von zentraler Bedeutung 109 Beispiel 1: • Betrachte den 1-maligen Münzwurf (Z=Zahl, K=Kopf). Die ZV X bezeichne die ’Anzahl der Köpfe’ bei diesem Zufallsexperiment • Es gilt: Ω = {K, Z} • Die ZV X kann 2 Werte annehmen: X(Z) = 0, X(K) = 1 110 Beispiel 2: • Betrachte den 3-maligen Münzwurf. Die ZV X bezeichne erneut die ’Anzahl der Köpfe’ • Es gilt: K, Z)}, . . . , (Z, Z, Z)}} Ω = {(K, K, K)}, (K, {z | {z | {z | =ω1 =ω2 =ω8 • Die Zufallsvariable X ist definiert durch X(ω) = Anzahl der K in ω • Offensichtlich: X ordnet verschiedenen ω dieselbe Zahl zu, z.B. X((K, K, Z)) = X((K, Z, K)) = X((Z, K, K)) = 2 111 Beispiel 3: • Aus einer Personengruppe werde zufällig 1 Person ausgewählt. Die ZV X soll den Erwerbsstatus der ausgewählten Person bezeichnen • Es gilt: Ω = {’erwerbstätig’ | {z }, |’nicht erwerbstätig’ {z }} =ω1 =ω2 • Die ZV X kann definiert werden durch X(ω1) = 1, X(ω2) = 0 (Codierung) 112 Beispiel 4: • Das Zufallsexperiment bestehe in der Messung des morgigen Kurses einer bestimmten Aktie. Die ZV X bezeichne diesen Aktienkurs • Es gilt: Ω = [0, ∞) • X ist definiert durch X(ω) = ω 113 Zwischenfazit: • Die ZV X kann verschiedene Werte annehmen und zwar mit bestimmten Wskt’en Vereinfachende Schreibweise: (a, b, x ∈ R) • P (X = a) ≡ P ({ω|X(ω) = a}) • P (a < X < b) ≡ P ({ω|a < X(ω) < b}) • P (X ≤ x) ≡ P ({ω|X(ω) ≤ x}) 114 Frage: • Wie kann man diese Wskt’en bestimmen und mit diesen rechnen? Lösung: • Die Berechnung solcher Wskt’en kann über die sogenannte Verteilungsfunktion der ZV’en X erfolgen Intuition: • Die Verteilungsfunktion der ZV’en X charakterisiert die Wahrscheinlichkeiten, mit denen sich die potenziellen Realisationen x auf der reellen Zahlenachse verteilen (die sogenannte Verteilung der ZV’en X) 115 Definition 3.2: (Verteilungsfunktion [kurz: VF]) Gegeben sei die Zufallsvariable X. Unter der Verteilungsfunktion der ZV’en X (in Zeichen: FX ) versteht man die folgende Abbildung: FX : R −→ [0, 1] x −→ FX (x) = P ({ω|X(ω) ≤ x}) = P (X ≤ x). 116 Beispiel: [I] • Betrachte das Laplace-Experiment des 3-fachen Münzwurfes. Die ZV X messe die ’Anzahl Kopf’. • Zunächst gilt: Ω = {(K, K, K)}, (K, K, Z)}, . . . , (Z, Z, Z)}} {z {z {z | | | = ω1 = ω2 = ω8 • Für die Wskt’en der ZV X errechnet sich: P (X P (X P (X P (X = 0) = 1) = 2) = 3) = = = = P ({(Z, Z, Z)}) = 1/8 P ({(Z, Z, K), (Z, K, Z), (K, Z, Z)}) = 3/8 P ({(Z, K, K), (K, Z, K), (K, K, Z)}) = 3/8 P ({(K, K, K)}) = 1/8 117 Beispiel: [II] • Daraus ergibt sich die VF: FX (x) = 0.000 0.125 0.5 0.875 1 für x < 0 für 0 ≤ x < 1 für 1 ≤ x < 2 für 2 ≤ x < 3 für x ≥ 3 Graph der Verteilungsfunktion 118 Bemerkungen: • Es genügt (fast immer), lediglich die VF FX der ZV X zu kennen • Oft ist es in praxi gar nicht möglich, den Grundraum Ω oder die explizite Abbildung X : Ω −→ R anzugeben (jedoch kann man meistens die VF FX aus sachlogischen Überlegungen heraus angeben) 119 Allgemeingültige Eigenschaften von FX : • FX (x) ist monoton wachsend • Es gilt stets: lim FX (x) = 0 x→−∞ und lim FX (x) = 1 x→+∞ • FX ist rechtsseitig stetig, d.h. F (z) = FX (x) lim z→x X z>x (vgl. Eigenschaften der empirischen Verteilungsfunktion aus der VL Statistik I) 120 Fazit: • VF FX (x) der ZV’en X gibt Antwort auf die Frage ’Wie hoch ist die Wahrscheinlichkeit, dass X höchstens den Wert x annimmt?’ Jetzt: • Antwort auf die Frage ’Welchen Wert wird die ZV’e X mit einer vorgegebenen Wahrscheinlichkeit p ∈ (0, 1) nicht überschreiten?’ −→ Quantilfunktion der ZV’en X 121 Definition 3.3: (Quantilfunktion) Gegeben sei die ZV X mit VF FX . Für jeden reellen Wert p ∈ (0, 1) versteht man unter der Quantilfunktion von X (in Zeichen: QX (p)) die folgende Abbildung: QX : (0, 1) −→ R p −→ QX (p) = min{x|FX (x) ≥ p}. Der Wert der Quantilfunktion xp = QX (p) heißt p − Quantil der ZV’en X. 122 Bemerkungen: • Das p-Quantil xp ist die kleinste Zahl x ∈ R mit der Eigenschaft, dass FX (x) den Wert p erreicht oder überschreitet. • Interpretiert man p ∈ (0, 1) als eine Wahrscheinlichkeit, so ist das p-Quantil xp die kleinste Realisation der ZV’en X, die X mit Wskt. p nicht überschreitet. Spezielle Quantile: • Median: p = 0.5 • Quartile: p = 0.25, 0.5, 0.75 • Quintile: p = 0.2, 0.4, 0.6, 0.8 • Dezile: p = 0.1, 0.2, . . . , 0.9 123 Frage: • Warum diese ’scheinbar komplizierte’ Definition? Betrachte 3 Fälle: • Stetige, streng monoton wachsende VF FX • Stetige, teilweise konstante VF FX • Rechtsseitig stetige Treppen-VF FX 124 Stetige, streng monoton wachsende Verteilungsfunktion 125 Stetige, teilweise konstante Verteilungsfunktion 126 Rechtsseitig stetige Treppen-Verteilungsfunktion 127 Jetzt: • Typisierung von ZV’en (diskrete vs. stetige ZV’en) Grund: • Unterschiedliche mathematische Methoden zur Behandlung von ZV’en • Bei diskreten ZV’en: Endliche und unendliche Summen • Bei stetigen ZV’en: Differential- und Integralrechnung 128 Definition 3.4: (Diskrete Zufallsvariable) Die ZV X heißt diskret, wenn sie entweder 1. nur endlich viele Realisationen x1, x2, . . . , xJ oder 2. abzählbar unendlich viele Realisationen x1, x2, . . . mit streng positiver Wahrscheinlichkeit annehmen kann, d.h. falls für alle j = 1, . . . , J, . . . gilt P (X = xj ) > 0 und J,... X P (X = xj ) = 1. j=1 129 Typische diskrete Merkmale sind: • Zählmerkmale (’X = Anzahl von . . .’) • Codierte qualitative Merkmale Definition 3.5: (Träger einer diskreten Zufallsvariablen) Die Menge aller Realisationen, die eine diskrete ZV X mit streng positiver Wskt. annehmen kann, heißt Träger von X (in Zeichen: TX ): TX = {x1, . . . , xJ } bzw. TX = {x1, x2, . . .}. 130 Definition 3.6: (Wahrscheinlichkeitsfunktion) Für eine diskrete ZV X heißt die Funktion fX (x) = P (X = x) die Wahrscheinlichkeitsfunktion von X. Bemerkungen: [I] • Die Wahrscheinlichkeitsfunktion fX der ZV X nimmt nur für die Elemente des Träger TX positive Werte an. Für Werte außerhalb des Trägers, d.h. für x ∈ / TX , gilt fX (x) = 0: fX (x) = ( P (X = xj ) > 0 0 für x = xj ∈ TX / TX für x ∈ 131 Bemerkungen: [II] • Die Wahrscheinlichkeitsfkt. fX hat die Eigenschaften fX (x) ≥ 0 für alle x X fX (xj ) = 1 xj ∈TX • Für eine beliebige Menge B ⊂ R berechnet sich die Wskt. des Ereignisses {ω|X(ω) ∈ B} = {X ∈ B} durch P (X ∈ B) = X fX (xj ) xj ∈B 132 Beispiel: [I] • Betrachte 3-fachen Münzwurf und X = ’Anzahl Kopf’ • Offensichtlich: X ist diskret mit dem Träger TX = {0, 1, 2, 3} • Die Wahrscheinlichkeitsfunktion ist gegeben durch fX (x) = P (X = 0) = 0.125 P (X = 1) = 0.375 P (X = 2) = 0.375 P (X = 3) = 0.125 0 für x = 0 für x = 1 für x = 2 für x = 3 / TX für x ∈ 133 Beispiel: [II] • Die Verteilungsfunktion ist gegeben durch (vgl. Folie 118) FX (x) = 0.000 0.125 0.5 0.875 1 für x < 0 für 0 ≤ x < 1 für 1 ≤ x < 2 für 2 ≤ x < 3 für x ≥ 3 134 Wahrscheinlichkeits- und Verteilungsfunktion 135 Offensichtlich: • Für die Verteilungsfunktion gilt FX (x) = P (X ≤ x) = X {xj ∈TX |xj ≤x} =P (X=xj ) z }| { fX (xj ) Fazit: • Die VF einer diskreten ZV’en X ist eine Treppenfunktion mit Sprüngen an den Stellen xj ∈ TX . Die Sprunghöhe an der Stelle xj beträgt lim F (x) = P (X = xj ) = fX (xj ), FX (xj ) − x→x j x<xj d.h. die Sprunghöhe ist der Wert der Wskt.-Funktion (Beziehung: Verteilungs- und Wahrscheinlichkeitsfunktion) 136 Jetzt: • Definition von stetigen Zufallsvariablen Intuition: • Im Gegensatz zu diskreten ZV’en (vgl. Definition 3.4, Folie 129) sind stetige ZV’e solche, die überabzählbar viele Realisationen (z.B. jede reelle Zahl in einem Intervall) annehmen können Tatsächlich: • Definition stetiger ZV’en komplizierter (technischer) 137 Definition 3.7: (Stetige ZV, Dichtefunktion) Eine ZV X heißt stetig, wenn sich ihre Verteilungsfunktion FX als Integral einer Funktion fX : R −→ [0, ∞) schreiben lässt: FX (x) = Z x −∞ fX (t)dt für alle x ∈ R. Die Funktion fX (x) heißt Dichtefunktion [kurz: Dichte] von X. Bemerkungen: • Die VF FX einer stetigen ZV’en X ist (eine) Stammfunktion der Dichtefunktion fX • FX (x) = P (X ≤ x) ist gleich dem Flächeninhalt unter der Dichtefunktion fX von −∞ bis zur Stelle x 138 Verteilungsfunktion FX und Dichte fX fX(t) P(X ≤ x) = FX(x) x t 139 Eigenschaften der Dichtefunktion fX : 1. Die Dichte fX ist niemals negativ, d.h. fX (x) ≥ 0 für alle x ∈ R 2. Die Fläche unter der Dichte ist gleich 1, d.h. Z +∞ −∞ fX (x)dx = 1 3. Wenn FX (x) differenzierbar ist, gilt 0 (x) fX (x) = FX 140 Beispiel: (Gleichverteilung über [0, 10]) [I] • Gegeben sei die ZV X mit Dichtefunktion fX (x) = ( 0 0.1 , für x ∈ / [0, 10] , für x ∈ [0, 10] • Berechnung der VF FX : [I] Für x < 0 gilt: FX (x) = Z x −∞ fX (t) dt = Z x −∞ 0 dt = 0 141 Beispiel: (Gleichverteilung über [0, 10]) [II] • Berechnung der VF FX : [II] Für x ∈ [0, 10] gilt: FX (x) = Z x = Z 0 −∞ fX (t) dt 0 dt + {z | −∞ =0 } Z x 0 0.1 dt = [0.1 · t]x0 = 0.1 · x − 0.1 · 0 = 0.1 · x 142 Beispiel: (Gleichverteilung über [0, 10]) [III] • Berechnung der VF FX : [III] Für x > 10 gilt: FX (x) = Z x = Z 0 −∞ fX (t) dt 0 dt + {z | −∞ =0 = 1 } Z 10 |0 0.1 dt + {z =1 } Z ∞ 0 dt | 10{z } =0 143 Verteilungsfunktion und Dichte der Gleichverteilung über [0, 10] 144 Jetzt: • Wskt.’en für Intervalle, d.h. (für a, b ∈ R, a < b) P (X ∈ (a, b]) = P (a < X ≤ b) • Es gilt: P (a < X ≤ b) = P ({ω|a < X(ω) ≤ b}) = P ({ω|X(ω) > a} ∩ {ω|X(ω) ≤ b}) = 1 − P ({ω|X(ω) > a} ∩ {ω|X(ω) ≤ b}) = 1 − P ({ω|X(ω) > a} ∪ {ω|X(ω) ≤ b}) = 1 − P ({ω|X(ω) ≤ a} ∪ {ω|X(ω) > b}) 145 = 1 − [P (X ≤ a) + P (X > b)] = 1 − [FX (a) + (1 − P (X ≤ b))] = 1 − [FX (a) + 1 − FX (b)] = FX (b) − FX (a) = Z b = Z b −∞ a fX (t) dt − Z a −∞ fX (t) dt fX (t) dt 146 Intervall-Wahrscheinlichkeit mit den Grenzen a und b fX(x) P(a < X ≤ b) a b x 147 Wichtiges Ergebnis für stetige ZV X: P (X = a) = 0 für alle a ∈ R Begründung: P (X = a) = lim P (a < X ≤ b) = lim b→a = Z a a Z b b→a a fX (x) dx fX (x)dx = 0 Fazit: • Die Wskt., dass eine stetige ZV X einen einzelnen Wert annimmt, ist immer Null!! 148 Punkt-Wahrscheinlichkeit bei stetiger ZV fX(x) a b3 b2 b1 x 149 Vorsicht: • Das bedeutet nicht, dass dieses Ereignis unmöglich ist Konsequenz: • Da bei stetigen ZV’en für alle a ∈ R stets P (X = a) = 0 gilt, folgt für stetige ZV stets P (a < X < b) = P (a ≤ X < b) = P (a ≤ X ≤ b) = P (a < X ≤ b) = FX (b) − FX (a) (Ob Intervalle offen oder geschlossen sind, spielt für die Wskt.-Bestimmung bei stetigen ZV keine Rolle) 150 3.2 Erwartungswert und Varianz einer Zufallsvariablen Jetzt: • Beschreibung der Wskt.-Verteilung der ZV’en X durch bestimmte Kenngrößen • In dieser VL lediglich Betrachtung von Erwartungswert Varianz 151 Zunächst: • Der Erwartungswert einer ZV’en X ist eine Maßzahl für die Lage der Verteilung • Der Erwartungswert einer ZV’en X ähnelt in seiner Bedeutung dem arithmetischen Mittel einer Datenreihe (vgl. deskriptive Statistik, VL Statistik I) 152 Wiederholung: • Für eine gegebene Datenreihe x1, . . . , xn ist das arithmetische Mittel definiert als n n X 1 1 X xi = xi · x= n i=1 n i=1 • Jeder Summand xi · 1/n entspricht einem Datenpunkt × relativer Häufigkeit Jetzt: • Übertragung dieses Prinzips auf die ZV X 153 Definition 3.8: (Erwartungswert) Der Erwartungswert der ZV’en X (in Zeichen: E(X)) ist definiert als E(X) = X xj · P (X = xj ) {xj ∈TX } Z +∞ −∞ x · fX (x) dx , falls X diskret ist . , falls X stetig ist Bemerkungen: [I] • Der Erwartungswert der ZV’en X entspricht also (in etwa) der Summe aller möglichen Realisationen jeweils gewichtet mit der Wskt. ihres Eintretens 154 Bemerkungen: [II] • Anstelle von E(X) schreibt man häufig µX • Anstelle der Formulierung ’Erwartungswert der ZV’en X’ sagt man häufig ’Erwartungswert der Verteilung von X’ • Es gibt ZV’en, die keinen Erwartungswert besitzen (kein Gegenstand dieser VL) 155 Beispiel 1: (Diskrete ZV) [I] • Man betrachte den 2-maligen Würfelwurf. Die ZV X stehe für die (betragliche) Differenz der Augenzahlen. Man berechne den Erwartungswert von X • Zunächst ergibt sich als Träger der Zufallsvariablen TX = {0, 1, 2, 3, 4, 5} • Die Wahrscheinlichkeitsfunktion ist gegeben durch fX (x) = P (X = 0) = 6/36 P (X = 1) = 10/36 P (X = 2) = 8/36 P (X = 3) = 6/36 P (X = 4) = 4/36 P (X = 5) = 2/36 0 für x = 0 für x = 1 für x = 2 für x = 3 für x = 4 für x = 5 / TX für x ∈ 156 Beispiel 1: (Diskrete ZV) [II] • Als Erwartungswert ergibt sich E(X) = 0 · 6 10 8 6 4 2 +1· +2· +3· +4· +5· 36 36 36 36 36 36 70 = = 1.9444 36 • Achtung: In diesem Beispiel ist E(X) eine Zahl, die die ZV X selbst gar nicht annehmen kann 157 Beispiel 2: (Stetige ZV) • Es sei X eine stetige ZV mit der Dichte x , für 1 ≤ x ≤ 3 fX (x) = 4 0 , sonst • Zur Berechnung des Erwartungswertes spaltet man das Integral auf: E(X) = Z +∞ = Z 3 2 x Z 1 Z 3 Z +∞ x x · fX (x) dx = 0 dx 0 dx + x · dx + 4 −∞ 3 −∞ 1 1 1 3 3 dx = · ·x 4 3 1 4 1 1 27 1 26 = · − = = 2.1667 4 3 3 12 158 Häufige Situation: • Kenne ZV X mit Wskt.- oder Dichtefunktion fX • Suche den Erwartungswert der transformierten ZV Y = g(X) 159 Satz 3.9: (Erwartungswert einer Transformierten) Gegeben sei die ZV X mit Wskt.- oder Dichtefunktion fX . Für eine beliebige (Baire)Funktion g : R −→ R berechnet sich der Erwartungswert der transformierten ZV Y = g(X) als E(Y ) = E(g(X)) = X g(xj ) · P (X = xj ) {x ∈T } j X Z +∞ −∞ g(x) · fX (x) dx , falls X diskret ist . , falls X stetig ist 160 Bemerkungen: • Alle Funktionen, die im VWL- und/oder BWL-Studium auftauchen, sind Baire-Funktionen • Für den Spezialfall g(x) = x (die Identitätsfunktion) fällt der Satz 3.9 mit der Definition 3.8 zusammen 161 Rechnen mit Erwartungswerten (Teil 1): • Betrachte die (lineare) Transformation Y = g(X) = a + b · X mit a, b ∈ R • Ist X stetig mit Dichtefunktion fX , so gilt: E(Y ) = E(a + b · X) = = Z +∞ −∞ = a· Z +∞ −∞ (a + b · x) · fX (x) dx [a · fX (x) + b · x · fX (x)] dx Z +∞ | −∞ fX (x) dx +b · {z =1 = a + b · E(X) } Z +∞ | −∞ x · fX (x) dx {z =E(X) } 162 Bemerkung: • Der Erwartungswert ist ein linearer Operator, d.h. E(a + b · X) = a + b · E(X) für reelle Zahlen a, b ∈ R (Spezialfälle: a = 0, b 6= 0 bzw. a 6= 0, b = 0) 163 Rechnen mit Erwartungswerten (Teil 2): • Betrachte die aufgespaltene Funktion Y = g(X) = g1(X) + g2(X) • Ist X stetig mit Dichtefunktion fX , so gilt: E(Y ) = E[g1(X) + g2(X)] = Z +∞ = Z +∞ −∞ | −∞ [g1(x) + g2(x)] · fX (x) dx g1(x) · fX (x) dx + {z =E[g1 (X)] } Z +∞ | −∞ g2(x) · fX (x) dx {z =E[g2(X)] } = E[g1(X)] + E[g2(X)] 164 Bemerkung: • Für diskrete ZV’en sind die Herleitungen analog Satz 3.10: (Zusammenfassung) Es seien X eine beliebige ZV (stetig oder diskret), a, b ∈ R reelle Zahlen und g1, g2 : R −→ R (Baire)Funktionen. Dann gelten die folgenden Rechenregeln: 1. E(a + b · X) = a + b · E(X). 2. E[g1(X) + g2(X)] = E[g1(X)] + E[g2(X)]. 165 Jetzt: • Beschreibung des Streuungsverhaltens einer ZV X Wiederholung aus deskriptiver Statistik: • Für eine gegebene Datenreihe x1, . . . , xn ist die empirische Varianz definiert durch n n X X 1 1 2 2 2 s = (xi − x) = (xi − x) · n i=1 n i=1 • Jeder Summand entspricht der quadratischen Abweichung des Datenpunktes xi vom arithmetischen Mittel x gewichtet mit seiner relativen Häufigkeit 166 Definition 3.11: (Varianz, Standardabweichung) Für eine beliebige stetige oder diskrete ZV X ist die Varianz von X [in Zeichen: V (X)] definiert als die erwartete quadrierte Abweichung der ZV von ihrem Erwartungswert E(X), d.h. V (X) = E[(X − E(X))2]. Unter der Standardabweichung von X [in Zeichen: σ(X)] versteht man die (positive) Wurzel aus der Varianz, d.h. q σ(X) = + V (X). 167 Bemerkungen: • Offensichtlich ist die Varianz von X ein Erwartungswert. Mit g(X) = [X − E(X)]2 und Satz 3.9 (Folie 160) gilt für die Varianz von X: V (X) = E[g(X)] = X 2 · P (X = x ) [x − E(X)] j j {xj ∈TX } Z +∞ −∞ [x − E(X)]2 · fX (x) dx , für diskretes X , für stetiges X • Es gibt ZV’en, die keine endliche Varianz besitzen (nicht Gegenstand dieser VL) 168 Beispiel: (Diskrete ZV) • Betrachte erneut den 2-maligen Münzwurf mit der ZV X als (betraglicher) Differenz der Augenzahlen (vgl. Beispiel 1, Folie 156). Für die Varianz gilt: V (X) = (0 − 70/36)2 · 6/36 + (1 − 70/36)2 · 10/36 = (2 − 70/36)2 · 8/36 + (3 − 70/36)2 · 6/36 = (4 − 70/36)2 · 4/36 + (5 − 70/36)2 · 2/36 = 2.05247 169 Jetzt: • Rechenregeln für Varianzen Man beachte: • Varianz ist per definitionem ein Erwartungswert −→ Rechenregeln für Erwartungswerte anwendbar Rechenregel 1: [I] • Betrachte die (lineare) Transformation Y = g(X) = a + b · X mit a, b ∈ R 170 Rechenregel 1: [II] • Es gilt V (Y ) = V [g(X)] = E[[g(X) − E(g(X))]2] = E[[a + b · X − a − b · E(X)]2] = E[b2 · [X − E(X)]2] = b2 · E[[X − E(X)]2] = b2 · V (X) −→ Spezialfall: b = 0, a ∈ R (Varianz einer Konstanten) V (a) = 0 171 Rechenregel 2: • Vereinfachte Varianzberechnung: V (X) = E[(X − E(X))2] = E[X 2 − 2 · E(X) · X + [E(X)]2] = E(X 2) − 2 · E(X) · E(X) + [E(X)]2 = E(X 2) − [E(X)]2 172 Übungsaufgabe: • Berechnen Sie anhand dieser Formel die Varianz der stetigen ZV’en X mit Dichte x , für 1 ≤ x ≤ 3 fX (x) = 4 0 , sonst Satz 3.12: (Zusammenfassung) Es seien X eine beliebige ZV (stetig oder diskret) sowie a, b ∈ R reelle Zahlen. Es gelten die folgenden Rechenregeln: 1. V (X) = E(X 2) − [E(X)]2. 2. V (a + b · X) = b2 · V (X). 173 3.3 Spezielle diskrete Verteilungen Jetzt: • Einige wichtige diskrete Verteilungen: Bernoulli-Verteilung Binomial-Verteilung Geometrische Verteilung Poisson-Verteilung 174 1. Die Bernoulli-Verteilung Ausgangssituation: • Ein Zufallsexp. habe nur 2 interessierende Ausgänge: Ω=A∪A • Oft bezeichnet man das Ereignis A als Erfolg und A als Misserfolg oder Niete Definition 3.13: (Bernoulli-Experiment) Ein Zufallsexperiment, bei dem man sich nur dafür interessiert, ob ein Ereignis A eintritt oder nicht, nennt man ein BernoulliExperiment. 175 Jetzt: • Definiere die codierte ZV X als X= ( 1 0 , falls A eintritt (Erfolg) , falls A eintritt (Misserfolg) Beispiele: [I] • Das Geschlecht einer zufällig ausgewählten Person aus einer Population: X= ( 1 0 , falls die Person weiblich ist , falls die Person männlich ist 176 Beispiele: [II] • Eine Urne enthält insgesamt N Kugeln, von denen M rot und N − M weiß sind. Betrachte das Experiment des 1-maligen Ziehens einer Kugel: X= ( 1 0 , falls die Kugel rot ist , falls die Kugel weiß ist Offensichtlich: P (X = 1) = M ≡p N P (X = 0) = M N −M =1− =1−p≡q N N 177 Definition 3.14: (Bernoulli-Verteilung) Die ZV X repräsentiere ein Bernoulli-Experiment und für ein festes p ∈ [0, 1] gelte P (X = 1) = P (A) = p, P (X = 0) = P (A) = 1 − p ≡ q. Dann heißt die ZV X Bernoulli-verteilt mit Parameter (Erfolgswskt.) p und man schreibt X ∼ Be(p). Berechnung des E-Wertes bzw. der Varianz: • E(X) = 0 · (1 − p) + 1 · p = p • V (X) = (0 − p)2 · (1 − p) + (1 − p)2 · p = p · (1 − p) = p · q 178 Wahrscheinlichkeits- und Verteilungsfunktion der Bernoulli-Verteilung 179 2. Die Binomial-Verteilung Jetzt: • Betrachte n gleichartige und unabhängig voneinander durchgeführte Bernoulli-Experimente (alle mit derselben Erfolgswahrscheinlichkeit p) • Die ZV X bezeichne die Anzahl der Erfolge, d.h. der Träger von X ist TX = {0, 1, . . . , n} Gesucht: • Wskt. genau x Erfolge zu erzielen, d.h. P (X = x) 180 Herleitung: • Bei n unabhängigen Bernoulli-Experimenten gibt es genau n x Versuchsreihen, die exakt x Erfolge und gleichzeitig n − x Misserfolge aufweisen • Wegen der Unabhängigkeit der Bernoulli-Experimente ist die x · (1 − p)n−x Wskt. jeder einzelnen dieser n Versuchsreihen p x • Wegen der Disjunktheit der n x Versuchsreihen folgt für die gesuchte Wskt. P (X = x) = n x · px · (1 − p)n−x 181 Definition 3.15: (Binomial-Verteilung) Eine diskrete ZV X mit Träger TX = {0, 1, . . . , n} und Wahrscheinlichkeitsfunktion n P (X = x) = · px · (1 − p)n−x für x = 0, 1, . . . , n, x heißt binomialverteilt mit den Parametern n und p [in Zeichen: X ∼ B(n, p)]. Bemerkung: • Die Bernoulli-Verteilung aus Definition 3.14 (Folie 178) ist ein Spezialfall der Binomialverteilung, denn es gilt X ∼ Be(p) ist das gleiche wie X ∼ B(1, p) 182 Beispiel: [I] • Eine Urne enthält 10 Kugeln, davon 3 rote und 7 weiße. Es werden 2 Kugeln mit Zurücklegen gezogen. Gesucht sind die Wskt’en dafür, genau 0, 1 bzw. 2 rote Kugeln zu ziehen • Es bezeichne X die Anzahl der gezogenen roten Kugeln. Die Wskt. bei genau einem Zug eine rote Kugel zu ziehen, beträgt p = 3/10 = 0.3 −→ X ∼ B(n = 2, p = 0.3) 183 Beispiel: [II] • Berechung der Wskt. Funktion: P (X = 0) = P (X = 1) = P (X = 2) = 2 0 2 1 2 2 · 0.30 · (1 − 0.3)2−0 = 0.49 · 0.31 · (1 − 0.3)2−1 = 0.42 · 0.32 · (1 − 0.3)2−2 = 0.09 E-Wert und Varianz einer Bernoulli-Verteilung: • E(X) = n · p • V (X) = n · p · (1 − p) (Beweise: später mit Ergebnissen aus Kapitel 4) 184 Wahrscheinlichkeits- und Verteilungsfunktion der Binomial-Verteilung 185 3. Die Geometrische Verteilung Ausgangssituation: • Bernoulli-Experiment (Ausgänge A bzw. A, P (A) = p) kann prinzipiell beliebig oft wiederholt werden (gleichartige unabhängige Experimente) Von Interesse: • Zeitpunkt des 1. Erfolges, d.h. ZV X = Anzahl der Experimente bis zum 1. Ausgang A 186 Offensichtlich: • Träger von X ist TX = {1, 2, . . .} = N Berechnung der Wskt.-Funktion: P (X = 1) = p P (X = 2) = (1 − p) · p = p · (1 − p) P (X = 3) = (1 − p) · (1 − p) · p = p · (1 − p)2 ... Allgemein gilt: x−1 = p · − p) ·p (1 P (X = x) = (1 · − p) . . . · (1 − p) {z } | x−1 mal 187 Definition 3.16: (Geometrische Verteilung) Eine diskrete ZV X mit Träger TX = N und der Wahrscheinlichkeitsfunktion P (X = x) = p · (1 − p)x−1 für x ∈ N heißt geometrisch verteilt mit Parameter p ∈ (0, 1) [in Zeichen: X ∼ G(p)]. Bemerkung: • Bei der Berechnung diverser Verteilungseigenschaften spielt die unendliche geometrische Reihe eine Rolle, z.B. ∞ X x=1 P (X = x) = ∞ X x=1 p · (1 − p)x−1 = p · 1 =1 1 − (1 − p) 188 Satz 3.17: (Kenngrößen der geometrischen Verteilung) Die diskrete ZV X sei geometrisch verteilt mit Parameter p, d.h. X ∼ G(p). Dann sind der Erwartungswert bzw. die Varianz von X gegeben durch E(X) = ∞ X 1 x−1 = x · p · (1 − p) ∞ X 1−p x−1 = . (x − 1/p) · p · (1 − p) 2 p x=1 V (X) = x=1 p 2 189 Beispiel: [I] • Aus einer Urne mit 10 Kugeln (4 rote, 6 weiße) wird mit Zurücklegen gezogen. Gesucht werden 1. die Wskt., dass bei der 3. Ziehung erstmalig eine rote Kugel gezogen wird, 2. die Wskt., dass frühestens bei der 3. Ziehung erstmalig eine rote Kugel gezogen wird, 3. der Erwartungswert für das erstmalige Ziehen einer roten Kugel, 4. die Varianz für das erstmalige Ziehen einer roten Kugel. 190 Beispiel: [II] • Betrachte ZV X = Nummer der Ziehung, bei der erstmalig eine rote Kugel gezogen wird • Offensichtlich: X ∼ G(0.4). Damit gilt: 1. P (X = 3) = 0.4 · 0.62 = 0.144 2. ∞ X x=3 P (X = x) = 1 − P (X = 1) − P (X = 2) = 0.36 3. E(X) = 1/0.4 = 2.5 4. V (X) = (1 − 0.4)/(0.42) = 3.75 191 3. Die Poisson-Verteilung Häufiges Anwendungsgebiet: • Warteschlangenmodelle, z.B. zur Modellierung von Schlangen vor einem Bankschalter Auftragsschlangen bei einem Internet-Server In dieser VL: • Keine sachlogische Herleitung, sondern nur formale Definition Angabe von Erwartungswert und Varianz 192 Definition 3.18: (Poisson-Verteilung) Die diskrete ZV X mit dem Träger TX = {0, 1, . . .} = N ∪ {0} und der Wahrscheinlichkeitsfunktion µx −µ P (X = x) = e · für x = 0, 1, 2, . . . x! heißt Poisson-verteilt mit Parameter µ > 0 [in Zeichen: X ∼ P o(µ)]. Bemerkung: • e bezeichnet die Eulersche Zahl und die Funktion ex die natürliche Exponentialfunktion (vgl. Abschnitt 2.2, VL Statistik I) 193 Satz 3.19: (Kenngrößen der Poisson-Verteilung) Die diskrete ZV X sei Poisson-verteilt mit Parameter µ, d.h. X ∼ P o(µ). Dann sind der Erwartungswert bzw. die Varianz von X gegeben durch E(X) = µ sowie V (X) = µ. 194 Herleitungen: [I] • Für den Erwartungswert gilt: ∞ X ∞ x x X µ µ E(X) = x · e−µ · = e−µ x· x! x! x=0 x=1 ∞ X x−1 µ = e−µ µ· (x − 1)! x=1 ∞ x X µ = µ · e−µ x=0 x! = µ · e−µ · eµ = µ 195 Herleitungen: [II] • Zur Bestimmung der Varianz berechnet man zunächst E(X 2) = ∞ X x=0 µx 2 −µ x ·e · x! = ... = µ2 + µ • Nach Satz 3.12(a) (vgl. Folie 173) folgt damit für die Varianz: V (X) = E(X 2) − [E(X)]2 = µ2 + µ − µ2 = µ 196 3.4 Spezielle stetige Verteilungen Jetzt: • Drei bekannte stetige Verteilungen Gleichverteilung Exponentialverteilung Normalverteilung 197 1. Die Gleichverteilung Definition 3.20: (Gleichverteilung) Die stetige ZV X heißt gleichverteilt über dem Intervall [a, b], a < b, [in Zeichen: X ∼ U (a, b)], falls X die folgende Dichtefunktion besitzt: 1 , falls a ≤ x ≤ b fX (x) = . b−a 0 , sonst 198 Bemerkungen: • Die ZV X auf Folie 141 ist gleichverteilt über dem Intervall [0, 10], d.h. X ∼ U (0, 10) • Die Gleichverteilung U (a, b) sinnvoll, falls X keinerlei Werte zwischen a und b ’bevorzugt’ annimmt • Die Verteilungsfunktion berechnet sich zu 0 Z x x−a fX (t) dt = FX (x) = b−a −∞ 1 , falls x < a , falls a ≤ x ≤ b , falls x > b 199 Dichte- und Verteilungsfunktion der Gleichverteilung über [a, b] 200 Satz 3.21: (E-Wert, Varianz) Für die stetige, gleichverteilte ZV X ∼ U (a, b) sind Erwartungswert und Varianz gegeben durch E(X) = Z +∞ V (X) = Z +∞ −∞ x · fX (x) dx = a+b , 2 (b − a)2 . [x − E(X)] · fX (x) dx = 12 −∞ 2 201 2. Die Exponentialverteilung Definition 3.22: (Exponentialverteilung) Die stetige ZV X heißt exponentialverteilt mit Parameter λ > 0 [in Zeichen: X ∼ Exp(λ)], falls X die folgende Dichtefunktion besitzt: fX (x) = ( 0 λ · e−λ·x , falls x < 0 . , falls x ≥ 0 Bemerkung: • Die Verteilungsfunktion berechnet sich zu FX (x) = Z x −∞ fX (t) dt = ( 0 1 − e−λ·x , falls x < 0 , falls x ≥ 0 202 Dichtefunktionen der Exponentialverteilung fX(x) 4 3 λ=3 2 λ=2 1 λ=1 0 0.0 x 0.5 1.0 1.5 2.0 2.5 3.0 3.5 203 Verteilungsfunktionen der Exponentialverteilung FX(x) 1.0 λ=1 0.8 λ=2 0.6 λ=3 0.4 0.2 0.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 x 204 Satz 3.23: (E-Wert, Varianz) Für die stetige, exponentialverteilte ZV X ∼ Exp(λ) sind Erwartungswert und Varianz gegeben durch E(X) = Z +∞ V (X) = Z +∞ −∞ x · fX (x) dx = 1 , λ 1 [x − E(X)]2 · fX (x) dx = 2 . λ −∞ 205 3. Die Normalverteilung Einführende Bemerkungen: [I] • Normalverteilung (auch Gaußverteilung) ist die wichtigste Verteilung überhaupt Praxis: −→ Relevanz resultiert aus zentralem Grenzwertsatz (vgl. Kapitel 4) Theorie: −→ Relevant für Entwicklung von Schätz- und Testverfahren (vgl. Kapitel 5-7) 206 Einführende Bemerkungen: [II] • Viele Phänomene lassen sich gut durch eine Normalverteilung approximieren, z.B. Biometrische Größen (Körpergrößen, Gewicht etc.) Ökonomische Größen (Veränderungsraten) Zufällige Fehler (Messfehler, Produktionsfehler) 207 Definition 3.24: (Normalverteilung) Die stetige ZV X heißt normalverteilt mit Parametern µ ∈ R und σ 2 > 0 [in Zeichen: X ∼ N (µ, σ 2)], falls X die folgende Dichtefunktion besitzt: fX (x) = √ x−µ 2 1 −2 σ 1 ·e 2π · σ , x ∈ R. Bemerkungen: • Die Parameter µ und σ 2 geben der Dichtefunktion ihre spezielle Gestalt • Die Normalverteilung N (0, 1) heißt Standardnormalverteilung. Ihre Dichte wird oft mit ϕ(x) bezeichnet 208 Dichtefunktionen der Normalverteilung fX(x) N(5,1) N(0,1) N(5,3) N(5,5) 0 5 x 209 Satz 3.25: (Eigenschaften der Normalverteilung) [I] Es sei X ∼ N (µ, σ 2). Dann gilt: 1. Die Dichte fX (x) hat ihr einzige lokales Maximum an der Stelle x = µ. 2. Die Dichte fX (x) ist symmetrisch um µ. 3. Die Dichte fX (x) besitzt Wendepunkte an den Stellen x = µ + σ und x = µ − σ. 210 Satz 3.25: (Eigenschaften der Normalverteilung) [II] 4. Für Erwartungswert und Varianz von X gilt: E(X) = µ und V (X) = σ 2. 5. Auch die linear transformierte ZV Y = a + b · X mit a, b ∈ R ist normalverteilt mit Erwartungswert E(Y ) = a + b · µ und Varianz V (Y ) = b2 · σ 2, d.h. Y ∼ N (a + b · µ, b2 · σ 2). 211 Jetzt: • Bestimmung der Verteilungsfunktion FX : FX (x) = P (X ≤ x) = Z x = Z x −∞ fX (t) dt t−µ 2 1 −2 σ 1 √ ·e −∞ 2π · σ dt Problem: • Keine mathematisch geschlossene Lösung des Integrals • VF’en können nur approximativ berechnet werden (durch numerische Verfahren) 212 (Approximative) Verteilungsfunktionen der Normalverteilung FX(x) 1 N(0,1) N(5,5) 0.5 N(5,3) N(5,1) 0 5 x 213 Bezeichnung: • Die Verteilungsfunktion der Standardnormalverteilung wird oft mit Φ(x) bezeichnet, also Φ(x) ≡ FX (x) = P (X ≤ x) für X ∼ N (0, 1) Zentrales Ergebnis: • Für jede beliebige normalverteilte ZV X ∼ N (µ, σ 2) kann die VF FX (x) = P (X ≤ x) auf die VF der Standardnormalverteilung zurückgeführt werden 214 Herleitung: [I] • Für die VF von X ∼ N (µ, σ 2) gilt FX (x) = P (X ≤ x) = P (X − µ)/σ ≤ (x − µ)/σ | {z } ≡Y • Nach Satz 3.25(e) folgt 1 X −µ µ = Y = ·X − σ σ σ |{z} |{z} ≡a ≡b ist normalverteilt, und zwar 1 1 µ 2 2 2 Y ∼ N (a + b · µ, b · σ ) = N − + · µ, 2 · σ = N (0, 1) σ | {z σ } |σ {z } =0 =1 215 Herleitung: [II] • Insgesamt gilt also für die ZV X ∼ N (µ, σ 2): x − µ FX (x) = P (X ≤ x) = P |{z} Y ≤ =Φ σ ∼N (0,1) x−µ σ Beispiel: [I] • Überdeckungswahrscheinlichkeiten bei der Normalverteilung • Es seien X ∼ N (µ, σ 2) und k ∈ R eine reelle Zahl • Gesucht: Wahrscheinlichkeit dafür, dass sich X im Intervall [µ − k · σ, µ + k · σ] realisiert 216 Beispiel: [II] • Es gilt: P (µ − k · σ ≤ X ≤ µ + k · σ) = FX (µ + k · σ) − FX (µ − k · σ) µ+k·σ−µ = Φ σ µ−k·σ−µ −Φ σ = Φ(k) − Φ(−k) • Die VF Φ(x) der Standardnormalverteilung ist in allen StatistikLehrbüchern ausreichend tabelliert (z.B. in Mosler/Schmid, 2008) 217 Beispiel: [III] • Außerdem: Φ(x) kann in allen statistischen Programmpaketen berechnet werden (z.B. in Excel, EViews, SPSS) • Für k = 1, 2, 3 gilt: k = 1 : Φ(1) − Φ(−1) = 0.6827 k = 2 : Φ(2) − Φ(−2) = 0.9545 k = 3 : Φ(3) − Φ(−3) = 0.9973 218 Überdeckungswahrscheinlichkeiten der Normalverteilung F lä c h e n in h a lte : 1 1+2+4 1+2+3+4+5 1 5 µ−3σ 4 µ−2σ 3 2 µ−σ µ µ+σ : 0 .6 8 2 7 : 0 .9 5 4 5 : 0 .9 9 7 3 µ+2σ µ+3σ 219 4. Gemeinsame Verteilung und Grenzwertsätze Häufig in der Praxis: • Man muss mehrere (n) ZV’en gleichzeitig betrachten (vgl. Statistik I, Kapitel 6) Zunächst Vereinfachung: • Betrachte n = 2 Zufallsvariablen (X und Y ) 220 Beispiele: • Zufällig ausgewählter Haushalt: X = Haushaltsgröße Y = Anzahl Autos • Tagesrenditen zweier Aktien: X = Rendite der VW-Aktie Y = Rendite der BASF-Aktie • 2-facher Würfelwurf: X = Minimum der Augenzahlen Y = Maximum der Augenzahlen 221 4.1 Gemeinsame Verteilung von Zufallsvariablen Situation: • Betrachte zwei ZV’en X und Y zu ein und demselben Zufallsexperiment, d.h. X : Ω −→ R Y : Ω −→ R 222 Definition 4.1: (Gemeinsame Verteilungsfunktion) Für die beiden ZV’en X und Y heißt die Funktion FX,Y : R2 −→ [0, 1] mit FX,Y (x, y) = P ({ω|X(ω) ≤ x und Y (ω) ≤ y}) = P (X ≤ x, Y ≤ y) die gemeinsame Verteilungsfunktion von X und Y . 223 Bemerkung: • Die gemeinsame VF von X und Y ist die Wskt. dafür, dass sich gleichzeitig 1. X kleiner oder gleich dem Wert x und 2. Y kleiner oder gleich dem Wert y realisieren Einige Eigenschaften der gemeinsamen Verteilungsfunktion: • FX,Y (x, y) ist monoton steigend in x und y • limx→+∞,y→+∞ FX,Y (x, y) = 1 224 Jetzt: • Unterscheidung zwischen 1. diskreten gemeinsamen Verteilungen 2. stetigen gemeinsamen Verteilungen 225 Definition 4.2: (Gemeinsam diskrete Zufallsvariablen) Die beiden ZV’en X und Y heißen gemeinsam diskret verteilt, falls es endlich viele oder abzählbar unendlich viele Realisationen x1, x2, . . . und y1, y2, . . . gibt, so dass pjk ≡ P (X = xj , Y = yk ) > 0 mit ... ... X X j=1 k=1 pjk = ... ... X X P (X = xj , Y = yk ) = 1 j=1 k=1 gilt. Für die gemeinsam diskret verteilten ZV’en X und Y heißt die Funktion fX,Y (x, y) = ( pjk = P (X = xj , Y = yk ) 0 , für x = xj und y = yk , sonst die gemeinsame Wahrscheinlichkeitsfunktion der diskreten ZV’en X und Y . 226 Bemerkung: • Die gemeinsame Wahrscheinlichkeitsfunktion kann in einer Wahrscheinlichkeitstabelle dargestellt werden: X/Y x1 x2 ... y1 p11 p21 ... y2 p12 p22 ... y3 p13 p23 ... ... ... ... ... 227 Beispiel: [I] • X = Haushaltsgröße, Y = Anzahl Autos • Wahrscheinlichkeitstabelle X/Y 1 2 3 4 5 0 0.10 0.05 0.02 0.02 0.01 1 0.14 0.15 0.10 0.06 0.05 2 0.01 0.10 0.08 0.07 0.04 228 Beispiel: [II] • Berechnung der gemeinsamen Verteilungsfunktion: FX,Y (x, y) = X X pjk {j|xj ≤x} {k|yk ≤y} • Z.B. gilt FX,Y (3, 1) = P (X ≤ 3, Y ≤ 1) = 0.10 + 0.14 + 0.05 + 0.15 + 0.02 + 0.10 = 0.56 oder FX,Y (1.5, 3.2) = P (X ≤ 1.5, Y ≤ 3.2) = 0.10 + 0.14 + 0.01 = 0.25 229 Jetzt: • X = und Y seien beides stetige Zufallsvariablen Definition 4.3: (Gemeinsam stetige Zufallsvariablen) Die beiden ZV’en X und Y heißen gemeinsam stetig verteilt, falls sich ihre gemeinsame Verteilungsfunktion FX,Y als Doppelintegral einer Funktion fX,Y : R2 −→ [0, ∞) schreiben lässt, d.h. wenn gilt FX,Y (x, y) = P (X ≤ x, Y ≤ y) = Z y Z x −∞ −∞ fX,Y (u, v) du dv für alle (x, y) ∈ R2. Die Funktion fX,Y (x, y) heißt gemeinsame Dichtefunktion von X und Y . 230 Gemeinsame Dichtefunktion der Zufallsvariablen X und Y 231 Bemerkungen: [I] • Rechnen mit gemeinsamen stetigen Verteilungen erfordert Differential- und Integralrechnung mit Funktionen mehrerer Veränderlicher (partielles Differenzieren, Doppelintegrale) • Bei partieller Differenzierbarkeit gilt ∂2 fX,Y (x, y) = FX,Y (x, y) ∂x∂y (Zusammenhang: gemeinsame Dichte- und gemeinsame VF) 232 Bemerkungen: [II] • Für alle (x, y) ∈ R2 gilt fX,Y (x, y) ≥ 0 (gemeinsame Dichte ist überall positiv) • Das Volumen unter der Dichte ist 1, d.h. Z +∞ Z +∞ −∞ −∞ fX,Y (x, y) dx dy = 1 • Durch Doppelintegration der Dichte erhält man Intervallwahrscheinlichkeiten, z.B. P (x1 ≤ X ≤ x2, y1 ≤ Y ≤ y2) = Z y Z x 2 2 y1 x1 fX,Y (x, y) dx dy (vgl. eindimensionalen stetigen Fall auf Folien 145, 146) 233 Gemeinsame Dichte- und Verteilungsfunktion der ZV’en X = ’Rendite VW-Aktie’ und Y = ’Rendite BASF-Aktie’ 234 Jetzt folgende Ausgangssituation: • X und Y seien (diskret oder stetig) gemeinsam verteilt mit der gemeinsamen Verteilungsfunktion FX,Y (x, y) Gesucht: • Verteilung von X bzw. von Y , wenn man die jeweils andere Verteilung ignoriert (die sogenannten Randverteilungen) 235 Es gilt: [I] 1. Randverteilungsfunktionen FX bzw. FY FX (x) = FY (y) = lim FX,Y (x, y) = P (X ≤ x, Y ∈ R) y→+∞ lim FX,Y (x, y) = P (X ∈ R, Y ≤ y) x→+∞ 2. Randwahrscheinlichkeiten gemeinsam diskreter ZV’en pj,· ≡ P (X = xj ) = p·,k ≡ P (Y = yk ) = ... X pjk k=1 ... X k=1 ... X ... X pjk j=1 P (X = xj , Y = yk ) = P (X = xj , Y = yk ) = j=1 236 Es gilt: [II] 3. Randdichten gemeinsam stetiger ZV’en fX (x) = Z +∞ fX,Y (x, y) dy fY (y) = Z +∞ fX,Y (x, y) dx −∞ −∞ Wichtig: • Die Randverteilungen ergeben sich eindeutig aus der gemeinsamen Verteilung von X und Y • ABER: Die gemeinsame Verteilung ist nicht eindeutig durch die Randverteilungen bestimmt 237 Relevanz der Randverteilungen: • Mit den Randverteilungen einer gemeinsamen Verteilung definiert man den Begriff der ’Stochastischen Unabhängigkeit’ von Zufallsvariablen (vgl. Definition 2.13, Folie 82) Definition 4.4: (Unabhängigkeit von Zufallsvariablen) Die ZV’en X und Y heißen (stochastisch) unabhängig, falls ihre gemeinsame Wahrscheinlichkeitsfunktion (diskreter Fall) bzw. ihre gemeinsame Dichtefunktion (stetiger Fall) dem Produkt der Randverteilungen entspricht, d.h. falls fX,Y (x, y) = fX (x) · fY (y) für alle x, y ∈ R. 238 Bemerkungen: • Für gemeinsam diskret verteilte ZV’en X und Y bedeutet die Definition 4.4: X und Y sind stochastisch unabhängig, wenn für alle j = 1, 2, . . . und k = 1, 2, . . . gilt: P (X = xj , Y = yk ) = P (X = xj ) · P (Y = yk ) • Alternativ drückt man die stochastische Unabhängigkeit über die gemeinsame Verteilungsfunktion aus: Satz 4.5: (Stochastische Unabhängigkeit) Die ZV’en X und Y sind genau dann stochastisch unabhängig, falls sich ihre gemeinsame Verteilungsfunktion als Produkt der Randverteilungsfunktionen darstellen lässt, d.h. falls FX,Y (x, y) = FX (x) · FY (y) für alle x, y ∈ R. 239 Beispiel 1: (Diskreter Fall) [I] • Es bezeichnen X die Haushaltsgröße Y die Anzahl Autos pro Haushalt 240 Beispiel 1: (Diskreter Fall) [II] • Wahrscheinlichkeitstabelle: X/Y x1 = 1 x2 = 2 x3 = 3 x4 = 4 x5 = 5 p·k = P (Y = yk ) y1 = 0 0.10 0.05 0.02 0.02 0.01 0.20 y2 = 1 0.14 0.15 0.10 0.06 0.05 0.50 y3 = 2 0.01 0.10 0.08 0.07 0.04 0.30 pj· = P (X = xj ) 0.25 0.30 0.20 0.15 0.10 1.00 241 Beispiel 1: (Diskreter Fall) [III] • X und Y sind stochastisch abhängig, denn P (X = 1, Y = 0) = 0.10 aber P (X = 1) · P (Y = 0) = 0.25 · 0.20 = 0.05 d.h. P (X = 1, Y = 0) = 0.10 6= 0.05 = P (X = 1) · P (Y = 0) 242 Beispiel 2: (Stetiger Fall) [I] • Es seien X und Y stetig verteilt mit gemeinsamer Dichtefunktion fX,Y (x, y) = ( x+y 0 , für 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 , sonst 243 Beispiel 2: (Stetiger Fall) [II] • Die Randdichte von X ergibt sich als fX (x) = Z +∞ −∞ ( R 1(x + y) dy 0 fX,Y (x, y) dy = 0 = h = ( 2 − (x · 0 + 1 · 02) x·1+1 · 1 2 2 0 = ( 1 x+2 0 i1 1 2 x·y+2·y 0 0 , für 0 ≤ x ≤ 1 , sonst , für 0 ≤ x ≤ 1 , sonst , für 0 ≤ x ≤ 1 , sonst , für 0 ≤ x ≤ 1 , sonst 244 Beispiel 2: (Stetiger Fall) [III] • Auf analoge Art errechnet sich die Randdichte von Y : fY (y) = Z +∞ −∞ fX,Y (x, y) dx = ( 1 y+2 0 , für 0 ≤ y ≤ 1 , sonst • X und Y sind stochastisch abhängig, denn fX (0.2) · fY (0.2) = (0.2 + 0.5) · (0.2 + 0.5) = 0.49 aber fX,Y (0.2, 0.2) = 0.2 + 0.2 = 0.4 d.h. fX,Y (0.2, 0.2) = 0.4 6= 0.49 = fX (x) · fY (y) 245 Weiteres wichtiges Konzept: • Bedingte Verteilung (vgl. Abschnitt 2.3, Folie 67 ff.) Grundlegende Frage: • Wie ist die ZV X verteilt, wenn der Wert der ZV’en Y bekannt ist Hier: • Beschränkung auf diskrete ZV’en 246 Definition 4.6: (Bedingte Wahrscheinlichkeit) Es seien X und Y zwei gemeinsam diskret verteilte ZV’en mit der gemeinsamen Wahrscheinlichkeitsfunktion fX,Y (x, y) = ( pjk = P (X = xj , Y = yk ) 0 , für x = xj und y = yk . , sonst Dann ist die bedingte Wahrscheinlichkeit für X = xj unter der Bedingung Y = yk definiert durch P (X = xj , Y = yk ) P (X = xj |Y = yk ) = P (Y = yk ) für alle Realisationen x1, x2, . . . der ZV’en X. 247 Bemerkungen: [I] • Die Definition 4.6 entspricht exakt der Definition 2.12 auf Folie 70 für die Ereignisse (Mengen) A und B • Wenn die ZV’en X und Y stochastisch unabhängig im Sinne der Definition 4.4 von Folie 238 sind, so gilt: P (X = xj , Y = yk ) P (X = xj |Y = yk ) = P (Y = yk ) = P (X = xj ) · P (Y = yk ) = P (X = xj ) P (Y = yk ) −→ Bei stochastischer Unabhängigkeit sind die bedingten Wahrscheinlichkeiten von X unter Y = yk gleich den unbedingten Wahrscheinlichkeiten von X 248 Bemerkungen: [III] • Mit der bedingten Wahrscheinlichkeitsfunktion aus Definition 4.6 definiert man die bedingte Verteilungsfunktion FX|Y =yk = X {j|xj ≤x} P (X = xj |Y = yk ) den bedingten Erwartungswert E(X|Y = yk ) = X {xj ∈TX } xj · P (X = xj |Y = yk ) 249 Beispiel: [I] • X = Haushaltsgröße, Y = Anzahl Autos pro Haushalt • Wahrscheinlichkeitstabelle: X/Y x1 = 1 x2 = 2 x3 = 3 x4 = 4 x5 = 5 p·k = P (Y = yk ) y1 = 0 0.10 0.05 0.02 0.02 0.01 0.20 y2 = 1 0.14 0.15 0.10 0.06 0.05 0.50 y3 = 2 0.01 0.10 0.08 0.07 0.04 0.30 pj· = P (X = xj ) 0.25 0.30 0.20 0.15 0.10 1.00 250 Beispiel: [II] • Bedingte Verteilung von Y unter der Bedingung X = 2: yk 0 1 2 P (Y = yk |X 0.05/0.30 = 0.15/0.30 = 0.10/0.30 = = 2) 0.1667 0.5000 0.3333 • Bedingter Erwartungswert von Y unter der Bedingung X = 2: E(Y |X = 2) = 0 · 0.1667 + 1 · 0.5 + 2 · 0.3333 = 1.1667 251 Jetzt: • Definition des Erwartungswertes einer Funktion g : R2 −→ R (x, y) 7−→ g(x, y) zweier gemeinsam verteilter Zufallsvariablen X und Y (d.h. E[g(X, Y )]) Bedeutung: • Gewinnung diverser praktischer Ergebnisse und hilfreicher Rechenregeln 252 Definition 4.7: (E-Wert einer Funktion) Es seien X und Y zwei gemeinsam (diskret oder stetig) verteilte ZV’en mit Wahrscheinlichkeits- bzw. Dichtefunktion fX,Y (x, y) und g(x, y) eine Funktion. Dann ist der Erwartungswert der Funktion definiert als E[g(X, Y )] = X X {xj ∈TX } {yk ∈TY } g(xj , yk ) · P (X = xj , Y = yk ), falls X und Y gemeinsam diskret bzw. E[g(X, Y )] = Z +∞ Z +∞ −∞ −∞ g(x, y) · fX,Y (x, y) dx dy, falls X und Y gemeinsam stetig verteilt sind. 253 Beispiel 1: [I] • Es seien X und Y gemeinsam stetig verteilte ZV’en mit Dichtefunktion fX,Y (x, y) • Für g(x, y) = y gilt: E[g(X, Y )] = Z +∞ Z +∞ g(x, y) · fX,Y (x, y) dx dy = Z +∞ Z +∞ y · fX,Y (x, y) dx dy = Z +∞ −∞ −∞ −∞ −∞ −∞ Z y· | +∞ −∞ ! fX,Y (x, y) dx {z dy } = fY (y) (Randdichte) 254 Beispiel 1: [II] und somit E[g(X, Y )] = Z +∞ −∞ y · fY (y) dy = E(Y ) • Ebenso erhält man für g(x, y) = x: E[g(X, Y )] = E(X) • Analoges Ergebnis für diskrete ZV’en X und Y 255 Beispiel 2: [I] • Für g(x, y) = x + y gilt: E[g(X, Y )] = E(X + Y ) = = = −∞ Z +∞ Z +∞ h −∞ −∞ Z +∞ Z +∞ −∞ + = Z +∞ Z +∞ −∞ Z +∞ −∞ i x · fX,Y (x, y) + y · fX,Y (x, y) dx dy x · fX,Y (x, y) dx dy Z +∞ Z +∞ −∞ −∞ (x + y) · fX,Y (x, y) dx dy −∞ y · fX,Y (x, y) dx dy x · fX (x) dx + Z +∞ −∞ y · fY (y) dy = E(X) + E(Y ) 256 Bemerkung: • Unter bestimmten (hier erfüllten) Voraussetzungen kann die Integrationsreihenfolge vertauscht werden Jetzt: • Maßzahl zur Messung des Zusammenhangs zwischen zwei ZV’en X und Y Konzept: [I] • Betrachte Abweichung einer jeden ZV’en vom jeweiligen Erwartungswert, d.h. X − E(X) sowie Y − E(Y ) 257 Konzept: [II] • Das Produkt der Abweichungen, [X − E(X)] · [Y − E(Y )] ist eine ZV und gibt Auskunft darüber, ob die beiden ZV’en X und Y tendenziell in die gleiche oder in unterschiedliche Richtungen von ihren jeweiligen Erwartungswerten abweichen • Der Erwartungswert dieser ZV’en, d.h. E[(X − E(X)) · (Y − E(Y ))] ist ein plausibles Maß für den Zusammenhang zwischen X und Y 258 Definition 4.8: (Kovarianz) Es seien X und Y zwei ZV’en mit den jeweiligen Erwartungswerten E(X) und E(Y ). Dann heißt die Größe Cov(X, Y ) ≡ E[(X − E(X)) · (Y − E(Y ))] die Kovarianz zwischen X und Y . Bemerkungen: [I] • Die Kovarianz ist der Erwartungswert der Funktion g(X, Y ) = (X − E(X)) · (Y − E(Y )). 259 Bemerkungen: [II] • Gemäß Definition 4.7 (Folie 253) berechnet sich dieser Erwartungswert als Cov(X, Y ) = X X {xj ∈TX } {yk ∈TY } xj − E(X) · (yk − E(Y )) · pjk mit pjk = P (X = xj , Y = yk ) falls X und Y gemeinsam diskret bzw. Cov(X, Y ) = Z +∞ Z +∞ −∞ −∞ (x − E(X))·(y − E(Y ))·fX,Y (x, y) dx dy, falls X und Y gemeinsam stetig verteilt sind • Nützliche Umformung: Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) 260 Zentrales Resultat: • Zusammenhang zwischen stochastischer Unabhängigkeit der ZV’en X und Y und deren Kovarianz Satz 4.9: (Unabhängigkeit und Kovarianz) Es seien X und Y zwei ZV’en mit den jeweiligen Erwartungswerten E(X) und E(Y ). Sind X und Y stochastisch unabhängig, so folgt Cov(X, Y ) = 0. 261 Beweis: (für stetige ZV’en) [I] • Zunächst gilt: E(X · Y ) = Z +∞ Z +∞ x · y · fX,Y (x, y) dx dy = Z +∞ Z +∞ x · y · fX (x) · fY (y) dx dy = Z +∞ −∞ −∞ −∞ −∞ | −∞ y · fY (y) dy · {z =E(Y ) Z +∞ } | −∞ x · fX (x) dx {z =E(X) } = E(X) · E(Y ) 262 Beweis: (für stetige ZV’en) [II] • Damit gilt: Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) = E(X) · E(Y ) − E(X) · E(Y ) = 0 Vorsicht: • Die Umkehrung gilt nicht, d.h. aus Cov(X, Y ) = 0 folgt nicht die Unabhängigkeit von X und Y 263 Aber: • Aus Cov(X, Y ) 6= 0 folgt, dass X und Y stochastisch abhängig sind Nachteil der Kovarianz: • Cov(X, Y ) ist nicht normiert −→ Normierung der Kovarianz führt zum Korrelationskoeffizienten 264 Definition 4.10: (Korrelationkoeffizient) Es seien X und Y zwei ZV’en mit den Erwartungswerten E(X), E(Y ) und den Varianzen V (X), V (Y ). Dann ist der Korrelationskoeffizient zwischen X und Y definiert durch Cov(X, Y ) q Corr(X, Y ) = q . V (X) · V (Y ) Eigenschaften des Korrelationskoeffizienten: [I] • Corr(X, Y ) ist dimensionslos • Corr(X, Y ) ist symmetrisch, d.h. Corr(X, Y ) = Corr(Y, X) 265 Eigenschaften des Korrelationskoeffizienten: [II] • Sind X und X stochastisch unabhängig, so gilt Corr(X, Y ) = 0 (Vorsicht: Die Umkehrung gilt nicht) • Der Korrelationskoeffizient ist normiert, d.h. es gilt stets −1 ≤ Corr(X, Y ) ≤ 1 • Der Korrelationskoeffizient misst die Stärke des linearen Zusammenhangs zwischen den ZV’en X und Y 266 Bisher gezeigt: • Sind X und Y zwei (diskrete oder stetige) ZV, so gilt: E(X + Y ) = E(X) + E(Y ) (vgl. Folie 256) E(X · Y ) = E(X) · E(Y ) + Cov(X, Y ) (vgl. Folie 260) Jetzt: • Varianz einer Summe von ZV’en 267 Varianz einer Summe von ZV’en: n V (X + Y ) = E [X + Y − E (X + Y )] n 2 o = E [(X − E(X)) + (Y − E(Y ))] 2 o 2 2 + − E Y E(Y ) X E(X) = E − [ ] [ ] {z } | {z } | =V (X) =V (Y ) +2 · E {[X − E(X)] · [Y − E(Y )]} {z } | =Cov(X,Y ) = V (X) + V (Y ) + 2 · Cov(X, Y ) 268 Satz 4.11: (Rechenregeln) Sind X und Y (diskrete oder stetige) ZV’en mit Erwartungswerten E(X), E(Y ) und Varianzen V (X), V (Y ), so gilt: 1. E(X + Y ) = E(X) + E(Y ), 2. E(X · Y ) = E(X) · E(Y ) + Cov(X, Y ), 3. V (X + Y ) = V (X) + V (Y ) + 2 · Cov(X, Y ). Sind X und Y zusätzlich stochastisch unabhängig, so folgt wegen Cov(X, Y ) = 0: E(X · Y ) = E(X) · E(Y ) V (X + Y ) = V (X) + V (Y ). 269 Bemerkung: • Es seien X und Y (diskrete oder stetige) ZV’en und a, b ∈ R reelle Zahlen −→ a · X + b · Y ist ebenfalls eine ZV und es gilt: E (a · X + b · Y ) = a · E(X) + b · E(Y ) V (a · X + b · Y ) = a2 · V (X) + b2 · V (Y ) + 2 · a · b · Cov(X, Y ) 270 Beispiel: [I] • In einem Portfolio befinden sich 2 Aktien X : Jahresrendite der Aktie A (in %) Y : Jahresrendite der Aktie B (in %) • Bekannt seien E(X) = 7 σ(X) = E(Y ) = 15 Corr(X, Y ) = −0.4 σ(Y ) = q q V (X) = 25 V (Y ) = 45 • a = 70% des Vermögens wurden in Aktie A investiert • b = 30% des Vermögens wurden in Aktie B investiert 271 Beispiel: [II] • Die Jahresrendite des Portfolios ist Z =a·X +b·Y • Für die erwartete Rendite des Portfolios folgt: E(Z) = E(a · X + b · Y ) = a · E(X) + b · E(Y ) = 0.7 · 7 + 0.3 · 15 = 9.4 272 Beispiel: [III] • Für die Varianz des Portfolios gilt: V (Z) = V (a · X + b · Y ) = a2 · V (X) + b2 · V (Y ) + 2 · a · b · Cov(X, Y ) = a2 · V (X) + b2 · V (Y ) + 2 · a · b · σ(X) · σ(Y ) · Corr(X, Y ) = 0.72 · 252 + 0.32 · 452 + 2 · 0.7 · 0.3 · 25 · 45 · (−0.4) = 299.5 • Für die Standardabweichung folgt: q √ σ(Z) = V (Z) = 299.5 = 17.31 273 Offensichtlich: • Durch Diversifikation erreicht man σ(Z) = 17.31 < 25 = σ(X) < 45 = σ(Y ), (Standardabweichung des Portfolios ist geringer als die Standardabweichungen der Einzelaktien) −→ Nobelpreise für H. Markowitz (1990) J. Tobin (1981) 274 Jetzt: • Erweiterung der Rechenregeln auf n ZV’en Beachte zunächst: • Es seien X1, X2, . . . , Xn ZV’en und a1, . . . , an ∈ R Es folgt: Z= n X i=1 ai · Xi = a1 · X1 + . . . + a · Xn ist ebenfalls eine Zufallsvariable 275 Satz 4.12: (Rechenregeln für gewichtete Summen) Es seien X1, . . . , Xn (diskrete oder stetige) Zufallsvariablen und a1, . . . , an ∈ R reelle Zahlen. Dann gelten für den Erwartungswert bzw. die Varianz der gewichteten Summe: E V n X i=1 n X i=1 ai · Xi = ai · Xi = n X ai · E(Xi) n X a2 i · V (Xi) i=1 i=1 + n X n X i=1 j=1 ai · aj · Cov(Xi, Xj ). j6=i 276 Bemerkungen: [I] • Für n = 2 gilt: V (X1 + X2) = 2 X i=1 ai2 · V (Xi) + 2 2 X X i=1 j=1 ai · aj · Cov(Xi, Xj ) j6=i 2 = a2 1 · V (X1 ) + a2 · V (X2) +a1 · a2 · Cov(X1, X2) + a2 · a1 · Cov(X2, X1) 2 · V (X ) = a2 · (X ) + V a 2 1 2 1 + 2 · a1 · a2 · Cov(X1, X2) 277 Bemerkungen: [I] • Sind X1, . . . , Xn paarweise stochastisch unabhängig, so folgt Cov(Xi, Xj ) = 0 für alle i 6= j, und damit V n X i=1 ai · Xi = n X i=1 a2 i · V (Xi) 278 4.2 Grenzwertsätze Situation: • Gegeben sei eine unendliche Folge von ZV’en X1 , X 2 , X 3 , . . . , die alle die gleiche Verteilung besitzen und alle paarweise stochastisch unabhängig sind (d.h. Cov(Xi, Xj ) = 0 für alle i 6= j) • Betrachte für gegebenes n das arithmetische Mittel sowie die Variablensumme n 1 X Xn = · Xi n i=1 Sn = n X Xi i=1 279 Man beachte: • X n und Sn sind selbst ZV’en Inhalt von Grenzwertsätzen: • Was passiert mit der Verteilung von X n und Sn für n → ∞? Wichtige Grenzwertsätze: • Schwaches bzw. starkes Gesetz der großen Zahlen • Glivenko-Cantelli-Grenzwertsätze Hier nur: • Zentraler Grenzwertsatz 280 Satz 4.13: (E-Werte und Varianzen von X n und Sn) Angenommen, jede ZV der unendlichen Folge X1, X2, . . . (alle paarweise unabhängig) hat die gleiche Verteilung wie die ZV X, wobei E(X) = µ und V (X) = σ 2. Dann gilt: E(Sn) = E n X Xi = n X E(Xi) = n · µ, i=1 i=1 n n X X V (Sn) = V V (Xi) = n · σ 2, Xi = i=1 i=1 n n X X 1 1 E(X n) = E · Xi = · E(Xi) = µ, n i=1 n i=1 n n 2 X X σ 1 1 V (Xi) = Xi = 2 · . V (X n) = V · n i=1 n i=1 n 281 Jetzt: • Essenz des zentralen Grenzwertsatzes • Begründung für die Wichtigkeit der Normalverteilung Dazu: • Betrachte Folge von ZV’en X1, X2, . . . , Xn mit folgenden Eigenschaften: X1, X2, . . . , Xn sind paarweise stochastisch unabhängig 6 j) (d.h. Cov(Xi, Xj ) = 0 für alle i = Jede der ZV’en Xi hat eine beliebige Verteilung mit Erwartungswert E(Xi) und Varianz V (Xi) 282 Bemerkung: • Dieses Szenario ist allgemeiner als die dargestellte Situation auf Folie 279 • Dort hatten alle Xi die gleiche Verteilung und damit alle den gleichen Erwartungswert und alle die gleiche Varianz 283 Beispiel: (Vier unabhängige Gleichverteilungen) • Betrachte die 4 ZV’en X1 ∼ U (0, 1) X2 ∼ U (0, 2) X3 ∼ U (0, 3) X4 ∼ U (0, 4) • Erzeuge je 1000 Realisationen der ZV’en durch einen Zufallszahlengenerator (z.B. in Excel) • Darstellung der Realisationen in Histogrammen 284 Histogramme der 4000 Realisationen 40 40 Series: R1 Sample 1 1000 Observations 1000 30 Series: R2 Sample 1 1000 Observations 1000 30 Mean 0.510861 Median 0.524379 Maximum 0.999096 Minimum 0.000637 Std. Dev. 0.284659 Skewness-0.090152 Kurtosis 1.864680 20 10 Mean 1.009103 Median 1.018621 Maximum 1.998551 Minimum 0.001670 Std. Dev. 0.575747 Skewness-0.055004 Kurtosis 1.845855 20 10 Jarque-Bera 55.06086 Probability 0.000000 0 0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 Jarque-Bera 56.00637 Probability 0.000000 0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 50 40 Series: R3 Sample 1 1000 Observations 1000 40 Series: R4 Sample 1 1000 Observations 1000 30 Mean 1.485121 Median 1.472444 Maximum 2.998413 Minimum 0.006841 Std. Dev. 0.864029 Skewness 0.038569 Kurtosis 1.803775 30 20 10 Mean 2.018453 Median 2.077359 Maximum 3.998845 Minimum 0.004209 Std. Dev. 1.146674 Skewness-0.048100 Kurtosis 1.809096 20 10 Jarque-Bera 59.87098 Probability 0.000000 Jarque-Bera 59.47948 Probability 0.000000 0 0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 285 Offensichtlich: • Histogramme ”ähneln” den Dichtefunktionen Frage: • Was passiert, wenn die ZV’en sukzessive aufsummiert werden? Betrachte dazu S 1 = X1 , S2 = 2 X i=1 Xi S3 = 3 X i=1 Xi S4 = 4 X Xi i=1 286 Histogramme der Summenrealisationen der ZV’en S1, S2, S3, S4 40 40 Series: R1 Sample 1 1000 Observations 1000 30 Series: R2 Sample 1 1000 Observations 1000 30 Mean 0.510861 Median 0.524379 Maximum 0.999096 Minimum 0.000637 Std. Dev. 0.284659 Skewness-0.090152 Kurtosis 1.864680 20 10 Mean 1.009103 Median 1.018621 Maximum 1.998551 Minimum 0.001670 Std. Dev. 0.575747 Skewness-0.055004 Kurtosis 1.845855 20 10 Jarque-Bera 55.06086 Probability 0.000000 0 0.000 0.125 0.250 0.375 0.500 0.625 0.750 0.875 1.000 Jarque-Bera 56.00637 Probability 0.000000 0 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 50 40 Series: R3 Sample 1 1000 Observations 1000 40 Series: R4 Sample 1 1000 Observations 1000 30 Mean 1.485121 Median 1.472444 Maximum 2.998413 Minimum 0.006841 Std. Dev. 0.864029 Skewness 0.038569 Kurtosis 1.803775 30 20 10 Mean 2.018453 Median 2.077359 Maximum 3.998845 Minimum 0.004209 Std. Dev. 1.146674 Skewness-0.048100 Kurtosis 1.809096 20 10 Jarque-Bera 59.87098 Probability 0.000000 Jarque-Bera 59.47948 Probability 0.000000 0 0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 287 Offensichtlich: • Histogramme der Summenrealisationen ”ähneln” dem Histogramm einer Normalverteilung Erwartungswert der Summenverteilung S4: E(S4) = E(X1 + . . . + X4) = 4 X E(Xi) i=1 = 0.5 + 1.0 + 1.5 + 2.0 = 5.0 288 Varianz der Summenverteilung S4: V (S4) = Unabh. = V (X1 + . . . + X4) 4 X V (Xi) i=1 = 1 4 9 16 5 + + + = 12 12 12 12 2 = 2.5 Daraus ergibt sich die Standardabweichung √ σ(S4) = 2.5 = 1.5811 289 Ergebnis: • Wird die Summe Sn ”sehr groß” (d.h. n → ∞), so ist diese annähernd normalverteilt −→ Dies ist die Essenz des zentralen Grenzwertsatzes Fazit: • Setzt sich ein Zufallsvorgang additiv aus vielen kleinen unabhängigen Einflüssen zusammen, so ist der Zufallsvorgang annähernd normalverteilt • Aus diesem Grund spielt die Normalverteilung in der Praxis eine entscheidende Rolle 290 5. Stichproben und Statistiken Problem: • Es sei X eine ZV, die einen interessierenden Zufallsvorgang repräsentiere • Man möchte die tatsächliche Verteilung von X kennenlernen (z.B. mittels der VF FX (x) = P (X ≤ x)) 291 Man beachte: • In praxi ist die Verteilung X zunächst unbekannt Deshalb: • Sammle Informationen über die unbekannte Verteilung des Zufallsvorgangs, indem man diesen (und damit die ZV’e X) mehrfach beobachtet −→ Zufallsstichprobe 292 5.1 Zufallsstichprobe Situation: • Es sei X die ZV, die den interessierenden Zufallsvorgang repräsentiere • Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt nmal beoachten • Vor den Realisierungen kann man die n potenziellen Beobachtungen als ZV’en X1, . . . , Xn auffassen 293 Definition 5.1: (Zufallsstichprobe) Die ZV’en X1, . . . , Xn heißen einfache Zufallsstichprobe aus X, wenn 1. jedes Xi wie X verteilt ist, 2. X1, X2, . . . , Xn stochastisch unabhängig sind. Die Anzahl n heißt Stichprobenumfang. Bemerkung: • Man geht davon aus, dass der interessierende Zufallsvorgang prinzipiell beliebig oft wiederholt werden kann 294 Modell der einfachen Zufallsstichprobe Zufallsvorgang X X1 (ZV) X2 (ZV) ... Xn (ZV) x1 (Realisation 1. Exp.) x2 (Realisation 2. Exp.) ... xn (Realisation n. Exp.) Mögliche Realisationen 295 Achtung: • Die Definition 5.1 stimmt nicht mit der umgangssprachlichen Verwendung des Wortes Stichprobe überein • Eine Stichprobe in unserem Sinne besteht nicht aus den tatsächlich beobachteten Daten • Die tatsächlich beobachteten Daten seien x1, . . . , xn • Man bezeichnet x1, . . . , xn als den Wert oder die Realisierung der Stichprobe X1, . . . , Xn (oder auch als die konkrete Stichprobe) 296 Beispiel 1: • X sei der Lohn eines Arbeiters der Metallindustrie • Wir interessieren uns für E(X) (den erwarteten Lohn) • Es sollen n = 100 Arbeiter befragt werden • Jeder Arbeiter habe die gleiche Auswahlwahrscheinlichkeit • Xi sei das Einkommen des i-ten befragten Arbeiters • Die X1, . . . , Xn sollen unabhängig sein • Die tatsächlich beobachteten Daten sind x1, . . . , xn 297 Beispiel 2: • X sei die Lebensdauer eines Fernsehers (in Jahren) • Der Produzent gibt eine 2-Jahres-Garantie • Wir interessieren uns für P (X < 2) • Wir untersuchen die Lebensdauern von n = 25 zufällig aus der Produktion ausgewählten Fernsehern • Xi sei die Lebensdauer des i-ten Fernsehers • Die X1, . . . , Xn sollen unabhängig sein • Die tatsächlich erhobenen Daten sind x1, . . . , xn 298 Beispiel 3: • Wir interessieren uns für den Anteil der FDP-Wähler in NRW • Die ZV X= ( 0 1 , befragte Person wählt nicht FDP , befragte Person wählt FDP ist Bernoulli verteilt (vgl. Definition 3.14, Folie 178) • Wir suchen den Wert des Parameters p • Es sollen n = 1000 Personen befragt werden • Xi sei die Wahlabsicht der befragten Person 299 5.2 Statistiken Definition 5.2: (Statistik, Stichprobenfunktion) Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g : Rn −→ R eine reellwertige Funktion mit n Argumenten. Dann nennt man die ZV T = g(X1, . . . , Xn) eine Statistik oder Stichprobenfunktion. Beispiele: [I] • Stichprobenmittel: n 1 X X = g(X1, . . . , Xn) = · Xi n i=1 300 Beispiele: [II] • Stichprobenvarianz: n 2 1 X 2 S = g(X1, . . . , Xn) = · Xi − X n i=1 • Stichprobenstandardabweichung: v u n 2 u1 X Xi − X S = g(X1, . . . , Xn) = t · n i=1 Bemerkung: • Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’en und damit selbst eine ZV −→ Eine Statistik hat eine Verteilung (d.h. auch einen Erwartungswert und eine Varianz) 301 Wofür braucht man Statistiken? • Liefern Informationen über die Verteilung von X (also über den interessierenden Zufallsvorgang) Sinn von Statistiken Stichprobe ( X1, . . ., Xn) g( X1, . . ., Xn) Statistik Messung Stichprobenrealisation ( x1, . . ., xn) g( x1, . . ., xn) Realisation der Statistik 302 Statistiken sind Grundbausteine beim • Schätzen von Parametern • Testen von Hypothesen über Parameter (Statistische Inferenz, Statistisches Schließen) 303 5.3 Exkurs: χ2- und t-Verteilung Bisherige Erkenntnis: • Eine Statistik T = g(X1, . . . , Xn) ist eine ZV −→ Statistik T hat eine Verteilung einen Erwartungswert eine Varianz 304 Jetzt: • Betrachte eine einfache Zufallsstichprobe X1, . . . , Xn aus einer Normalverteilung, d.h. X1, . . . , Xn ∼ N (µ, σ 2) und X1, . . . , Xn sind stochastisch unabhängig • Bestimmte Statistiken g(X1, . . . , Xn) aus einer Normalverteilung haben spezielle, wohlbekannte Verteilungen • Zwei solcher Verteilungen sind die χ2-Verteilung t-Verteilung 305 Bemerkungen: • χ2- und t-Verteilung sind spezielle stetige Verteilungen • Sie werden definiert über ihre Dichtefunktionen (vgl. Abschnitt 3.4) Definition 5.3: (χ2-Verteilung) Die stetige ZV Q heißt χ2-verteilt mit Parameter n > 0, [in Zeichen: Q ∼ χ2(n)], falls Q die folgende Dichtefunktion besitzt: 1 fQ(x) = n/2 · xn/2−1 · e−x/2. · Γ(n/2) 2 306 Bemerkungen: • Die Funktion Γ(·) heißt vollständige Gammafunktion und ist in der Literatur hinreichend tabelliert • Der Parameter n der χ2-Verteilung wird als Freiheitsgrad bezeichnet • E-Wert und Varianz der χ2-Verteilung lauten: E(Q) = n V (Q) = 2n 307 Definition 5.4: (t-Verteilung) Die stetige ZV W heißt t-verteilt mit Parameter n > 0, [in Zeichen: W ∼ t(n)], falls W die folgende Dichtefunktion besitzt: fW (x) = Γ[(n + 1)/2] (n · π)1/2 · Γ(n/2) h i−(n+1)/2 2 · 1 + (x /n) . Bemerkungen: • Der Parameter n der t-Verteilung wird als Freiheitsgrad bezeichnet • E-Wert und Varianz der t-Verteilung lauten: E(Q) = 0, n V (Q) = , n−2 falls n ≥ 2 falls n ≥ 3 308 5.4 Statistiken bei normalverteilter Stichprobe Ausgangssituation: • X1, . . . , Xn sei eine Stichprobe aus X ∼ N (µ, σ 2), d.h. X1, . . . , Xn ∼ N (µ, σ 2) mit X1, . . . , Xn sind paarweise stochastisch unabhängig • Bezeichnungen für das arithmetische Stichprobenmittel sowie die Stichprobenvarianz: n 1 X X= Xi n i=1 sowie n 2 1 X 2 S = Xi − X n i=1 309 Gesucht: • Verteilung bestimmter Statistiken g(X1, . . . , Xn) Satz 5.5: (Statistiken aus einer Normalverteilung) [I] Es sei X ∼ N (µ, σ 2) und X1, . . . , Xn eine einfache Stichprobe aus X. Dann gilt für die Verteilung (a) des Stichprobenmittels X ∼ N µ, σ2 n ! , (b) des (parameter-)standardisierten Stichprobenmittels √ X −µ n· ∼ N (0, 1), σ 310 Satz 5.5: (Statistiken aus einer Normalverteilung) [II] (c) des standardisierten Stichprobenmittels √ X −µ n−1· ∼ t(n − 1), S (d) der Statistik n X Xi − µ 2 i=1 σ ∼ χ2(n), (e) der Statistik n · S2 σ2 = !2 n X Xi − X i=1 σ ∼ χ2(n − 1). 311 Offensichtlich: • Verteilung vieler Statistiken mit X und S 2 sind bekannt, wenn die Parameter µ und σ 2 bekannt sind −→ Diese Erkenntnisse werden später ausgenutzt Zunächst aber: • Wie kann man Informationen über die unbekannten Parameter µ und σ 2 bekommen −→ Schätzverfahren für unbekannte Parameter 312 6. Schätzverfahren für Parameter Ausgangssituation: • Ein interessierender Zufallsvorgang werde durch die ZV X repräsentiert • X habe eine unbekannte Verteilungsfunktion FX (x) • Wir interessieren uns für einen (oder mehrere) Parameter der Verteilung von X 313 Wichtige Parameter sind: • Der Erwartungswert von X • Die Varianz von X • Werte der VF FX (x) • Quantile der VF FX (x) (vgl. Definition 3.3, Folie 122) 314 Ansatz zur Informationsbeschaffung: • Betrachte eine einfache Zufallsstichprobe X1, . . . , Xn aus X • Schätze den unbekannten Parameter von X anhand einer geeigneten Statistik T = g(X1, . . . , Xn) der Zufallsstichprobe (vgl. Definition 5.2, Folie 300) 315 6.1 Punktschätzung Bezeichnungen: • Der unbekannte Parameter von X sei θ (z.B. θ = E(X)) • Die Statistik der einfachen Zufallsstichprobe X1, . . . , Xn aus X zur Schätzung des unbekannten Parameters θ wird häufig mit θ̂(X1, . . . , Xn) bezeichnet (memotechnisch sinnvoll) 316 Definition 6.1: (Schätzer, Schätzwert) Die Statistik θ̂(X1, . . . , Xn) heißt Schätzer (auch Schätzfunktion) für den Parameter θ. Hat sich die Zufallsstichprobe X1, . . . , Xn in den Werten x1, . . . , xn realisiert, so bezeichnet man die damit verbundene Realisierung des Schätzers θ̂(x1, . . . , xn) als Schätzwert. Bemerkungen: • Der Schätzer θ̂(X1, . . . , Xn) ist eine Zufallsvariable −→ Schätzer hat Vtlg., E-Wert und Varianz • Der Schätzwert θ̂(x1, . . . , xn) ist dagegen eine Zahl (vgl. Abbildungen auf den Folien 295 + 302) 317 Frage: • Wozu braucht man das scheinbar komplizierte theoretische Konzept des Schätzers als Zufallsvariable? Antwort: • Um alternative Schätzer für ein und denselben Parameter θ im Hinblick auf ihre jeweilige ’Genauigkeit’ miteinander vergleichen zu können 318 Beispiel: • Es sei θ = V (X) die Varianz von X • Zwei alternative Schätzer für θ sind n 2 X 1 2 θ̂1(X1, . . . , Xn) = S = Xi − X n i=1 θ̂2(X1, . . . , Xn) = S ∗2 n 2 1 X Xi − X = n − 1 i=1 Frage: • Welcher Schätzer ist ’besser’ und warum? −→ Eigenschaften von Punktschätzern 319 6.2 Eigenschaften von Punktschätzern Ziel: • Formulierung von Qualitätskriterien zur Beurteilung der Eigenschaften eines Schätzers θ̂(X1, . . . , Xn) für θ Hier 3 Kriterien: • Erwartungstreue • Mittlerer quadratischer Fehler • (schwache) Konsistenz 320 Definition 6.2: (Erwartungstreue) Der Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ heißt erwartungstreu, falls sein Erwartungswert mit dem zu schätzenden Parameter θ übereinstimmt, d.h. falls h i E θ̂(X1, . . . , Xn) = θ. Bemerkung: • Anschaulich bedeutet Erwartungstreue, dass der Schätzer θ̂(X1, . . . , Xn) nicht ’systematisch daneben’ schätzt, wenn man den Schätzer nicht nur für eine, sondern für ’viele’ Stichproben auswertet (Gedankenexperiment: Wiederholte Stichprobe) 321 Beispiel 1: [I] • Es sei θ = E(X) • Betrachte den Schätzer n 1 X Xi θ̂(X1, . . . , Xn) = X = n i=1 (arithmetisches Stichprobenmittel) 322 Beispiel 1: [II] • Es gilt: h E θ̂(X1, . . . , Xn) i = E n 1 X n i=1 Xi n n 1 X 1 X E(Xi) = E(X) = n i=1 n i=1 n 1 X 1 = θ = ·n·θ =θ n i=1 n −→ θ̂(X1, . . . , Xn) = X ist erwartungstreu für θ = E(X) (vgl. Satz 4.13, Folie 281) 323 Beispiel 2: [I] • Es sei θ = V (X) die Varianz von X • Betrachte den Schätzer n 2 X 1 2 θ̂1(X1, . . . , Xn) = S = Xi − X n i=1 (Stichprobenvarianz) • Hier gilt h i n−1 ·θ n −→ S 2 ist nicht erwartungstreu für θ = V (X) E θ̂1(X1, . . . , Xn) = E(S 2) = 324 Beispiel 2: [II] • Betrachte korrigierte Stichprobenvarianz θ̂2(X1, . . . , Xn) = S • Hier gilt: h E θ̂2(X1, . . . , Xn) ∗2 i n 2 1 X n = · S2 Xi − X = n − 1 i=1 n−1 n = E(S ∗2) = E · S2 n−1 n n−1 n ·θ = E(S 2) = · n−1 n−1 n = θ = V (X) −→ S ∗2 ist erwartungstreu für θ = V (X) 325 Satz 6.3: (E-treue Schätzer für E(X) und V (X)) Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteilt mit unbekanntem Erwartungswert µ = E(X) sowie unbekannter Varianz σ 2 = V (X). Dann sind die beiden Schätzer n 1 X Xi µ̂(X1, . . . , Xn) = X = · n i=1 bzw. σˆ2(X1, . . . , Xn) = S ∗2 = n 2 X 1 · Xi − X n − 1 i=1 stets erwartungstreu für die Parameter µ = E(X) und σ 2 = V (X). 326 Vorsicht: • Erwartungstreue pflanzt sich bei Parametertransformationen nicht beliebig fort Beispiel: • Zwar ist S ∗2 erwartungstreu für σ 2 = V (X) • Jedoch ist S ∗ nicht erwartungstreu für σ = q V (X) Bemerkung: • Im übrigen ist auch S nicht E-treu für σ = q V (X) 327 Übersicht: • Weitere Parameter von X und zugehörige potenzielle Schätzer, wie sie aus der deskriptiven Statistik (Statistik I) bekannt sind Parameter Wahrscheinlichkeit Verteilungsfunktion Quantil Standardabweichung Gemeinsame Wskt. Kovarianz Korrelationskoeffizient Potenzieller Schätzer relative Häufigkeit emp. Verteilungsfunktion Quantil emp. Standardabweichung gem. relative Häufigkeit emp. Kovarianz emp. Korrelationskoeffizient Vorsicht: • Die potenziellen Schätzer sind oft, aber nicht immer erwartungstreu für die zu schätzenden Parameter 328 Jetzt: • Strengeres Qualitätskriterium für Schätzer Dichtefunktionen zweier erwartungstreuer Schätzer für den Parameter θ ∧ Dichte von θ 1 ( X1, K , X n ) ∧ Dichte von θ 2 ( X1, K , X n ) θ 329 Intuition: • Ist ein Schätzer erwartungstreu, so ist es günstig, wenn er eine kleine Varianz aufweist −→ Optimal: Erwartungstreuer Schätzer mit minimaler Varianz Problem: • Solche Schätzer sind oft schwer oder gar nicht auffindbar Ausweg: • Kennzahlen zum Vergleich zweier alternativer Schätzer Bekannteste Kennzahl: • Mittlerer quadratischer Fehler 330 Definition 6.4: (Mittlerer quadratischer Fehler) Es sei θ̂(X1, . . . , Xn) einer Schätzer für den unbekannten Parameter θ. Dann heißt die Kennzahl MSE(θ̂) = E[(θ̂ − θ)2] der mittlere quadratische Fehler (englisch: mean squared error) des Schätzers θ̂. Bemerkung: • Der mittlere quadratische Fehler lässt sich auch schreiben als h MSE(θ̂) = V (θ̂) + E(θ̂) − θ | {z i2 } Verzerrung −→ Bei erwartungstreuen Schätzern ist der MSE gleich der Varianz des Schätzers 331 Weiteres Gütekriterium für einen Schätzer: • Konsistenz eines Schätzers Intuition: • Ein Schätzer θ̂(X1, . . . , Xn) für den unbekannten Parameter θ heißt konsistent, falls die Schätzung bei zunehmenden Stichprobenumfang immer genauer wird (Konzept wird hier nicht genauer behandelt) 332 Weitere zentrale Fragestellung: • Wie findet man geeignete Schätzer Es gibt allgemeine Konstruktionsprinzipien, z.B. die: • Methode der Kleinsten-Quadrate • Momenten-Methode • Maximum-Likelihood-Methode (Gegenstand der Ökonometrie-VL im Hauptstudium) 333 6.3 Intervallschätzung Bisher: • Schätzung des Parameters θ auf der Basis einer Stichprobe durch Punktschätzung θ̂(X1, . . . , Xn) Problem: • Punktschätzung trifft in der Regel den exakten Wert des unbekannten Parameters θ nicht • Bei Stichproben aus stetigen Verteilungen gilt sogar P θ̂(X1, . . . , Xn) = θ = 0 bzw. P θ̂(X1, . . . , Xn) 6= θ = 1 334 Alternativer Ansatz: • Konstruktion eines zufälligen Intervalls anhand einer Stichprobe X1, . . . , Xn, das den Parameter θ mit einer vorgebenen Wskt. überdeckt Vorteil: • Genauigkeit der Schätzung wird ’quantifiziert’ Ansatz: • Wähle 2 Statistiken θ̂u(X1, . . . , Xn) und θ̂o(X1, . . . , Xn), derart dass das zufällige Intervall h i I = θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn) θ mit einer vorgegebenen Wahrscheinlichkeit überdeckt 335 Definition 6.5: (Konfidenzintervall) Es sei X1, . . . , Xn eine Zufallsstichprobe aus X, θ ein unbekannter Parameter und α ∈ [0, 1] eine reelle Zahl. Dann bezeichnet man das zufällige Intervall h θ̂u(X1, . . . , Xn), θ̂o(X1, . . . , Xn) mit der Eigenschaft i P θ̂u(X1, . . . , Xn) ≤ θ ≤ θ̂o(X1, . . . , Xn) = 1 − α als Konfidenzintervall für θ zum Konfidenzniveau 1 − α. Die Zahl α ∈ [0, 1] heißt Irrtumswahrscheinlichkeit. 336 Bemerkungen: • Die Grenzen des Intervalls sind ZV’en • Nach Realisation der Stichprobe heißt das Intervall h θ̂u(x1, . . . , xn), θ̂o(x1, . . . , xn) konkretes Konfidenzintervall i 337 Konfidenzintervall 1: [I] • Der interessierende Zufallsvorgang repräsentiert durch die ZV X sei normalverteilt, d.h. X ∼ N (µ, σ 2), wobei µ unbekannt und σ 2 bekannt sein sollen • Gesucht wird (1 − α)-Konfidenzintervall für µ • Betrachte Stichprobe X1, . . . , Xn aus X • Wissen aufgrund von Satz 5.5(b), Folie 310: √ X −µ n· ∼ N (0, 1) σ 338 N (0, 1)-Dichtefunktion der Statistik Dichte von n⋅ √ n· X −µ σ ~ N (0,1) α/2 α/2 −c X−µ σ 0 c Konfidenzintervall 1: [II] • c ist das (1 − α/2)-Quantil der N (0, 1)-Verteilung 339 Konfidenzintervall 1: [III] • Das p-Quantil der Standardnormalverteilung wird im Lehrbuch Mosler/Schmid mit up bezeichnet, d.h. c = u1−α/2 • Es gilt also: ⇐⇒ √ −µ ≤c P −c ≤ n · X σ P −u1−α/2 ≤ √ −µ ≤u n·Xσ 1−α/2 ⇐⇒ P X − u1−α/2 · √σ ≤ µ ≤ X + u1−α/2 · √σ n n = 1−α = 1−α = 1−α 340 Konfidenzintervall 1: [IV] • Ein Konfidenzintervall für µ zum Niveau 1 − α ist also " σ σ X − u1−α/2 · √ , X + u1−α/2 · √ n n # • Z.B. gilt für 1 − α = 0.95: 1−α = 0.95 =⇒ α = 0.05 =⇒ u1−α/2 = u0.975 = 1.96 (vgl.Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid) 341 Konkretes Beispiel: [I] • Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade • Angenommen, X ∼ N (µ, 4) mit unbek. Erwartungswert µ • Eine einfache Stichprobe vom Umfang n = 8 liefert x1 201.15 x2 197.57 x3 201.38 x4 203.15 x5 199.92 x6 198.99 x7 203.44 342 x8 200.50 Konkretes Beispiel: [II] • Ein Punktschätzwert für µ ist x = 200.7625 • Ein konkretes 0.95-Konfidenzintervall für µ ist " 2 2 x − 1.96 · √ , x + 1.96 · √ 8 8 # = [199.3766 , 202.1484] 343 Konfidenzintervall 2: [I] • Der interessierende Zufallsvorgang repräsentiert durch die ZV X sei normalverteilt, d.h. X ∼ N (µ, σ 2), wobei sowohl µ als auch σ 2 unbekannt sein sollen • Gesucht wird (1 − α)-Konfidenzintervall für µ • Betrachte Stichprobe X1, . . . , Xn aus X • Wissen aufgrund von Satz 5.5(c), Folie 311: √ X −µ n−1· ∼ t(n − 1) S 344 Dichtefunktion der t(n)-Verteilung 0.4 n = 10 Dichtefunktion 0.3 0.2 n=1 0.1 0.0 -2 -1 0 1 2 x Konfidenzintervall 2: [II] • c ist das (1 − α/2)-Quantil der t(n)-Verteilung 345 Konfidenzintervall 2: [III] • Das p-Quantil der t(ν)-Verteilung wird in Mosler/Schmid mit tν,p bezeichnet, d.h. c = tn−1,1−α/2 • Es gilt also: √ X − µ P −c ≤ n − 1 · S ≤c = 1−α ≤µ≤X +c·√ S ⇐⇒ P X − c · √ S n−1 n−1 = 1−α 346 Konfidenzintervall 2: [IV] • Ein Konfidenzintervall für µ zum Niveau 1 − α ist somit " S S X − tn−1,1−α/2 · √ , X + tn−1,1−α/2 · √ n−1 n−1 # • Z.B. gilt für 1 − α = 0.95: 1−α = 0.95 =⇒ α = 0.05 =⇒ tn−1,1−α/2 = t7,0.975 = 2.3646 (vgl. Formelsammlung Bomsdorf/Gröhn/Mosler/Schmid) 347 Konkretes Beispiel: [I] • Es sei X das tatsächliche Gewicht (in Gramm) einer 200gTafel Schokolade • Angenommen, X ∼ N (µ, σ 2) mit unbekanntem Erwartungswert µ und unbekannter Varianz σ 2 • Eine einfache Stichprobe vom Umfang n = 8 war x1 201.15 x2 197.57 x3 201.38 x4 203.15 x5 199.92 x6 198.99 x7 203.44 348 x8 200.50 Konkretes Beispiel: [II] • Ein Punktschätzwert für µ ist x = 200.7625 • Ein Punktschätzwert für σ ist s = 1.8545 • Ein konkretes 0.95-Konfidenzintervall für µ ist " x − 2.3646 · 1.8545 1.8545 √ , x + 2.3646 · √ 7 7 # = [199.1051 , 202.4199] • KI ist breiter als das KI auf Folie 343, weil Schätzung der unbekannten Varianz σ 2 durch S 2 zusätzliche Unsicherheit birgt 349 7. Hypothesentests Ausgangssituation erneut: • ZV X repräsentiere einen Zufallsvorgang • X habe die unbekannte VF FX (x) • Interessieren uns für einen unbekannten Parameter θ der Verteilung von X 350 Bisher: • Versuch, unbekannten Parameter θ mit einer Stichprobe X1, . . . , Xn zu schätzen (Punktschätzung, Intervallschätzung) Jetzt: • Testen von Hypothesen über unbekanntes θ anhand einer Stichprobe X1, . . . , Xn Man beachte: • Testprobleme spielen in der empirischen Wirtschaftsforschung eine zentrale Rolle 351 Beispiel 1: • In einer Studentenkneipe sollen geeichte Biergläser im Ausschank 0.4 Liter Bier enthalten. Wir haben die Vermutung, dass der Wirt häufig ’zu wenig’ ausschenkt. • X repräsentiere den Zufallsvorgang ’Füllen eines 0.4-Liter Bierglases durch den Wirt’ • Es bezeichne θ = E(X) die erwartete Füllmenge eines Glases • Durch eine Stichprobe X1, . . . , Xn soll getestet werden θ = 0.4 gegen θ < 0.4 352 Beispiel 2: • Wir wissen aus der Vergangenheit, dass das Risiko einer Aktie (die Standardabweichung der Aktienrenditen) bei 25 % lag. Im Unternehmen wird nun das Management ausgetauscht. Verändert sich dadurch das Risiko der Aktie? • X sei die Aktienrendite • θ = σ(X) sei die Standardabweichung der Renditen • Durch eine Stichprobe X1, . . . , Xn soll getestet werden θ = 0.25 gegen θ 6= 0.25 353 7.1 Grundbegriffe des Testens Definition 7.1: (Parametertest) Es sei X eine Zufallsvariable und θ ein unbekannter Parameter der Verteilung von X. Ein Parametertest ist ein statistisches Verfahren, mit dem eine Hypothese über den unbekannten Parameter θ anhand einer einfachen Zufallsstichprobe X1, . . . , Xn aus X überprüft wird. Formulierung eines statistischen Testproblems: [I] • Es sei Θ die Menge aller möglichen Parameterwerte (d.h. θ ∈ Θ) • Es sei Θ0 ⊂ Θ eine Teilmenge der Parametermenge 354 Formulierung eines statistischen Testproblems: [II] • Betrachte folgende Aussagen: H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ/Θ0 = Θ1 • H0 heißt Nullhypothese, H1 Gegenhypothese oder Alternative Wichtig: • Bei der Formulierung eines Testproblems müssen sich Nullhypothese und Alternative gegenseitig ausschließen 355 Arten von Hypothesen: • Sind |Θ0| = 1 (d.h. Θ0 = {θ0}) und H0 : θ = θ0, so nennt man H0 einfach • Andernfalls bezeichnet man H0 als zusammengesetzt • Analoge Bezeichnungen gelten für H1 356 Arten von Testproblemen: • Es sei θ0 ∈ Θ eine feste reelle Zahl. Dann heißt H0 : θ = θ 0 gegen H1 : θ = 6 θ0 H0 : θ ≤ θ 0 gegen H1 : θ > θ0 H0 : θ ≥ θ 0 gegen H1 : θ < θ0 zweiseitiges Testproblem • Die Testprobleme bzw. heißen einseitig (rechts- bzw. linksseitig) 357 Jetzt: • Betrachte das allgemeine Testproblem H 0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1 = Θ/Θ0 Allgemeine Vorgehensweise: • Entscheide anhand einer Stichprobe X1, . . . , Xn aus X, ob H0 zugunsten von H1 abgelehnt wird oder nicht 358 Explizites Vorgehen: • Wähle ’geeignete’ Teststatistik T (X1, . . . , Xn) und bestimme einen ’geeigneten’ kritischen Bereich K ⊂ R • Testentscheidung: T (X1, . . . , Xn) ∈ K =⇒ H0 wird abgelehnt / K =⇒ H0 wird nicht abgelehnt T (X1, . . . , Xn) ∈ Man beachte: • T (X1, . . . , Xn) ist eine ZV (Stichprobenfunktion) −→ Die Testentscheidung ist zufällig −→ Fehlentscheidungen sind möglich 359 Mögliche Fehlentscheidungen: Realität H0 richtig H0 falsch Testergebnis H0 ablehnen H0 nicht ablehnen Fehler 1. Art kein Fehler Fehler 2. Art kein Fehler Fazit: • Fehler 1. Art: Test lehnt H0 ab, obwohl H0 richtig • Fehler 2. Art: Test lehnt H0 nicht ab, obwohl H0 falsch 360 Wann treten die Fehlentscheidungen auf? • Der Fehler 1. Art tritt auf, falls T (X1, . . . , Xn) ∈ K, obwohl für den wahren Parameter gilt θ ∈ Θ0 • Der Fehler 2. Art tritt auf, falls / K, T (X1, . . . , Xn) ∈ obwohl für den wahren Parameter gilt θ ∈ Θ1 361 Frage: • Wann besitzt ein statistischer Test für das Problem H0 : θ ∈ Θ 0 ’gute’ Eigenschaften? gegen H1 : θ ∈ Θ1 = Θ/Θ0 Intuitive Vorstellung: • Test ist ’gut’, wenn er möglichst geringe Wahrscheinlichkeiten für die Fehler 1. und 2. Art aufweist Jetzt: • Formales Instrument zur Messung der Fehlerwahrscheinlichkeiten 1. und 2. Art 362 Definition 7.2: (Gütefunktion eines Tests) Man betrachte einen statistischen Test für das obige Testproblem mit der Teststatistik T (X1, . . . , Xn) und einem ’geeignet gewählten’ kritischen Bereich K. Unter der Gütefunktion des Tests versteht man die Funktion G, die, in Abhängigkeit des wahren Parameters θ ∈ Θ, die Wahrscheinlichkeit dafür angibt, dass der Test H0 ablehnt: G : Θ −→ [0, 1] mit G(θ) = P (T (X1, . . . , Xn) ∈ K). 363 Bemerkung: • Mit der Gütefunktion sind die Wahrscheinlichkeiten für den Fehler 1. Art gegeben durch G(θ) für alle θ ∈ Θ0 sowie für den Fehler 2. Art durch 1 − G(θ) für alle θ ∈ Θ1 Intuitive Vorstellung eines idealen Tests: • Ein Test ist ideal, wenn die Fehlerwahrscheinlichkeiten 1. und 2. Art stets (konstant) gleich Null sind −→ Test trifft mit Wskt. 1 die richtige Entscheidung 364 Beispiel: • Es sei θ0 ∈ Θ. Betrachte das Testproblem H 0 : θ ≤ θ0 gegen H1 : θ > θ 0 Gütefunktion eines idealen Tests 365 Leider: • Es kann mathematisch gezeigt werden, dass ein solcher idealer Test im allgemeinen nicht existiert Praktische Vorgehnsweise: [I] • Betrachte für eine geeignete Teststatistik T (X1, . . . , Xn) die maximale Fehlerwahrscheinlichkeit 1. Art α = max {P (T (X1, . . . , Xn) ∈ K)} = max {G(θ)} θ∈Θ0 θ∈Θ0 • Lege den kritischen Bereich K dann so fest, dass α einen vorgegebenen kleinen Wert animmt 366 Praktische Vorgehnsweise: [II] −→ Alle Fehlerwahrscheinlichkeiten 1. Art sind dann durch α begrenzt (d.h. kleiner oder gleich α) • Häufig benutzte α-Werte sind α = 0.01, α = 0.05, α = 0.1 Definition 7.3: (Signifikanzniveau eines Tests) Man betrachte einen statistischen Test für das Testproblem auf Folie 358 mit der Teststatistik T (X1, . . . , Xn) und einem geeignet gewählten kritischen Bereich K. Dann bezeichnet man die maximale Fehlerwahrscheinlichkeit 1. Art α = max {P (T (X1, . . . , Xn) ∈ K)} = max {G(θ)} θ∈Θ0 θ∈Θ0 als das Signifikanzniveau des Tests. 367 Konsequenzen dieser Testkonstruktion: [I] • Die Wskt., H0 aufgrund des Tests abzulehmen, obwohl H0 richtig ist (d.h. die Wskt. für den Fehler 1. Art) ist höchstens α (mit α = 0.01, 0.05, 0.1) −→ Wird H0 aufgrund einer Testrealisation abgelehnt, so kann man ziemlich sicher davon ausgehen, dass H0 tatsächlich falsch ist (Man sagt auch: H1 ist statistisch gesichert) 368 Konsequenzen dieser Testkonstruktion: [II] • Die Wskt. für den Fehler 2. Art (d.h. H0 nicht abzulehnen, obwohl H0 falsch ist), kann man dagegen nicht kontrollieren −→ Wird H0 aufgrund einer Testrealisation nicht abgelehnt, so hat man keinerlei Wahrscheinlichkeitsaussage über eine mögliche Fehlentscheidung (Nichtablehung von H0 heißt nur: Die Daten sind nicht unvereinbar mit H0) Wichtig deshalb: • Es ist entscheidend, wie man H0 und H1 formuliert • Das, was man zu zeigen hofft, formuliert man in H1 (in der Hoffnung, H0 anhand des konkreten Tests ablehnen zu können) 369 Beispiel: • Betrachte Beispiel 1 auf Folie 352 • Kann man anhand eines konkreten Tests H0 verwerfen, so kann man ziemlich sicher sein, dass der Wirt in der Regel zu wenig ausschenkt • Kann man H0 nicht verwerfen, so kann man nichts explizites über die Ausschankgewohnheiten des Wirtes sagen. (Die Daten stehen lediglich nicht im Widerspruch zu H0) 370 7.2 Tests für Erwartungswerte Situation: • Der interessierende Zufallsvorgang X sei normalverteilt, d.h. X ∼ N (µ, σ 2), wobei µ unbekannt und σ 2 bekannt sein sollen (vgl. Konfindenzintervall 1, Folie 338) • Betrachte für gegebenes µ0 ∈ R das Testproblem: H0 : µ = µ0 gegen H1 : µ 6= µ0 371 Testkonstruktion: • Suche eine geeignete Teststatistik T (X1, . . . , Xn) • Lege den kritischen Bereich K fest Geeignete Teststatistik lautet: T (X1, . . . , Xn) = √ X − µ0 n· σ Begründungen: • T (X1, . . . , Xn) misst im wesentlichen den Abstand zwischen dem unbekannten Parameter µ und dem Vergleichswert µ0 • Wenn H0 gültig ist (d.h. falls µ = µ0), dann gilt T (X1, . . . , Xn) ∼ N (0, 1) (vgl. Satz 5.5(b), Folie 310) 372 N (0, 1)-Dichte der Teststatistik T (X1 , . . . , Xn ) im Falle der Gültigkeit von H0 N(0,1)-Dichte von T unter H0 α/2 α/2 uα / 2 (= − u1−α / 2) 0 u1−α / 2 373 Explizite Testregel: • Lege das Signifikanzniveau α fest • Wähle den kritischen Bereich als K = (−∞, −u1−α/2) ∪ (u1−α/2, +∞) = {t ∈ R : |t| > u1−α/2} d.h. Lehne H0 ab, falls T (X1, . . . , Xn) ∈ K /K Lehne H0 nicht ab, falls T (X1, . . . , Xn) ∈ 374 Beispiel: [I] • Es sei X ∼ N (µ, 4) das tatsächliche Gewicht (in Gramm) einer 200g-Tafel Schokolade (vgl. Beispiel auf Folie 342) • Statistisches Testproblem H0 : µ = 200 gegen H1 : µ = 6 200 • Wert der Teststatistik: √ 200.7625 − 200 √ x − µ0 = 8· = 1.078 T (x1, . . . , xn) = n · σ 2 375 Beispiel: [II] • Für das Signifikanzniveau α = 0.05 gilt: u1−α/2 = u0.975 = 1.96 • Offensichtlich ist T (x1, . . . , xn) = 1.078 ∈ / (−∞, −1.96) ∪ (1.96, +∞) = K −→ Für α = 0.05 wird H0 nicht abgelehnt (Daten sind nicht unvereinbar mit H0) 376 Gütefunktion des Tests zum Signifikanzniveau α = 0.05 1.0 n = 1000 0.8 n = 20 0.6 G(µ) 0.4 0.2 0.0 198 n=8 199 200 201 202 µ Bemerkungen: • Test wird mit zunehmendem n immer trennschärfer • Der vorgestellte Test heißt zweiseitiger Gaußtest 377 Jetzt: • 2 zweiseitige Tests für den Erwartungswert in der Situation X ∼ N (µ, σ 2), bei bekannter Varianz σ 2 (ohne Herleitung) 1. Rechtsseitiger Gaußtest: [I] (µ0 ∈ R fest gegeben) H0 : µ ≤ µ0 gegen H1 : µ > µ 0 • Teststatistik ist erneut √ X − µ0 T (X1, . . . , Xn) = n · σ 378 1. Rechtsseitiger Gaußtest: [II] • Kritischer Bereich zum Signifikanzniveau α ist K = (u1−α, +∞) (u1−α ist (1 − α)-Quantil der N (0, 1)-Verteilung) −→ Lehne H0 zum Signifikanzniveau α ab, falls T (X1, . . . , Xn) > u1−α 379 2. Linksseitiger Gaußtest: (µ0 ∈ R fest gegeben) H0 : µ ≥ µ0 gegen H1 : µ < µ0 • Teststatistik ist wiederum √ X − µ0 T (X1, . . . , Xn) = n · σ • Kritischer Bereich zum Signifikanzniveau α ist K = (−∞, −u1−α) (−u1−α = uα ist α-Quantil der N (0, 1)-Verteilung) −→ Lehne H0 zum Signifikanzniveau α ab, falls T (X1, . . . , Xn) < −u1−α = uα 380 Beispiel: [I] • Es sei X ∼ N (µ, 4) das tatsächliche Gewicht (in Gramm) einer 200g-Tafel Schokolade mit der konkreten Stichprobe von Folie 342 • Statistisches Testproblem: H0 : µ ≤ 198 gegen H1 : µ > 198 • Für die konkrete Stichprobe gilt √ 200.7625 − 198 √ x − µ0 T (x1, . . . , xn) = n · = 8· = 3.9068 σ 2 381 Beispiel: [II] • Zum Signifikanzniveau α = 0.05 ergibt sich der kritische Bereich als K = (u0.95, +∞) = (1.6449, +∞) • Also folgt T (x1, . . . , xn) = 3.9068 > 1.6449 = u0.95 −→ Lehne H0 zum Signifikanzniveau α = 0.05 ab 382 Jetzt: • Tests für den Erwartungswert einer Normalverteilung bei unbekannter Varianz, d.h. X ∼ N (µ, σ 2) mit unbekannten µ und σ 2 • Betrachte für µ0 ∈ R zunächst den 2-seitgen Test H 0 : µ = µ0 gegen H1 : µ 6= µ0 383 Geeignete Teststatistik: T (X1, . . . , Xn) = √ X − µ0 n−1· S Begründungen: • T (X1, . . . , Xn) schätzt im wesentlichen den Abstand zwischen unbekanntem µ und dem Vergleichswert µ0 • Wenn H0 richtig ist (d.h. falls µ = µ0), dann gilt T (X1, . . . , Xn) ∼ t(n − 1) (vgl. Satz 5.5(c), Folie 311) 384 Herleitung des kritischen Bereiches: • Analoges Vorgehen wie beim zweiseitigen Gaußtest, nur mit t(n − 1)- anstatt mit der N (0, 1)-Verteilung • Kritischer Bereich ist K = (−∞, −tn−1,1−α/2) ∪ (tn−1,1−α/2, +∞) = {t ∈ R : |t| > tn−1,1−α/2} d.h. Lehne H0 ab, falls T (X1, . . . , Xn) ∈ K Lehne H0 nicht ab, falls T (X1, . . . , Xn) ∈ /K 385 Bemerkungen: [I] • Dieser Test heißt zweiseitiger t-Test • Für den rechtsseitigen t-Test H0 : µ ≤ µ0 gegen H1 : µ > µ 0 ergibt sich bei Benutzung der Teststatistik √ X − µ0 T (X1, . . . , Xn) = n − 1 · S zum Signifikanzniveau α der kritische Bereich K = (tn−1,1−α, +∞) 386 Bemerkungen: [II] • Für den linksseitigen t-Test H0 : µ ≥ µ 0 gegen H1 : µ < µ 0 ergibt sich bei Benutzung der Teststatistik √ X − µ0 T (X1, . . . , Xn) = n − 1 · S zum Signifikanzniveau α der kritische Bereich K = (−∞, −tn−1,1−α) 387 Beispiel: • Es sei X ∼ N (µ, σ 2) mit unbekannten µ und σ 2 • Betrachte zweiseitigen t-Test zum Niveau α = 0.05 • Einfache Stichprobe mit n = 8 Werten ergibt: 1.6611 3.6215 4.5674 7.6635 1.2770 2.6660 5.3406 3.8029 • Wert der Teststatistik: √ 3.8250 − 6 √ x − µ0 = −2.9633 = 7· t= n−1· s 1.9411 • Es gilt: |t| = 2.9633 > 2.3646 = t7,0.975 −→ Ablehnung von H0 388 7.3 Tests für Varianzen Situation: • Der interessierende Zufallsvorgang sei normalverteilt, d.h. X ∼ N (µ, σ 2), wobei sowohl µ als auch σ 2 unbekannt sein sollen • Betrachte für geg. σ02 ∈ R das zweiseitige Testproblem H0 : σ 2 = σ02 gegen H1 : σ 2 6= σ02 389 Geeignete Teststatistik lautet: T (X1, . . . , Xn) = n · S2 σ02 = !2 n X Xi − X i=1 σ0 Begründungen: • T (X1, . . . , Xn) schätzt im wesentlichen das Verhältnis zwischen unbekannter Varianz σ 2 und dem Vergleichswert σ02 • Wenn H0 gültig ist (d.h. falls σ 2 = σ02), dann gilt: T (X1, . . . , Xn) ∼ χ2(n − 1) (vgl. Satz 5.5(e), Folie 311) 390 χ2(3)-Dichte von T (X1, . . . , Xn) bei Gültigkeit von H0 0.25 0.20 χ2-Dichte von T unter H0 0.15 0.10 0.05 0.00 0 2 4 6 8 10 12 14 391 Bezeichnung: • Das p-Quantil der χ2(ν)-Verteilung wird in Mosler / Schmid mit χ2 ν,p bezeichnet • Kritischer Bereich ist 2 K = (−∞, χ2 ∪ ) (χ n−1,α/2 n−1,1−α/2, +∞) d.h. 2 Lehne H0 ab, falls T < χ2 oder T > χ n−1,α/2 n−1,1−α/2 2 Lehne H0 nicht ab, falls T ∈ [χ2 , χ n−1,α/2 n−1,1−α/2 ] 392 Bemerkungen: [I] • Die Dichte der χ2(ν)-Verteilung ist nicht symmetrisch, d.h. 2 χ2 ν,p 6= −χν,1−p • Für den rechtsseitigen Varianztest H0 : σ 2 ≤ σ02 gegen H1 : σ 2 > σ02 ergibt sich bei Benutzung der Teststatistik T (X1, . . . , Xn) = n · S2 σ02 = !2 n X Xi − X i=1 σ0 zum Signifikanzniveau α der kritische Bereich 2 , +∞) K = (χn−1,1−α (d.h. verwerfe H0, falls T > χ2 n−1,1−α) 393 Bemerkungen: [II] • Für den linksseitigen Varianztest H0 : σ 2 ≥ σ02 H1 : σ 2 < σ02 gegen ergibt sich bei Benutzung der Teststatistik T (X1, . . . , Xn) = n · S2 σ02 = !2 n X Xi − X i=1 σ0 zum Signifikanzniveau α der kritische Bereich 2 K = (−∞, χn−1,α ) 2 ) (d.h. verwerfe H0, falls T < χn−1,α 394 Bemerkungen: [III] • Falls der E-Wert µ der Normalverteilung bekannt ist, verwende die Teststatistik T (X1, . . . , Xn) = !2 n X Xi − µ i=1 σ0 und die Quantile der χ2(n)-Verteilung (vgl. Satz 5.5(d), Folie 311) 395 Beispiel: [I] • Gegeben seien folgende Messungen aus einer Normalverteilung (µ, σ 2 unbekannt): 1001, 1003, 1035, 998, 1010, 1007, 1012 • Man betrachte den folgenden Test z.N. α = 0.05: H0 : σ 2 ≤ 100 • Es gilt: gegen H1 : σ 2 > 100 n · S2 7 · 129.96 T (x1, . . . , xn) = = = 9.0972 2 100 σ0 396 Beispiel: [II] • Für α = 0.05 findet man das Quantil χ2 6,0.95 = 12.592 • Es folgt: T (x1, . . . , xn) = 9.0972 < 12.592 = χ2 6,0.95 −→ H0 kann nicht verworfen werden 397