STOCHASTIK Wahrscheinlichkeitstheorie und mathematische Statistik Prof. Dr. Barbara Grabowski Hochschule für Technik und Wirtschaft des Saarlandes Lehreinheit zur Kurseinheit „Mathematik für Informatiker“ im Fernstudiengang „Allgemeine Informatik“ der ZFH Koblenz Einleitung Einleitung Diese Kurseinheit dient der Vermittlung von Grundkenntnissen auf dem Gebiet der Wahrscheinlichkeitsrechnung und mathematischen Statistik. Mathematische Statistik und Wahrscheinlichkeitsrechnung sind zwei unterschiedliche Teildisziplinen der Mathematik, die ohne einander nicht denkbar sind und unter dem Sammelbegriff „Stochastik“ zusammengefasst werden. Aufgabe der Wahrscheinlichkeitsrechnung ist es, Gesetzmäßigkeiten des Zufalls zu untersuchen, bzw. mathematische Modelle dafür zu liefern. Die Wahrscheinlichkeitsrechnung ist zugleich das theoretische Fundament der mathematischen Statistik. Diese wird in der Regel in die Teildisziplinen „Beschreibende Statistik“ und „Schließende Statistik“ unterteilt. Während es in der Beschreibenden Statistik um Methoden der Aufbereitung und Darstellung von Datenmaterial geht, stehen im Mittelpunkt der Schließenden Statistik Verfahren, mit deren Hilfe von Beobachtungsdaten eines Merkmals an n Objekten einer Grundgesamtheit, d.h. von der sogenannten Stichprobe, auf die Verteilung der Merkmalswerte in der gesamten Grundgesamtheit geschlossen wird. Dieser Schluss wird mit Hilfe von Methoden der Wahrscheinlichkeitsrechnung durch Irrtumsbzw. Sicherheitswahrscheinlichkeiten bewertet. Die Stochastik hat längst in viele moderne wissenschaftliche Teildisziplinen Einzug gehalten, auch die Informatik und die Kommunikationstechnik sind ohne stochastische Methoden nicht mehr denkbar. Stochastische Methoden finden hier zum Beispiel Anwendung - bei der probabilistischen Analyse von Algorithmen - bei der Codierung bzw. in der Informationstheorie - in der Sprach- und Signalverarbeitung - bei der Mustererkennung bzw. Bildverarbeitung - bei der Modellierung von Rechner- bzw. Informationsnetzen - bei der Simulation komplexer Systeme, wie z.B. Fertigungs-, Informations-, Verkehrssysteme usw. Darüber hinaus sind Methoden der Statistik fester Bestandteil von Datenbanksystemen geworden und finden als Data-Mining-Verfahren Anwendung. Wir geben in dieser Kurseinheit eine Einführung in die Methoden der Stochastik, wobei wir uns aufgrund der beschränkten Seitenzahl dieser Lehreinheit auf eine Einführung in die Wahrscheinlichkeitsrechnung und einige wenige Methoden der Schließenden Statistik beschränken. Für weitere Methoden der Stochastik, insbesondere auch der Beschreibenden Statistik, Stochastik verweisen wir auf die im Literaturverzeichnis des Anhangs angegebene weiterführende Literatur. Im ersten Kapitel werden Sie mit dem Begriff der Wahrscheinlichkeit und mit Grundgesetzen des Rechnens mit Wahrscheinlichkeiten vertraut gemacht. Im Kapitel 2 wird der Begriff der Zufallsgröße eingeführt und die Methodik zur Modellierung der Wahrscheinlichkeitsverteilungen von Zufallgrößen dargestellt. Kapitel 3 enthält Angaben über die Verteilung von Summen und anderen Funktionen von Zufallsgrößen. Im Mittelpunkt von Kapitel 4 steht die Aufgabe der Identifizierung der Verteilung einer Zufallsgröße anhand von Beobachtungen dieser Zufallsgröße. Anhand dieser Aufgabenstellung werden wichtige Grundprinzipien der Schließenden Statistik, wie Punkt- und Bereichsschätzungen, für Verteilungsparameter erläutert. Die Kurseinheit schließt mit dem Kapitel 5 ab, in welchem Algorithmen zur Erzeugung von Pseudo-Zufallszahlen vorgestellt werden. In jedem Kapitel werden eine Reihe von Übungsaufgaben gestellt. Am Ende dieser Kurseinheit finden Sie die Lösungen zu allen Übungsaufgaben. Für die Herleitung vieler Aussagen in dieser Kurseinheit benötigt man Grundkenntnisse der Analysis, wie z.B. die einfache Integralrechnung. Nach Durcharbeiten dieser Kurseinheit können Sie zufällige Einflussparameter in stochastischen Systemen mathematisch modellieren. Insbesondere können Sie • mit Wahrscheinlichkeiten rechnen, • auf der Basis einer Folge von Beobachtungen eines Ereignisses A dessen Wahrscheinlichkeit mit vorgegebener Genauigkeit schätzen, • auf der Basis von Beobachtungen einer Zufallsgröße ein Histogramm aufstellen und eine Hypothese über die Verteilung der Zufallsgröße bilden und diese prüfen, sowie die Parameter der Verteilung schätzen, • Algorithmen für die Erzeugung von Zufallszahlen typischer z.B. in der Simulation verwendeter Verteilungen entwickeln. Inhaltsverzeichnis -I- Inhaltsverzeichnis 1 Der Wahrscheinlichkeitsraum 1 1.1 Der Wahrscheinlichkeitsraum................................................................................... 1 1.1.1 Kleiner Exkurs zur Mengenlehre .................................................................. 2 1.1.2 Zufälliger Versuch und zufällige Ereignisse................................................ 5 1.1.3 Das Ereignisfeld............................................................................................... 7 1.1.4 Relative Häufigkeit von Ereignissen und Definition der Wahrscheinlichkeit.......................................................................................... 8 1.2 Der klassische Wahrscheinlichkeitsbegriff ............................................................ 11 1.3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit von Ereignissen ................................................................................................................ 13 1.4 Totale Wahrscheinlichkeit und Bayes’sche Formel ............................................. 17 2 Zufallsgrößen 20 2.1 Begriff der Zufallsgröße........................................................................................... 20 2.2 Diskrete Zufallsgrößen............................................................................................. 22 2.2.1 Diskrete Zufallsgröße und ihre Wahrscheinlichkeitsverteilung ............. 22 2.2.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen ................................ 25 2.3 Stetige Zufallsgrößen................................................................................................ 27 2.3.1 Stetige Zufallsgrößen, Verteilungsdichte und Verteilungsfunktion....... 27 2.3.2 Bedingte Wahrscheinlichkeiten und Quantile........................................... 30 2.3.3 Spezielle stetige Verteilungen...................................................................... 33 2.4 Erwartungswert und Varianz von Zufallsgrößen ................................................ 39 3 Verteilungen von Funktionen von Zufallsgrößen 44 3.1 Erwartungswert und Varianz von Summen und linearen Transformationen von Zufallsgrößen .................................................................................................... 44 3.2 Verteilungen von Summen von Zufallsgrößen..................................................... 45 3.3 Verteilung von Funktionen von Zufallsgrößen .................................................... 50 4 Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen durch statistische Methoden 52 4.1 Schätzung einer unbekannten Wahrscheinlichkeit .............................................. 52 4.2 Schätzung unbekannter Verteilungsparameter .................................................... 60 4.3 Identifizieren von Verteilungen.............................................................................. 63 - II – Stochastik 4.3.1 Modellierung stetiger Verteilungen durch Histogramme ....................... 64 4.3.2 Der χ2-Test zur Verteilungsprüfung .......................................................... 67 5 Erzeugung von Zufallszahlen 81 5.1 Erzeugung von Zufallszahlen diskreter Verteilungen......................................... 82 5.2 Erzeugung von Realisierungen stetig verteilter Zufallsgrößen - die inverse Transformationsmethode........................................................................................ 84 5.3 Erzeugung von Realisierungen einer normalverteilten Zufallsgröße ............... 87 Literaturverzeichnis 89 Tabellen und Diagramme 90 Lösungshinweise zu den Aufgaben 94 Glossar 115 Stichwortverzeichnis 127 Der Wahrscheinlichkeitsraum 1 Der Wahrscheinlichkeitsraum In diesem Kapitel werden der Wahrscheinlichkeitsbegriff für Ereignisse definiert und die Grundgesetze des Rechnens mit Wahrscheinlichkeiten dargestellt. Es bildet damit die Grundlage für alle weiteren Kapitel. Nach Durcharbeiten dieses Kapitels können Sie • • • • • 1.1 die Grundgesetze des Rechnens mit Wahrscheinlichkeiten anwenden, ihre Chancen in Glücksspielen mittels der klassischen Wahrscheinlichkeit berechnen, die stochastische Unabhängigkeit von Ereignissen überprüfen, bedingte Wahrscheinlichkeiten berechnen, mit Hilfe der Bayes’schen Formel einfache Aufgaben lösen. Der Wahrscheinlichkeitsraum Die Wahrscheinlichkeitstheorie untersucht mathematische Modelle für reale Vorgänge, in denen der Zufall eine Rolle spielt. Wir nennen sie Vorgänge mit zufälligem Ergebnis und bezeichnen sie als zufällige Versuche. Beispiel: Der Betreiber einer Poststation interessiert sich für die Wartezeit von Kunden in seiner Anlage. Er lässt sie beobachten. Das Ergebnis – hier die Wartezeit ist nicht vorhersagbar. Ein Vorgang mit zufälligem Ergebnis läuft ab. Mit dem Vorgang sind Ereignisse verbunden: - Die Wartezeit ist kleiner als 10 Minuten. Die Wartezeit beträgt mindestens 20 Minuten. Die Wartezeit liegt zwischen 10 und 50 Minuten. Für die Beurteilung der Qualität des Services der Post ist es vielleicht notwendig, dass das Ereignis: „Die Wartezeit beträgt höchstens 10 Minuten“ eine Wahrscheinlichkeit von mindestens 0,95 besitzt. Das mathematische Modell für einen Vorgang mit zufälligem Ergebnis ist der Wahrscheinlichkeitsraum [Ω,ℑ,P]. Hierbei repräsentiert Ω die Menge der möglichen Ergebnisse des Vorgangs. ℑ enthält diejenigen Teilmengen von Ω, -1- -2– Stochastik die wir Ereignisse nennen, und wird als Ereignisfeld zu unserem zufälligen Versuch bezeichnet. P schließlich ist die sogenannte Wahrscheinlichkeitsverteilung, die jedem Ereignis aus ℑ eine als Wahrscheinlichkeit des Ereignisses bezeichnete Zahl zwischen 0 und 1 zuordnet. Diese Wahrscheinlichkeit soll den Grad der Gewissheit über das Eintreten des Ereignisses ausdrücken. In den folgenden Abschnitten werden die Begriffe Ereignis, Grundmenge Ω, Ereignisfeld ℑ und Wahrscheinlichkeitsmaß P näher erklärt. 1.1.1 Mengen Kleiner Exkurs zur Mengenlehre Es ist in der Wahrscheinlichkeitsrechnung üblich, Ereignisse durch Mengen darzustellen. Auf diese Weise kann man mit Ereignissen wie mit Mengen rechnen. Eine Menge wird angegeben, indem man alle ihre Elemente angibt, z.B. - durch Aufzählung oder - durch Angabe einer die Elemente charakterisierenden Eigenschaft Dabei ist zu beachten, dass jedes Element in der Menge nur einmal vorkommt. Mengen werden mit Großbuchstaben und ihre Elemente mit kleinen Buchstaben bezeichnet. x ∈ A bedeutet: x ist Element der Menge A x ∉ A bedeutet: x ist kein Element von A |A| = Anzahl der Elemente in A. Beispiele: A={1,2,7}, B = {x ∈ R| 2 ≤ x < 10}, 2 ∈ A , 1 ∉ B, |A| = 3. Teilmengen, leere Menge, Potenzmenge Mengen stehen in Relationen zueinander. Es bedeutet: A = B : Die Elemente von A und B sind gleich. A ⊆ B : Die Elemente von A sind auch in B enthalten (A ist Teilmenge von B). A ⊂ B : Die Elemente von A sind auch in B enthalten und B enthält mindestens ein Element, welches nicht in A enthalten ist (A ist echte Teilmenge von B). Die Menge ∅={}, die kein Element enthält, wird als leere Menge bezeichnet. Offensichtlich gilt für jede Menge A: ∅ ⊆ A. Die Menge, die alle möglichen Teilmengen einer Menge A enthält, wird als Potenzmenge von A bezeichnet: ℘(A) = {M| M ⊆ A}. Der Wahrscheinlichkeitsraum -3- Beispiel: Sei A = {1,2,7}. Dann ist ℘(A) = { ∅, {1},{2},{7}, {1,2}, {1,7}, {2,7}, {1,2,7} }. Mengen kann man durch Operationen miteinander verknüpfen. Diese Operationen kann man sich in sogenannten Venn-Diagrammen veranschaulichen: Operation Vereinigung Durchschnitt Differenz Mengenoperationen Operator Bedeutung Venn-Diagramm A∪B enthält alle Elemente, die in A oder B enthalten sind A∩B enthält alle Elemente, die in A und B enthalten sind A\B enthält alle Elemente, die in A, aber nicht in B enthalten sind Zwei Mengen A und B heißen disjunkt, falls sie kein gemeinsames Element besitzen, falls also gilt: A ∩ B = Φ. disjunkte Mengen Beispiel: Seien A={1,2,3}, B={2,3,7,9}. Dann ist: A∪B={1,2,3,7,9}, A∩B={2,3}, A\B= {1}, B\A = {7,9}. Die Mengen A∩B und B\A sind disjunkt. Ist A ⊆ M, also A eine Teilmenge einer Obermenge M, so AM = M\A als bezeichnet man die Menge Komplementärmenge Komplementärmenge (bzw. Komplement) von A (bzgl. M). Beispiel: Sei M = {1,2,3,4,5,6}, A={2,4,6}. Dann ist AM = {1,3,5}. Offensichtlich sind AM und A disjunkt und ihre Vereinigung ergibt M. Mengenoperationen besitzen Eigenschaften. So zum Beispiel sind ∪ und ∩ kommutativ, aber \ nicht. Weiterhin kann man aus den Venn-Diagrammen der Tabelle erkennen, dass gilt: (A∩B) ∪ (A\B) = A. Im folgenden Satz sind einige wichtige Eigenschaften von Mengenoperationen aufgelistet: Satz: (Eigenschaften von Mengenoperationen) Es gilt: 1. A∪B=B∪A und A∩B=B∩A 2. (A∪B)∩C = (A∩C) ∪ (B∩C) und (A∩B)∪ C = (A∪C) ∩(B∪C) 3. (A∪B)∪ C = A ∪ (B∪ C) und (A∩B)∩ C = A ∩(B∩C) Eigenschaften von Mengenoperationen -4– Stochastik 4. A = (A∩B) ∪ (A\B) 5. Wenn A ⊆ B , so gilt A∩B=A und A∪B = B 6. Wenn A ⊆M und B ⊆M, so gilt: _________ _________ ( A ∪ B) M = AM ∩ BM und ( A ∩ B) M = AM ∪ BM (de Morgansche Regeln) Übungsaufgaben 1.1 Sei A = {1,2,3,4,5,6,7,8,9}, B={2,4,6}, C={2,4,6,20,40}. Berechnen Sie A∩B, B\A, C\A, B ∪C, B A , ℘(B), |℘(B)|. In welcher Relation stehen B und C zueinander? Sind B A und C disjunkt oder nicht ? 1.2 Welches Bild gehört zu welcher Formel? Ordnen Sie zu! a)A∩(B∩C), b)A∩(B∪C), c)A∪(B∩C) d)A∪(B∪C), e)(A∩B)∪C, f)(A∪B)∩C 1.3 _________ Stellen Sie im folgenden Diagramm die Mengen ( A ∪ B ) M und AM ∩ BM dar. Was stellen Sie fest? 1.4 Machen Sie sich analog zu 1.3 die Aussagen 2., 5. und 6. des Satzes „Eigenschaften von Mengenrelationen“ klar, indem Sie die Menge der linken Seite und diejenige der rechten Seite der jeweiligen Gleichung im Venn-Diagramm darstellen und diese Grafiken dann miteinander vergleichen. Der Wahrscheinlichkeitsraum 1.1.2 -5- Zufälliger Versuch und zufällige Ereignisse Ein unter Beibehaltung eines festen Komplexes von Bedingungen beliebig oft wiederholbarer Vorgang mit ungewissem Ausgang heißt zufälliger Versuch. Wir bezeichnen ihn mit V. Die Menge Ω der möglichen Ergebnisse von V wird als Grundmenge bzw. Ergebnismenge zu V bezeichnet. Die Elemente ω von Ω stellen jeweils ein mögliches Ergebnis bei Durchführung von V dar. Als Ereignisse zu V bezeichnet man Teilmengen von Ω. Für Ereignisse verwenden wir Großbuchstaben A,B,C, .... . Die Aussage „Das Ereignis A ist eingetreten“ bedeutet, dass irgendein Element von A als Ergebnis des zufälligen Versuches beobachtet wurde. zufälliger Versuch, Grundmenge, Ergebnisse, Ereignisse 1. Beispiel: Versuch : V = Werfen eines Spielwürfels einige mögliche Ergebnisse: ω = 2 oder ω = 6 Grundmenge: Ω = {1,2,3,4,5,6} einige mögliche Ereignisse: „ungerade Augenzahl“ : A= {1,3,5} “Augenzahl ist größer als 3“: B ={4,5,6} „Augenzahl ist gleich 6“ : C={6} 2. Beispiel: Versuch : V = Ermittlung der Wartezeit eines Kunden in der Post einige mögliche Ergebnisse: ω = 10 Minuten oder ω = 15 Minuten Grundmenge: Ω = {ω ∈ R| ω ≥ 0 } (enthält alle möglichen Wartezeiten) einige mögliche Ereignisse: „Wartezeit ist kleiner als 10 Minuten“ : A= {ω ∈ R| 0≤ ω < 10 } „Wartezeit liegt zwischen 20 und 50 Minuten“: B = {ω ∈ R| 20 ≤ ω ≤ 50 } „Wartezeit beträgt 15 Minuten“ : C={15} Wir unterscheiden zwischen Elementarereignissen und zusammengesetzten Ereignissen. Elementarereignisse sind „Einermengen“, die jeweils genau ein Ergebnis des zufälligen Versuchs enthalten. Damit treten niemals zwei Elementarereignisse gleichzeitig ein, sie sind disjunkt. In unseren Beispielen stellt jeweils das Ereignis C ein Elementarereignis dar. Demgegenüber heißen Ereignisse, die durch Vereinigung mehrerer Elementarereignisse entstehen, zusammengesetzte Ereignisse. Elementarereignis Da Ereignisse durch Mengen dargestellt werden, können die Relationen und Operatoren der Mengenlehre verwendet werden, um Relationen zwischen und Verknüpfungen von Ereignissen darzustellen. Dabei bedeutet: Verknüpfung von Ereignissen -6– Stochastik A⊆B A=B A∪B A∩B A\B Mit dem Ereignis A tritt auch das Ereignis B ein (A zieht B nach sich). A zieht B nach sich und B zieht A nach sich. A oder B oder beide Ereignisse treten ein. (Summe von Ereignissen) A und B treten ein. (Produkt von Ereignissen) Das Ereignis A aber nicht das Ereignis B tritt ein. Wir können die Summe und das Produkt von Ereignissen auf mehr als zwei Ereignisse verallgemeinern. A1 ∪ A2 ∪ ⋯ ∪ An Mindestens eines der Ereignisse Ai , i = 1,..., n ,tritt ein. A1 ∩ A2 ∩ ⋯ ∩ An Alle Ereignisse Ai , i = 1,..., n ,treten gemeinsam ein. Komplementärereignis, sicheres Ereignis, unmögliches Ereignis Das Ereignis A = Ω\A heißt Komplementärereignis oder Gegenereignis zu A und bedeutet, dass A nicht eintritt. Zwei Ereignisse A und B heißen disjunkt, wenn sie nicht gemeinsam eintreten, d.h., wenn gilt: A ∩ B = ∅. Ein Ereignis, welches bei jeder Durchführung des Versuchs V eintritt, heißt sicheres Ereignis und eines, welches nie eintritt unmögliches Ereignis. Offensichtlich ist Ω ein sicheres und Ω =∅ ein unmögliches Ereignis. Der in Abschnitt 1.1.1. angegebene Satz über Eigenschaften von Mengenoperationen gilt genauso für die entsprechenden Verknüpfungen von Ereignissen. 1.5 In einem Reaktionszeitversuch V seien folgende Ereignisse von Interesse: A= „Die Reaktionszeit ist größer oder gleich 3 Sekunden“, B= „Die Reaktionszeit ist nicht größer als 5 Sekunden“, C= „Die Reaktionszeit ist größer als 7 Sekunden“, D= „Die Reaktionszeit liegt zwischen 3 und 5 Sekunden (einschließlich 3 und 5)“. a) Stellen Sie A,B,C,D als Mengen dar! b) In welcher Relation stehen A und C zueinander? c) Stellen Sie D aus A und B unter Verwendung von Mengenoperationen dar! d) Welches Ereignis wird durch die Menge A\C beschrieben? Geben Sie die Menge an! e) Geben Sie alle Paare disjunkter Ereignisse an, die sich aus A,B,C und D bilden lassen! Der Wahrscheinlichkeitsraum 1.1.3 -7- Das Ereignisfeld Zu einem Versuch V können wir immer viele Ereignisse definieren. Alle Ereignisse sind immer Teilmengen der Grundmenge Ω. Im folgenden fassen wir die bei Durchführung von V praktisch relevanten Ereignisse in einer Menge, dem sogenannten Ereignisfeld von V zusammen. Wir fordern dabei, dass die Anwendung der Operationen ∪, ∩ und \ auf die Ereignisse des Ereignisfeldes nicht aus diesem hinausführt, d.h., wir fordern, dass Ereignisfeld alle Ereignisse enthält, die sich durch Anwendung der Mengenoperationen ∪, ∩ und \ bilden lassen. Definition: Sei V ein zufälliger Versuch mit der Grundmenge Ω. Ein Ereignisfeld ℑ=ℑ(Ω) zu V über Ω ist eine Menge von Ereignissen A ⊆ Ω, die folgende Eigenschaft besitzt: 1. ℑ enthält das unmögliche Ereignis ∅ und das sichere Ereignis Ω, also ∅∈ℑ und Ω∈ℑ. 2. Wenn A ∈ℑ und B∈ℑ, so ist auch A∪B ∈ℑ und A∩B ∈ ℑ. 3. Wenn A ∈ ℑ, so ist auch das Komplement A ∈ ℑ. 4. Mit abzählbar unendlich vielen Ereignissen Ai ∈ ℑ, i=1,2,..., sind auch ∞ ∞ i =1 i =1 deren Summe ∪ Ai und deren Produkt ∩ Ai in ℑ enthalten. Ereignisfelder zu einem zufälligen Versuch sind nicht eindeutig bestimmt. Beispiel: Sei V der zufällige Versuch „Würfeln mit einem Würfel“. Dann ist die Grundmenge Ω={1,2,3,4,5,6}. Mögliche Ereignisfelder zu V sind: 1. ℑ = {∅, {2,4,6}, {1,3,5}, Ω} 2. ℑ = ℘ (Ω) = {A| A ⊆ Ω}. 1.6 Sei V der zufällige Versuch „Würfeln mit einem Würfel“. a) Geben Sie mindestens zwei weitere Ereignisfelder zu V an! b) Warum ist {∅, {2}, {4}, {1,3,5,6}, Ω} kein Ereignisfeld zu V? c) Wie viele Ereignisse enthält das Ereignisfeld ℑ = ℘(Ω)? Üblicherweise legt man in der Wahrscheinlichkeitsrechnung bei Versuchen V mit endlichen Grundmengen Ω die Potenzmenge ℑ = ℘(Ω) als Ereignisfeld zugrunde, da dieses Ereignisfeld alle möglichen zu V definierbaren Ereignisse, insbesondere die Elementarereignisse, enthält. Bei Versuchen mit reellen Grundmengen (Ω=R) wird in der Regel als Ereignisfeld nicht die Potenzmenge von R, sondern eine etwas „kleinere“ Menge, nämlich die Das Ereignisfeld -8– Stochastik Menge der sogenannten Borel-Mengen zugrunde gelegt. Diese enthält alle offenen, halboffenen und abgeschlossenen reellen Zahlen-Intervalle, sowie deren Summen, Produkte und Komplemente. Auf eine ausführliche Definition der Borel-Mengen sei hier verzichtet. Vollständiges Ereignissystem Definition: Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld ℑ. Eine Menge von Ereignissen A1 , A2 ,..., An , Ai ⊆ Ω für i=1,...,n, heißt vollständiges Ereignissystem in ℑ, falls gilt: a) Ai ∩ A j = ∅ für i≠j und b) A1 ∪ A2 ∪ ⋯ ∪ An = Ω . Übungsaufgaben 1.7 Sei V der zufällige Versuch „Zweimaliger Münzwurf. Ein Versuchsausgang sei durch das Paar ω=(M1, M2), Mi ∈{K,Z}, beschrieben Mi.: Ergebnis des i.ten Wurfes, i=1,2). a) Geben Sie Ω an! b) Geben Sie das Ereignisfeld ℑ = ℘(Ω) an! c) Beschreiben Sie die Ereignisse A={(K,K),(Z,K)}, B={(K,K),(Z,Z)}, C={(K,K), (Z,K), (K,Z)} in Worten! d) Geben Sie mindestens 2 vollständige Ereignissysteme in ℑ=℘(Ω) an! 1.8 1.1.4 Relative Häufigkeit Ein Ereignisfeld ℑ zu einem Versuch V enthalte die Ereignisse A und B. Zeigen Sie, dass die Ereignisse A∪B, A ∩B, A ∩ B , A ∩ B ein vollständiges System von Ereignissen in ℑ bilden! Relative Häufigkeit von Ereignissen und Definition der Wahrscheinlichkeit Will man wissen, wie groß die Chance des Eintretens eines Ereignisses A∈ℑ bei Durchführung eines Versuches V ist, so könnte man den Versuch n mal durchführen und dabei beobachten, wie oft A eingetreten ist, d.h., die relative Häufigkeit hn(A) von A ermitteln. Die relative Häufigkeit hn(A) ist der Anteil der Versuche an den n Versuchswiederholungen, in denen A eintritt. Tritt A beispielsweise bei 50 Versuchen 10 mal ein, so ist hn(A)=10/50 = 1/5. Welcher Der Wahrscheinlichkeitsraum -9- Wert sich für hn(A) in einer konkreten Versuchsreihe ergibt, ist vom Zufall abhängig, d.h., kann nicht mit Bestimmtheit vorhergesagt werden. Dennoch besitzt die relative Häufigkeit allgemeingültige Eigenschaften, z.B. : 1. 0 ≤ hn(A), 2. hn(Ω)=1, 3. Wenn A∩B=∅, so ist hn(A∪B)= hn(A)+hn(B). Da die relative Häufigkeit vom Zufall abhängt und außerdem mit der Anzahl n der Versuche stark schwankt, ist sie kein ideales Maß für die Quantifizierung der Chance des Eintretens von A. Wir kommen deshalb zu einem allgemeineren Begriff, dem der sogenannten Wahrscheinlichkeit P(A) eines Ereignisses A. P(A) ist ein idealisiertes nicht vom Zufall abhängendes Modell der relativen Häufigkeit. Damit die Wahrscheinlichkeit P(A) ein gutes Modell für die relative Häufigkeit hn(A) sein kann, muss sie die o.g. 3 grundlegenden Eigenschaften der relativen Häufigkeit erfüllen. Für eine mathematische Definition bilden sie 3 von 4 Axiomen, die vom russischen Mathematiker Kolmogorov 1933 festgelegt wurden und aus denen sich die ganze Wahrscheinlichkeitstheorie herleiten lässt. Definition: (Axiomatische Definition der Wahrscheinlichkeit) Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld ℑ=ℑ (Ω). Dann heißt jede Abbildung P: ℑ → [0,1] Wahrscheinlichkeitsmaß auf ℑ, falls für alle Ereignisse A, B, Ai (i=1,2,...) aus dem Ereignisfeld ℑ folgende Eigenschaften (Axiome) erfüllt sind: 1. 0 ≤ P(A), 2. P(Ω)=1, 3. Wenn A∩B= ∅, so ist P(A∪B)=P(A)+P(B), 4. ∞ ∞ P(∪ Ai ) = ∑ P( Ai ) , falls Ai ∩ A j = ∅ für i≠j. i =1 i =1 P(A) wird als Wahrscheinlichkeit (Chance) des Eintretens von A bei einmaliger Durchführung des Versuchs V bezeichnet. Wenn man den Versuchsumfang n einer Versuchsreihe sehr groß macht (im Idealfall gegen ∞ gehen lässt), so wird man feststellen, dass sich die relative Häufigkeit hn(A) stets auf ein und denselben festen Wert, und zwar P(A), einpegelt. Diese Eigenschaft bezeichnet man als Stabilität der relativen Häufigkeit. Demzufolge kann man die Wahrscheinlichkeit P(A) auch als Vorhersagewert für die relative Häufigkeit betrachten, mit der das Ereignis A in einer langen Reihe von Wiederholungen des Versuchs V eintritt. So ist P(A) = 0,5 die Wahrscheinlichkeit dafür, beim Münzwurf Kopf zu werfen, Axiomatische Definition der Wahrscheinlichkeit - 10 – Stochastik gleichzeitig bedeutet dieser Wert aber auch, dass bei n maligem Münzwurf (n groß) in ungefähr 50 Prozent aller Würfe Kopf geworfen wird. Umgekehrt liefert eine beobachtete relative Häufigkeit einen Schätzwert für die Wahrscheinlichkeit des betrachteten Ereignisses. Je größer dabei n ist, desto genauer ist dieser Schätzwert für P(A). Aus den o.g. 4 Axiomen folgen eine Reihe weiterer Eigenschaften der Wahrscheinlichkeit P. Einige davon fassen wir in folgendem Satz zusammen: Eigenschaften der Wahrscheinlichkeit Satz: (Eigenschaften der Wahrscheinlichkeit) Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld ℑ=ℑ (Ω). Dann besitzt ein Wahrscheinlichkeitsmaß P auf ℑ für alle Ereignisse A, B, Ai (i=1,2,...) aus dem Ereignisfeld ℑ folgende Eigenschaften: 1. 0 ≤ P(A) ≤ 1, 2. P(∅)=0, P(Ω)=1, 3. P( A ) = 1-P(A), 4. n n P(∪ Ai ) = ∑ P( Ai ) , für alle n∈N, falls Ai ∩ A j = ∅ für i≠j, i =1 i =1 5. P(A∪B) = P(A)+P(B)-P(A∩B) 6. Wenn A⊆B, so ist P(A) ≤ P(B) Beweis: Stellvertretend beweisen wir die Aussage 3. des Satzes. Es gilt: Ω = A∪ A und es ist A∩ A =∅. In Anwendung der Axiome 2 und 3 der Wahrscheinlichkeitsdefinition erhalten wir: 1=P(Ω) = P(A∪ A ) = P(A)+P( A ) Stellen wir diese Gleichung nach P( A ) um, so erhalten wir die Behauptung 3. des Satzes. q.e.d 1.9 Zeigen Sie, dass für zwei beliebige Ereignisse A und B eines Ereignisfeldes gilt: P(A∪B) = P(A)+P(B)-P(A∩B). Beispiel: Die Hochbegabung von Kindern einer bestimmten Altersstufe wird mit zwei Testverfahren ermittelt. Bestehen die Kinder beide Tests, so werden sie als hochbegabt eingestuft. Es sei bekannt, dass 2 % der Kinder der betrachteten Altersstufe Test 1 (T1) besteht. Die Wahrscheinlichkeit, dass ein Kind den zweiten Test (T2) besteht, ist 0,03. Insgesamt bestehen 96% weder den ersten noch den zweiten Test. Mit welcher Wahrscheinlichkeit wird ein Kind als hochbegabt eingestuft? Lösung: Es gilt: P(T1)=0,02, P(T2)=0,03 und P( T1 ∩ T2 ) =0,96. Gesucht ist P(T1∩T2). Aus den Eigenschaften von P folgt: P(T1∩T2) = P(T1)+P(T2)-P(T1∪T2). Der Wahrscheinlichkeitsraum Da T1∪T2 das Komplement - 11 - von T1 ∩ T2 ist, gilt weiterhin P(T1∪T2)=1-P( T1 ∩ T2 ) = 0,04. Daraus folgt für die gesuchte Wahrscheinlichkeit P(T1∩T2) = P(T1)+P(T2)-P(T1∪T2) = 0,02+0,03-0,04 = 0,01. Das heißt, dass 1 Prozent der Kinder der betreffenden Altersklasse als hochbegabt eingestuft werden. Übungsaufgaben 1.10 In deutschsprachlichen E-Mails tritt häufig das Wort „Viagra“ oder das Wort „Rolex“ auf. Mit mindestens einem dieser beiden Worte sind 2,5 % aller E-Mails behaftet. Eine E-Mail wird nur dann nicht als spamverdächtig klassifiziert, wenn sie keines der beiden Worte enthält. Mit welcher Wahrscheinlichkeit wird eine E-Mail nicht als spamverdächtig eingestuft? 1.11 Bei der Herstellung eines Produktes treten 2 Fehler F1= „nicht ´ maßhaltig“ und F2=„nicht funktionsfähig“ mit den Wahrscheinlichkeiten P(F1)=0,015 und P(F2)=0,01 ein. Mit beiden Fehlern behaftet sind insgesamt 0,5 % aller Produkte. Ein Produkt ist nur dann verkäuflich, wenn es keinen der beiden Fehler besitzt. Mit welcher Wahrscheinlichkeit ist ein Produkt verkäuflich? 1.2 Der klassische Wahrscheinlichkeitsbegriff Bereits im 17. Jahrhundert interessierte man sich für die Berechnung von Gewinn-Wahrscheinlichkeiten in Glücksspielen. Charakteristisch für Glücksspiele ist es, dass ihnen zufällige Versuche zugrunde liegen, bei denen es nur endlich viele gleichwahrscheinliche Versuchsausgänge gibt. Diese Versuche bezeichnet man als Laplace-Versuche. Die Wahrscheinlichkeit in Laplace-Versuchen wird als klassische Wahrscheinlichkeit bezeichnet. Sie ist gleich dem Quotienten aus der Anzahl der für dieses Ereignis günstigen Versuchsausgänge und der Gesamtzahl der möglichen Versuchsausgänge, Im folgenden werden wir sehen, dass sich diese Formel als Spezialfall aus den 4 Axiomen der Wahrscheinlichkeit ergibt. - 12 – Stochastik Laplace-Versuch Definition: Sei V ein zufälliger Versuch mit der endlichen Grundmenge Ω = {ω1 ,..., ω m }. Ist P( ω i ) = p für alle i=1,...,m, so heißt V Laplace-Versuch. Klassische Wahrscheinlichkeit Satz: (Klassische Wahrscheinlichkeit in Laplace-Versuchen) Sei V ein Laplace-Versuch mit der Grundmenge Ω = {ω1 ,..., ω m }. Dann gilt 1 und m | A| 2. P(A)= für jedes Ereignis A∈ℑ = ℘ (Ω). |Ω| 1. P({ ω i }) = Beweis zu 1. Es ist P( Ω) = P ({ω1 } ∪ ... ∪ {ω m }) = Daraus folgt die Behauptung p=P({ ω i }) = 1.12 m m ∑ P({ω }) = ∑ p = mp. i =1 i i =1 1 . m Beweisen Sie die Behauptung 2. des Satzes! Die Berechnung der klassischen Wahrscheinlichkeit läuft auf die Ermittlung der Anzahl von Elementen einer Menge hinaus. Dazu benötigen wir im wesentlichen zwei kombinatorische Formeln. Kombinatorische Formeln Satz: (Kombinatorische Formeln) 1.) Es gibt genau n! Vertauschungen von n Elementen. 2.) Es gibt genau n n! = . k-elementige Teilmengen einer k k!(n − k )! n-elementigen Menge. Mit diesen beiden Formeln kann man nahezu beliebige Aufgaben zur klassischen Wahrscheinlichkeit lösen. Beispiel: Wie groß ist die Wahrscheinlichkeit dafür, beim Würfeln mit 5 Würfeln (Kniffel) genau 2 mal die Augenzahl 4 und des weiteren die Zahlen 1,2,3 gewürfelt werden? Lösung: Wir überlegen uns zunächst, wie die Elementarereignisse aussehen. Einen Versuchsausgang kann man offensichtlich durch ein 5 – Tupel (i1,i2,i3,i4,i5) mit ij∈{1,2,3,4,5,6} beschreiben, ij ist die Augenzahl des j-ten Würfels. Ω ist die Anzahl aller 5-Tupel. Da jeder Würfel 6 Möglichkeiten besitzt und alle 5-Tupel durch eine Kombination der 6 Möglichkeiten aller 5 5 Würfel entstehen, gilt: |Ω|= 6 ⋅ 6 ⋅ 6 ⋅ 6 ⋅ 6 =6 . Das Ereignis A ist die Menge aller 5-Tupel, in denen 2 mal eine 4 und die Zahlen 1, 2, 3 vorkommen. Der Wahrscheinlichkeitsraum - 13 - Würden wir alle diese 5 Tupel auflisten wollen, müssten wir aus den 5 Würfeln immer 2 auswählen, denen wir die 4 zuordnen, der Rest bekommt 5 5! = 10 Möglichkeiten, 2 Würfel aus die Zahlen 1,2,3. Es gibt genau = 2 2!3! fünfen auszuwählen. Haben wir zwei Würfel festgelegt, so ordnen wir den restlichen 3 Würfeln die Zahlen 1,2,3 zu. Dafür gibt es genau 3! Möglichkeiten. Folglich ist P(A)= 5 5! | A |= 3!= = 60 und es ergibt sich 2! 2 | A | 60 10 = = ≈ 0,008 . Die Chance, 2 mal eine 4 und die Zahlen 1,2,3 | Ω | 65 64 zu würfeln, beträgt 8 zu 1000. Übungsaufgaben 1.13 Ein 5-stelliger Zahlencode, bestehend aus den Ziffern 1 bis 6, wird zufällig durch Würfeln mit 5 gleichmäßigen Würfeln bestimmt. Wie groß ist die Wahrscheinlichkeit dafür, a) die Zahlen 1,2,3,4,5 zu würfeln? b) 2 mal die 4 und 3 mal die 6 zu würfeln? c) 5 verschiedene Zahlen zu würfeln? 1.14 Wie groß ist die Wahrscheinlichkeit dafür, beim 3maligen Würfeln mit einem gleichmäßigen Würfel mindestens 2 mal eine 6 zu würfeln? 1.3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit von Ereignissen Ein Zufallsexperiment sei durch die Grundmenge Ω beschrieben. Ein Ereignis A ⊆ Ω hat dann die Wahrscheinlichkeit P(A). Wie ändert sich diese Wahrscheinlichkeit, wenn wir die Zusatzinformation erhalten, dass im Experiment das Ereignis B eingetreten ist? Beim Würfeln mit einem Würfel ist die Wahrscheinlichkeit eine 6 zu würfeln gleich 1/6. Erhalten wir aber die Zusatzinformation, dass eine gerade Zahl gewürfelt wurde, so ist die Wahrscheinlichkeit für eine 6 gleich 1/3. Wir gehen bei unseren - 14 – Stochastik Überlegungen von Ω zu einem kleineren Grundraum B über und berechnen in diesem Grundraum die Wahrscheinlichkeit für A∩B. Bedingte Wahrscheinlichkeit Definition: Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld ℑ. Seien A∈ℑ und B∈ℑ zwei beliebige Ereignisse zu V mit P(B)>0. Dann heißt P(A|B) = P( A ∩ B ) P( B) bedingte Wahrscheinlichkeit von A unter der Bedingung B. Speziell ist P(B|B) = 1, denn aufgrund der Information ist das Eintreten von B sicher. Die bedingte Wahrscheinlichkeit P(⋅|B) ist bei festgehaltener Bedingung B ein Wahrscheinlichkeitsmaß auf ℑ, d.h. P(⋅|B) erfüllt alle Axiome und Eigenschaften der Wahrscheinlichkeit, die in Abschnitt 1.1.4 dargestellt wurden. Insbesondere gilt dann auch P ( A | B ) = 1 − P ( A | B ) . Man beachte aber, dass im allgemeinen P ( A | B ) ≠ 1 − P ( A | B ) ist. Multiplikationssatz 1.15 Zeigen Sie anhand der Definitionsgleichung der bedingten Wahrscheinlichkeit, dass P ( A | B ) = 1 − P ( A | B ) gilt! Multiplizieren wir in der Definitionsgleichung für die bedingte Wahrscheinlichkeit beide Seiten mit P(B), so erhalten wir die sogenannte Multiplikationsformel: P( A ∩ B) = P( A | B) ⋅ P( B) Oftmals sind die Wahrscheinlichkeiten P(A|B) und P(B) gegeben oder leicht zu ermitteln und die Multiplikationsformel wird dann angewendet, um die Die MultiplikaProduktwahrscheinlichkeit P ( A ∩ B ) zu ermitteln. tionsformel lässt sich auf beliebig viele Ereignisse verallgemeinern: Satz: (Multiplikationssatz) Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld ℑ=ℑ(Ω). Seien Ai∈ℑ , i=1,...,n , n beliebige Ereignisse. Dann gilt: P( A1 ∩ A2 ∩ ⋯ ∩ An ) = P ( A1 ) P( A2 | A1 ) P( A3 | A1 ∩ A2 ) ⋅ ⋯ ⋅ P( An | A1 ∩ ⋯ ∩ An −1 ) Beispiel: Aus einem gut gemischten Kartenspiel sollen 3 Spieler nacheinander eine Karte ziehen. Mit welcher Wahrscheinlichkeit zieht jeder Spieler eine Pik-Karte (Ereignis A)? Der Wahrscheinlichkeitsraum - 15 - Lösung: Unter den 32 Karten sind 8 Pik-Karten. Die Wahrscheinlichkeit, dass der erste Spieler eine Pik-Karte zieht ist P(A1)=8/32=1/4. Nachdem der erste Spieler eine Pik-Karte gezogen hat, sind nur noch 31 Karten und davon 7 PikKarten im Spiel. Somit ist die Wahrscheinlichkeit dafür, dass der zweite Spieler eine Pik-Karte zieht P(A2|A1) = 7/31. Analog erhalten wir dann P(A3|A1∩A2)=6/30 und somit: P(A) = P(A1∩A2∩A3)= 8 7 6 7 ⋅ ⋅ = . 32 31 30 620 Verändert die Information über das Eintreten von B die Chancen für A nicht, d.h. gilt P(A|B)=P(A), so heißen A und B stochastisch unabhängig. Unabhängige Ereignisse Für 2 unabhängige Ereignisse gilt die Produktformel: Produktformel für 2 unabhängige Ereignisse P ( A ∩ B ) = P ( A) ⋅ P ( B ) Beispiel: Sind die beiden Ereignisse A = „Würfeln einer geraden Zahl“ und B= „Würfeln einer Zahl ≥ 4“ stochastisch unabhängig? Lösung: Es gilt P(A)=1/2 und P(B|A)=2/3. Damit sind P(A)≠P(B|A) und folglich sind A und B nicht stochastisch unabhängig. Das gleiche Ergebnis erhalten wir, wenn wir die Produktformel untersuchen: Es ist P(A)=1/2, P(B)=1/2 und P(A∩B)=2/6. Folglich ist P(A∩B)≠P(A)P(B), woraus folgt, dass A und B nicht stochastisch unabhängig sind. 1.16 Zeigen Sie dass aus P ( A ∩ B ) = P ( A) ⋅ P ( B ) folgt, dass auch die Beziehungen P ( A ∩ B ) = P ( A ) ⋅ P ( B ) , P( A ∩ B ) = P ( A) ⋅ P( B ) und P ( A ∩ B ) = P ( A ) ⋅ P ( B ) gelten! (D.h., aus der stochastischen Unabhängigkeit von A und B folgt die stochastische Unabhängigkeit von A , B sowie A, B , sowie A , B ). Die Definition der Unabhängigkeit von n beliebigen Ereignissen sieht etwas komplizierter aus. Die inhaltliche Bedeutung ist analog zum Fall zweier Ereignisse: das Eintreten jeweils eines Teils der Ereignisse beeinflusst die Chancen des Eintretens des anderen Teils nicht. Für die Berechnungen ist die Verallgemeinerung der Produktformel wichtig: Sind Ereignisse A1 , A2 , ⋯ , An stochastisch unabhängig, so gilt für jede beliebige Teilauswahl A1* , A2* , ⋯ , Ak * von k Ereignissen aus diesen n: P ( A1* ∩ A2* ∩ ⋯ ∩ Ak * ) = P( A1* ) P ( A2* ) ⋅ ⋯ ⋅ P( Ak * ) Allgemeine Produktformel für n unabhängige Ereignisse - 16 – Stochastik Beispiel: Die Wahrscheinlichkeit, dass ein Beobachter in einem gewissen Zeitraum ein Signal auf einem Bildschirm übersieht, sei 0,2 und bei allen Beobachtern gleich. Wie viele unabhängig voneinander arbeitende Beobachter benötigt man, wenn insgesamt die Wahrscheinlichkeit dass ein Signal übersehen wird (Ereignis A), nicht größer als 0,01 sein soll? Lösung: Sei Ai das Ereignis „Das Signal wird von Beobachter i übersehen“. Dann gilt P(Ai)=0,2. Da die Beobachter unabhängig voneinander arbeiten, gilt: n P(A)= P ( A1 ∩ A2 ∩ ⋯ ∩ An ) = P( A1 ) P( A2 ) P( A3 ) ⋅ ⋯ ⋅ P( An ) =(0,2) . 0,2 n ≤ 0,01 . Daraus folgt durch Logarithmieren : log(0,2 n ) = n log(0,2) ≤ log(0,01) . Bei der Auflösung der Gleichung nach n muss man durch den negativen Wert log(0,2) dividieren; dadurch kehrt sich das Relationszeichen um. Wir erhalten: log(0,01) n≥ = 2,86 . Das heißt, dass mindestens 3 Beobachter nötig sind. log(0,2) Die geforderte Bedingung war: Übungsaufgaben 1.17 Aus 11 Buchstaben „m“, „i“, „i“, „i“, „i“, „s“, „s“, „s“, „s“, „p“, „p“ wird zufällig der Reihe nach jeweils einer ausgewählt und zu einem Wort angelegt. Berechnen Sie unter Verwendung des Multiplikationssatzes die Wahrscheinlichkeit dafür, dass das Wort „mississippi“ entsteht! 1.18 Zwei Studenten bearbeiten unabhängig voneinander die gleiche Übungsaufgabe. Jeder der beiden findet die richtige Lösung mit der Wahrscheinlichkeit 0,6. Wie groß ist die Wahrscheinlichkeit dafür, dass mindestens einer der beiden die Aufgabe richtig löst? 1.19 Ein System besteht aus 4 Elementen, die wie folgt angeordnet sind: Das System verhält sich wie bei Reihen- und Parallelschaltungen. Es funktioniert, wenn mindestens eine Reihe funktioniert. Eine Reihe funktioniert, wenn alle Elemente der Reihe funktionieren. Jedes Element arbeitet unabhängig von den anderen mit der gleichen Wahrscheinlichkeit p=0,9, d.h. fällt mit der Der Wahrscheinlichkeitsraum - 17 - Wahrscheinlichkeit 0,1 unabhängig von den anderen Elementen aus. a) Wie groß ist die Wahrscheinlichkeit dafür, dass das System S funktioniert? b) Wie groß ist die Wahrscheinlichkeit dafür, dass Element 3 funktioniert unter der Bedingung, dass das System S funktioniert ? c) 1.4 Sind die Ereignisse „Das System S funktioniert“ und „Das Element 3 funktioniert“ stochastisch unabhängig? Totale Wahrscheinlichkeit und Bayes’sche Formel Oft liegen Wahrscheinlichkeiten für ein vollständiges System von Ereignissen A1, A2,..., An vor, sowie die Wahrscheinlichkeiten P(B/Ai) für das Eintreten eines weiteren Ereignisses B unter der Bedingung Ai und es ist P(B) und/oder P(Ai/B) gesucht. Sind A1, A2,..., An ein vollständiges System von Ereignissen, so gilt: B = ( A1 ∩ B) ∪ ( A2 ∩ B) ∪ ⋯ ∪ ( An ∩ B) , wobei alle Ereignisse ( Ai ∩ B) und ( A j ∩ B ) paarweise für i≠j disjunkt sind. Nach Axiom n 3 Formel der Totalen Wahrscheinlichkeit der n Wahrscheinlichkeit erhalten wir dann P(B) = P (∪( Ai ∩ B )) = ∑ P ( Ai ∩ B ) i =1 i =1 und aus dem Multiplikationssatz für 2 Ereignisse folgt daraus n P(B) = ∑ P ( Ai ) P( B / A i ) . i =1 Diese Formel wird als Formel der totalen Wahrscheinlichkeit bezeichnet. Der Engländers Thomas Bayes entwickelte im Jahre 1764 eine Formel für die Wahrscheinlichkeit des Eintreten von Aj unter der Voraussetzung, dass B eingetreten ist und unternahm damit als erster den Versuch, für statistische Schlüsse logische Grundlagen anzugeben. Satz: (Formel von Bayes) Sind A1, A2,..., An ein vollständiges System von Ereignissen und B ein weiteres Ereignis, so gilt: Satz von Bayes - 18 – Stochastik P ( A j | B) = P ( A j ∩ B) P( B ) = P( A j ) P( B / A j ) n . ∑ P ( A ) P( B / A ) i =1 i i Eine besondere Bedeutung dieser Formel liegt in folgender Überlegung: Angenommen, eine direkte Beobachtung der Ereignisse A1,...,An ist nicht möglich und man hat auf irgendeine Weise aber eine Anfangs-Information über deren Wahrscheinlichkeiten P(A1),..,P(An) erhalten. Diese werden als apriori-Wahrscheinlichkeiten bezeichnet. Beobachtet man nun bei Durchführung des zufälligen Versuchs das Ereignis B, so ist man bestrebt, diese Information zur verbesserten Entscheidungsfindung darüber zu verwenden, welches der Ereignisse A1,...,An eingetreten ist. In diesem Zusammenhang pflegt man die Wahrscheinlichkeiten P(A1/B), ..., P(An/B) als a-posteriori-Wahrscheinlichkeiten zu bezeichnen. Eine andere Anendung dieser Formel besteht darin, die Trennschärfe eines beobachteten Ereignisses B für die Entscheidung, dass ein Ereignis Ai eingetreten ist, zu beurteilen. Entscheidet man sich bei Auftreten von B für das Ereignis Ai, so wird P(Aj/B) für i≠j als Irrtumswahrscheinlichkeit bei dieser Entscheidung interpretiert. Beispiel: Ein Übertragungssystem sendet und empfängt die Zeichen 0 und 1 (Ereignisse S0 und S1). In 80 % aller Fälle wird eine 0 in 20 % aller Fälle eine 1 gesendet. Die Übertragung ist fehlerbehaftet. Die Wahrscheinlichkeit dafür, dass eine 1 empfangen wird (Ereignis E1), unter der Bedingung, dass eine 0 gesendet wurde, beträgt 0,01. Die Wahrscheinlichkeit dafür, dass eine 0 empfangen wurde (E0) unter der Bedingung, dass eine 1 gesendet wurde, ist 0,02. Wir stellen uns nun auf den Standpunkt, dass wir nur die empfangenen Zeichen beobachten können. Es werden nur die Zeichen 0 und 1 empfangen. a) In wieviel % aller Fälle wird eine 1 empfangen und b) wie groß ist die Wahrscheinlichkeit dafür, dass tatsächlich auch eine 1 gesendet wurde, wenn eine 1 empfangen wurde? Lösung: Offensichtlich bilden S0 und S1 ein vollständiges Ereignissystem. Gegeben sind folgende Wahrscheinlichkeiten: P(S0)=0,8, P(S1)=0,2, P(E1/S0)=0,01 und P(E0/S1)=0,02. Gesucht sind a) P(E1) und b) P(S1/E1). Gemäß der Formel der totalen Wahrscheinlichkeit gilt: P ( E1) = P( S 0) P ( E1 | S 0) + P( S1) P( E1 | S1) . Da nur die Zeichen 0 und 1 empfangen werden, P ( E1 | S1) = 1 − P ( E 0 | S1) = 1 − 0,02 = 0,98 und wir erhalten für a) P ( E1) = 0,8 ⋅ 0,01 + 0,2 ⋅ 0,98 = 0,204 ist Der Wahrscheinlichkeitsraum Wir sehen, dass die Wahrscheinlichkeit dafür, eine 1 zu empfangen sich als bewichtetes Mittel der Wahrscheinlichkeiten ergibt, eine 1 zu empfangen, wenn tatsächlich eine 1 gesendet wurde und eine 1 zu empfangen, wenn keine 1 gesendet wurde. Aufgrund des Übertragungsfehlers empfangen wir etwas mehr Einsen als gesendet wurden. Für die Wahrscheinlichkeit b) ergibt sich nach der Bayes’schen Formel: P ( S1 | E1) = P ( S1) P( E1 / S1) 0,2 ⋅ 0,98 = ≈ 0,96 . P( E1) 0,204 Übungsaufgaben 1.20 Wir wollen die Zuverlässigkeit eines SPAM-Filters untersuchen, dabei nehmen wir an, dass wir genau wissen, was eine SPAM ist!. Unser SPAM-Filter arbeitet wie folgt: Es werden alle Texte als SPAM eingestuft, in denen das Wort „Viagra“ vorkommt. In jedem anderen Fall werden die Texte als O.K. eingestuft. Es soll die Zuverlässigkeit dieses SPAM-Filters, d.h., die Trennschärfe des Wortes „Viagra“ untersucht werden. Aus Untersuchungen von Texten sei bekannt, dass 20 % aller Texte SPAM’s sind. Es sei weiterhin bekannt, dass in 90% aller Texte, die tatsächlich SPAM’s sind, das Wort „Viagra“ vorkommt, aber leider auch in 1% aller Texte, die keine SPAM’s sind. a) Wie groß ist die Wahrscheinlichkeit dafür, dass ein Text, der als SPAM eingestuft wurde auch wirklich ein SPAM ist? b) Wie groß ist die Wahrscheinlichkeit dafür, dass ein nicht als SPAM eingestufter Text ein SPAM ist? 1.21 Eine Firma bezieht jeweils 30 %, 20% bzw. 50% von benötigten Teilen von 3 verschiedenen Zulieferern Z1, Z2 bzw. Z3. Über die Ausschussrate (Anteil der defekten Teile unter den gelieferten) sei bekannt, dass sie bei Z1 1%, bei Z2 und Z3 2% bzw. 0,5 % beträgt. a) Wie viel % Ausschuss (Ereignis A) erhält die Firma insgesamt? b) Mit welcher Wahrscheinlichkeit stammt ein defektes Teil von Z1? - 19 - - 20 – Stochastik 2 Zufallsgrößen In diesem Kapitel wird der Begriff der Wahrscheinlichkeit auf Zufallsgrößen erweitert. Es wird der Begriff Zufallsgröße eingeführt und es wird erläutert, wie Wahrscheinlichkeitsverteilungen von Zufallsgrößen mathematisch beschrieben werden. Wir unterscheiden dabei zwischen diskreten und stetigen Zufallsgrößen, die sich hinsichtlich der Modellierung ihrer Verteilungen grundsätzlich unterscheiden. Nach Durcharbeiten dieses Kapitels können Sie • • • • • 2.1 diskrete und stetige Zufallsgrößen voneinander unterscheiden, auf der Basis einer gegebenen Wahrscheinlichkeitsverteilung Wahrscheinlichkeiten für eine diskrete Zufallsgöße berechnen, auf der Basis einer gegebenen Verteilungsdichte oder Verteilungsfunktion Wahrscheinlichkeiten einer stetigen Zufallsgröße berechnen, spezielle diskrete Verteilungen (Gleichverteilung, Binomialverteilung und Poissonverteilung) und spezielle stetige Verteilungen (stetige Gleichverteilung, die Exponentialverteilung und die Normalverteilung) voneinander unterscheiden und typischen Anwendungsfällen zuordnen, sowie auf ihrer Basis Wahrscheinlichkeiten für praktische Anwendungen berechnen, typische Parameter von Verteilungen von Zufallsgrößen, wie Erwartungswert, Varianz und Quantile berechnen und interpretieren. Begriff der Zufallsgröße Es gibt viele praktische Anwendungsfälle, in denen nicht die elementaren Versuchsausgänge ω, sondern aus diesen abgeleitete reelle Größen X(ω), die sogenannten Zufallsgrößen, interessieren. Zufallsgrößen kann man auch als Abbildungen von Ω in die Menge der reellen Zahlen auffassen: X: ω∈Ω→X(ω)∈R. Bei der zufälligen Auswahl einer Person könnte z.B. ω der Name der Person und X(ω) ihr Einkommen oder ihr Alter sein. In der Qualitätskontrolle könnte X(ω) die Anzahl der defekten Teile in einem Los bestehend aus n Teilen sein. ω ist dann ein n-Tupel, bestehend aus den Zahlen 0 (Teil ist OK) und 1 (Teil ist defekt), X(ω) wäre gleich der Summe der Elemente von ω. Andere Beispiele sind die zufällige Anzahl der Kunden in Zufallsgrößen einem Postamt, die zufällige Anzahl der defekten Sektoren auf einer Festplatte, die zufällige Zeit, die zwischen dem Eintreffen zweier Nachrichten vergeht, die zufällige durchschnittliche Temperatur und Niederschlagsmenge in einem bestimmten Monat an einem bestimmten Ort, das alles sind Zufallsgrößen. In allen diesen Fällen interessiert uns nicht, mit welcher Wahrscheinlichkeit P(A) ein Ereignis A⊆Ω eintreten wird, sondern uns interessiert, mit welcher Wahrscheinlichkeit X Werte in einer Menge B⊆R annimmt, also PX (B). Fassen wir Ereignisse B⊆R zu einem Ereignisfeld E zusammen und fordern wir, dass für jedes Ereignis B∈E das zugehörige −1 Urbildereignis X ( B ) = {ω ∈ Ω | X (ω ) ∈ B} =AB in dem Ereignisfeld ℑ(Ω) von Ω liegt und dass P ein Wahrscheinlichkeitsmaß auf ℑ(Ω) ist, so kann man die Wahrscheinlichkeit eines beliebigen Ereignisses B∈E auf „natürliche“ Weise“ bestimmen zu: PX ( B) = P({ω ∈ Ω | X (ω ) ∈ B}) =P(AB) D.h., durch eine Zufallsgröße X wird der Wahrscheinlichkeitsraum [Ω,ℑ (Ω),P] in den Wahrscheinlichkeitsraum [X,E,PX] transformiert, wobei X⊆R der Wertebereich von X ist. PX besitzt wegen dieser Transformation alle Eigenschaften eines Wahrscheinlichkeitsmaßes (auf E). Für Zufallsgrößen verwenden wir im folgenden große lateinische Buchstaben X,Y,T,Z,..., für ihre Wertebereiche die zugehörigen Buchstaben in Frakturschrift X, Y, T, Z,... , und für die Realisierungen (konkreten Beobachtungen) der Zufallsgrößen kleine lateinische Buchstaben x,y,z,t,... . Wir verwenden folgende Schreibweise für Ereignisse: X∈B (statt B) und schreiben: X=x , falls B={x}; X ≤ b, falls B={x∈X|x≤b}; a<X<b, falls B={ x∈X|a<x<b} usw. . Für die Wahrscheinlichkeit PX schreiben wir im folgenden der Einfachheit halber nur P. - 21 - - 22 – Stochastik 2.2 2.2.1 Diskrete Zufallsgrößen Diskrete Zufallsgröße und ihre Wahrscheinlichkeitsverteilung Eine Zufallsgröße X heißt diskret, falls ihr Wertebereich X endlich oder abzählbar unendlich ist, falls also gilt: X={a1,a2,...,ak}, k∈N, k≤ ∞, ai∈R. Bei diskreten Zufallsgrößen interessierenden Ereignisse der Form: X∈B, B⊆X., die in dem Ereignisfeld E=ℑ(X) zusammengefasst sind. D.h. wir wollen ein Wahrscheinlichkeitsmaß P auf dem Ereignisfeld E angeben. Ein solches Maß ist eindeutig durch die Einzelwahrscheinlichkeiten pi=P(X=ai) bestimmt. Definition: Sei P ein Wahrscheinlichkeitsmaß auf dem Ereignisfeld E=ℑ(X). Als (Einzel-)Wahrscheinlichkeitsverteilung P einer diskreten Zufallsgröße, bezeichnet man die Gesamtheit der Einzelwahrscheinlichkeiten pi=P(X=ai), i=1,..., k. Die Einzelwahrscheinlichkeiten lassen sich in Tabellenform angeben: Wert ai P(X=ai) a1 a2 a3 a4 ... p1 p2 p3 p4 ... ak pk Offensichtlich gilt (da P ein Wahrscheinlichkeitsmaß ist) für die Einzelwahrscheinlichkeiten: 0 ≤ pi ≤ 1 für alle i=1,2,...,k und k ∑p i =1 i = 1. Mit Hilfe der Einzelwahrscheinlichkeiten kann man die Wahrscheinlichkeit für jedes beliebige Ereignis X∈B, B⊆X, berechnen. Sei B={a1*,a2*,...,am*}. Da die Ereignisse X=ai* und X=aj* für i* ≠ j* disjunkt sind, gilt gemäß Axiom 3 für Wahrscheinlichkeitsmaße : P(X∈B) = P( (X=a1*) ∪...∪ (X=am*))= m m i =1 i =1 ∑ P ( X = a i* ) = ∑ p i* Beispiel: X sei die Anzahl der ‚Köpfe’ beim zweimaligen Münzwurf. Gesucht ist die Wahrscheinlichkeitsverteilung von X. Lösung: Der Wertebereich von X ist X={0,1,2}. Gesucht sind die Einzelwahrscheinlichkeiten pi = P(X=i), i=0,1,2.. Unser Versuch hat die folgenden elementaren Versuchsausgänge: (K,Z),(Z,K),(K,K),(Z,Z), (K=’Kopf’, Z=’Zahl’), wobei das erste Element der Tupel das Ergebnis des ersten Wurfes Zufallsgrößen - 23 - und das zweite Element das Ergebnis des 2.Wurfes repräsentiert. offensichtlich folgende Abbildung: X ist Das heiß, das Ereignis „X=0“ ist äquivalent zu A0={(Z,Z)}, „X=1“ ist äquivalent zu A1={(K,Z),(Z,K)}, „X=2“ bedeutet, dass A2={(K,K)}eingetreten ist, und wir erhalten wegen P(X=i) = P(Ai) in Anwendung der Regel P(Ai)=|Ai|/|Ω| der klassischen Wahrscheinlichkeit folgende Tabelle: i pi=P(X=i) 0 1/4 1 1/2 2 1/4 Die Wahrscheinlichkeit, dass beim zweimaligen Münzwurf mindestens einmal Kopf auftritt, ist offensichtlich P(X ≥ 1) = p1 +p2 = 3/4. Beispiel: Wie groß ist die Wahrscheinlichkeit dafür, beim 3maligem Würfeln mindestens 2 Sechsen zu würfeln? Lösung: Sei X=“die Anzahl der Sechsen beim 3maligen Würfeln“. Dann ist X ∈ X={0,1,2,3}. Gesucht ist P(X ≥ 2) = p2 + p3, wobei pi=P(X=i) ist. Wir bestimmen nun die Einzelwahrscheinlichkeitsverteilung von X. Dazu müssen wir nicht unbedingt Ω und die Abbildung X:Ω→ X genau bestimmen, sondern wir können eleganterweise auch wie folgt vorgehen. Sei Xi folgende Zufallsgröße, die das Ergebnis des i.ten Wurfes beschreibt: 0 falls ' keine 6 ' Xi = 1 falls ' eine 6' Offensichtlich ist nach den Regeln der klassischen Wahrscheinlichkeit P(Xi=1)=1/6 und P(Xi=0)=5/6. Darüber hinaus gilt die Äquivalenz folgender Ereignisse: X = 3 ⇔ X 1 = 1 ∩ X 2 = 1 ∩ X 3 = 1 ; X = 2 ⇔ ( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 1) ∪ ( X 1 = 1 ∩ X 2 = 0 ∩ X 3 = 1) ∪ ( X 1 = 1 ∩ X 2 = 1 ∩ X 3 = 0) usw., usf. Wir wollen nun beispielsweise P(X=2) berechnen. Die durch ∪ verknüpften Teilereignisse der rechten Seite der Äquivalenz zu ‚X=2’ sind alle disjunkt. Nach Axiom 3 der Wahrscheinlichkeit gilt folglich: - 24 – Stochastik P( X = 2) = P( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 1) + P( X 1 = 1 ∩ X 2 = 0 ∩ X 3 = 1) + P( X 1 = 1 ∩ X 2 = 1 ∩ X 3 = 0) Die 3 Ereignisse ' X 1 = e1 ' , ' X 2 = e2 ' , ' X 3 = e3 ' , ei ∈ {0,1} , sind gegenseitig stochastisch unabhängig (d.h., das Ergebnis eines Wurfes beeinflusst die Ergebnisse der anderen Würfe nicht). Demzufolge kann man auf die Verbundwahrscheinlichkeiten die Produktformel für unabhängige Ereignisse anwenden, beispielsweise gilt: P ( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 1) = P ( X 1 = 0) ⋅ P( X 2 = 1) ⋅ P ( X 3 = 1) = 5 1 1 ⋅ ⋅ 6 6 6 Wir erhalten: 5 1 1 1 5 1 1 1 5 1 1 5 ⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ = 3 ⋅ ⋅ ⋅ ≈ 0,069 6 6 6 6 6 6 6 6 6 6 6 6 1 1 1 und P ( X = 3) = ⋅ ⋅ ≈ 0,005 . 6 6 6 P ( X = 2) = Die Wahrscheinlichkeit, beim 3 maligen Würfeln mindestens 2 mal die 6 zu würfeln ist also P(X ≥ 2) = p2 + p3 = 0,074. Übungsaufgaben 2.1 Bestimmen Sie die vollständige Wahrscheinlichkeitsverteilung der Zufallsgröße X=„Anzahl der Sechsen beim 3maligen Würfeln“! 2.2 Wie groß ist die Wahrscheinlichkeit dafür, dass beim Würfeln mit zwei Würfeln die Summe der Augenzahlen 6, 7 oder 8 ist? 2.3 Ein Eisverkäufer erzielt bei schönem Wetter einen Tagesgewinn von 100 Euro und bei Regen von 50 Euro. Bei Schneefall macht er 40 Euro Verlust, ebenso macht er einen Verlust von 20 Euro bei starkem Wind (ohne Regen und Schnee). Aus den Wetterberichten der letzten Jahre sei bekannt, dass die Wahrscheinlichkeit für schönes Wetter 0,5, für Regen 0,25, für Schneefall 0,15 und für starken Wind 0,1 beträgt. Wie groß ist die Wahrscheinlichkeit dafür, dass der Eisverkäufer keinen Verlust am Tag erzielt? Zufallsgrößen 2.2.2 - 25 - Spezielle diskrete Wahrscheinlichkeitsverteilungen Im folgenden stellen wir einige Standardmodelle für Verteilungen diskreter Zufallsgrößen vor. Definition: In einem zufälligen Versuch wird beobachtet, ob ein Ereignis A eintritt oder nicht. Wir können das durch die folgende Zufallsgröße X abbilden: eintritt (Misserfolg) 0 falls A nicht X = 1 falls A eintritt (Erfolg) Zweipunktverteilung P(X=0)=1 - p P(X=1)=p Die Verteilung von X heißt Zweipunkt- oder Bernoulliverteilung, p = P(X=1) heißt Erfolgswahrscheinlichkeit. In Verallgemeinerung der Zweipunktverteilung entsteht die sogenannte Binomialverteilung. Definition: Wir gehen von einem zweipunktverteilten Versuch mit Erfolgswahrscheinlichkeit p aus. X sei die Anzahl der Erfolge bei n maliger stochastisch unabhängiger Wiederholung des zweipunktverteilten Versuchs. X hat dann den Wertebereich {0,1,...,n} und besitzt die folgende als Binomialverteilung mit den Parametern n und p bezeichnete Verteilung: n pi = P( X = i) = p i (1 − p) n −i , i i=0,1,...,n. Wir schreiben: X~B(n,p). Beispiel: In einer Mathematik-Klausur werden 6 Aufgaben zu je drei Antwortalternativen gestellt, von denen jeweils nur eine richtig ist. Wie groß ist die Wahrscheinlichkeit dafür, dass ein Student mehr als 4 Aufgaben nur durch Raten richtig beantwortet (und damit unverdient eine 1 bekommt)? Lösung: Für jede Aufgabe i erhalten wir eine zweipunktverteilte Zufallsgröße Xi, wobei Xi=1 ist, falls die Aufgabe i richtig geraten wird. Die Erfolgswahrscheinlichkeit ist p=P(Xi =1) =1/3. Da die Lösung stets geraten wird, hängt das Ergebnis für eine Aufgabe nicht vom Ergebnis der anderen Aufgaben ab. Wir haben es also mit einer n=6 fachen stochastisch unabhängigen Wiederholung eines zweipunktverteilten Versuches mit Erfolgswahrscheinlichkeit p=1/3 zu tun. Die Zufallsgröße X=’Anzahl der Binomialverteilung - 26 – Stochastik richtig geratenen Aufgaben’ ist also binomialverteilt mit n=6 und p=1/3 und wir erhalten die Lösung: 6 6 13 P( X > 4) = P( X = 5) + P( X = 6) = (1 / 3) 5 (2 / 3) + (1 / 3) 6 (2 / 3) 0 = 6 3 5 6 ≈0,018. Das heißt, unser nicht erwünschte Fall kommt bei 1000 Studenten, die die Klausur nur durch Raten absolvieren, ca. 18 mal vor. (Glücklicherweise sind die Studenten aber alle fleißig und lösen eine Klausur selten durch Raten.) Gleichverteilung Definition: Eine Zufallsgröße X besitzt eine (diskrete) Gleichverteilung auf der endlichen Menge X={a1,a2,...,ak}, wenn sie die Werte a1,a2,...,ak mit derselben pi = P( X = ai ) = Wahrscheinlichkeit 1 k für alle i=1,...,k, annimmt. X beschreibt eine Auswahl „auf gut Glück“ aus der Menge ={a1,a2,...,ak}. Wir schreiben: X~ R({a1,a2,...,ak}). Poissonverteilung Definition: Eine Zufallsgröße X besitzt eine Poissonverteilung (ist poisson-verteilt) mit dem Parameter λ>0, wenn sie die Werte 0,1,2,.... mit den Wahrscheinlichkeiten pi = P( X = i) = λi i! e −λ , i=0,1,2,.... annimmt. Wir schreiben: X~P(λ). Die Poissonverteilung findet als Modell oft Anwendung, wenn eine Zufallsgröße X zählt, wie viele von einer großen Anzahl von unabhängigen Ereignissen mit recht kleiner Wahrscheinlichkeit eintreten Sie dient für λ= n⋅p als Approximation der Binomial-Wahrscheinlichkeiten für große n und kleine p (Empfehlung: n > 20, p < 0,01), denn man kann zeigen, dass gilt: lim p →0 n →∞ np = λ ( konstant ) n i λi p (1 − p ) n −i = e −λ i! i Wie wir im Abschnitt 2.4 sehen werden, lässt sich λ als arithmetisches Mittel der Beobachtungen von X in einer langen Reihe von wiederholten Beobachtungen von X interpretieren. Beispiel: Die Anzahl X der Anrufe, die in einer Telefonzentrale zwischen 22 und 23 Uhr eintreffen, sei poissonverteilt mit dem Parameter λ=5 (d.h., im Schnitt treffen in diesem Zeitraum ca. 5 Anrufe ein.) Man unterstellt, dass die Telefonzentrale eine große Anzahl von Kunden bedient, von denen jeder Zufallsgrößen - 27 - unabhängig vom anderen im fraglichen Zeitraum anrufen wird. Die Wahrscheinlichkeit, dass in dieser Zeit höchstens 2 Anrufe eintreffen, beträgt: P ( X ≤ 2) = P ( X = 0) + P ( X = 1) + P ( X = 2) = e −5 + 5e −5 + 25 −5 e = 0,12 . 2 Übungsaufgaben 2.4 Eine Firma, die CD-RW’s herstellt, gibt Ihre Ausschussrate (Anteil der defekten CD-RW’s an allen) mit 1 % an. Wie groß ist die Wahrscheinlichkeit dafür, dass in einem Paket von 10 CD-RW’s mehr als 1 defekt ist? Hinweis: Überlegen Sie sich zunächst, wie die Zufallsgröße X definiert werden kann und welches Verteilungsmodell für sie in Frage kommt! 2.5 Die Anzahl X der pro ms eintreffender Signale in einer Empfängerstation sei poissonverteilt mit dem Parameter λ=3 (d.h., im Schnitt treffen ca. 3 Signale pro ms ein). Wie groß ist die Wahrscheinlichkeit dafür, dass die Kapazität K=5 Signale/ms der Empfängerstation überschritten wird? 2.3 2.3.1 Stetige Zufallsgrößen Stetige Zufallsgrößen, Verteilungsfunktion Verteilungsdichte und Wir betrachten nun Zufallsgrößen, deren Wertebereich X gleich der Menge R der reellen Zahlen oder ein (endliches oder unendliches) Teilintervall von R ist, und für die |X|=∞ ist. Die Wahrscheinlichkeitsverteilung P einer solchen Zufallsgröße lässt sich nicht mehr durch die Einzelwahrscheinlichkeiten P(X=x) beschreiben, denn diese sind i.A. gleich Null (Nach den Regeln der klassischen Wahrscheinlichkeit wäre beispielsweise P(X=x)= 1/|X|=0). Die für praktische Zwecke bei einer stetigen Zufallsgröße interessierenden - 28 – Stochastik Ereignisse sind deshalb nicht mehr von der Form „X=x“, sondern von der Form X∈B, wobei B sogenannte Borelmengen in R sind. Borelmengen sind nicht alle Teilmengen von R, sondern nur die, die sich durch die Operationen ∪, ∩ und Komplementbildung aus halboffenen Intervallen (-∞,x], x∈R, bilden lassen. Hierzu gehören u.a. alle offenen, halboffenen und geschlossenen Intervalle, also Ereignisse der Form: X< a, X ≤ a, X > b, X ≥ b, a < X < b, a ≤ X < b, a < X ≤ b, a ≤ X ≤ b, für a ≤ b (einschließlich a=-∞ und b=∞). Bei stetigen Zufallsgrößen tritt an die Stelle der Einzelwahrscheinlichkeitsverteilung die sogenannte Dichtefunktion f(x). Während wir bei diskreten Zufallsgrößen die Wahrscheinlichkeit P(X ∈B) durch eine Summe der Einzelwahrscheinlichkeiten beschrieben haben: P(X∈B) = ∑ P(X = a ) = ∑ p i i:ai ∈B i:ai ∈B i werden wir bei stetigen Zufallsgrößen diese Wahrscheinlichkeit durch ein Integral darstellen: P(X∈B) = ∫ f ( x)dx x: x∈B Stetige Zufallsgröße, Dichtefunktion Definition: Eine Zufallsgröße X heißt stetig, wenn (in Verallgemeinerung der Einzelwahrscheinlichkeiten) eine integrierbare Funktion f:R→R mit folgenden Eigenschaften existiert: (D1) f(x) ≥ 0 für alle x∈R ∞ (D2) ∫ f ( x)dx = 1 −∞ b (D3) P (a < X ≤ b) = ∫ f ( x)dx für alle a,b∈R. a Die Funktion f heißt Dichtefunktion oder kurz Dichte von X. Abbildung 1: Dichte f einer stetigen Zufallsgröße Als Konsequenz der Eigenschaft (D3) ergibt sich für alle c∈R: P(X=c)=0. Bei einer stetigen Zufallsgröße sind deshalb die Wahrscheinlichkeiten z. B. folgender Ereignisse gleich: Zufallsgrößen - 29 - X< a und X ≤ a, sowie X>b und X≥ b, sowie a < X < b, a ≤ X < b, a < X ≤ b, und a ≤ X ≤ b. Da sich Intervalle bzw. beliebige Borelmengen stets aus den halboffenen Intervallen (-∞,x], x∈R, durch Anwendung der Operationen ∪, ∩ und Komplementbildung erzeugen lassen, kann man die Wahrscheinlichkeiten P(X∈B) beliebiger Borelmengen B auch aus den Wahrscheinlichkeiten P(-∞<X ≤ x)=P(X ≤ x) erzeugen. Deshalb spielt bei stetigen Zufallsgrößen die sogenannte Verteilungsfunktion, die durch x F(x) = P(X ≤ x)= ∫ f (u)du −∞ definiert ist, eine zentrale Rolle. Wahrscheinlichkeitsverteilungen stetiger Zufallsgrößen sind durch die Angabe der Dichtefunktion f(x) oder der Verteilungsfunktion F(x) eindeutig bestimmt, wobei es oft bequemer ist, mit der Verteilungsfunktion zu arbeiten. Die Intervallwahrscheinlichkeiten in (D3) lassen sich z.B. mit Hilfe der Verteilungsfunktion wie folgt berechnen: P (a < X ≤ b) = F (b) − F (a ). Offensichtlich kann man die Dichtefunktion bestimmen, wenn man die Verteilungsfunktion kennt, es gilt: F’(x)=f(x). 2.6 Deuten Sie die Verteilungsfunktion einer stetigen Zufallsgröße mit Hilfe von Abbildung 1 grafisch! 2.7 Stellen Sie die Wahrscheinlichkeit P(X > b) mit Hilfe der Verteilungsfunktion F und mit Hilfe der Dichtefunktion f dar! 2.8 Stellen Sie die Wahrscheinlichkeiten P(X ≤ b), P(X>a), P(a ≤ X ≤ b), P(|X – a|≥ b) grafisch als Fläche unter der Dichtefunktion f dar! Warum ist die in Abb. a) gegebene Funktion k e i n e Dichtefunktion? Warum sind die in Abb. b) und c) gegebenen Funktionen k e i n e Verteilungsfunktionen? 2.9 a) b) c) Verteilungsfunktion - 30 – Stochastik 2.3.2 Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten und Quantile Wir können auch bedingte Wahrscheinlichkeiten berechnen. Für die Ereignisse A = ' X ≥a ' und B = 'X ≤ b' gilt: P(B/A) = P ( A∩ B)/ P ( A ). Folglich ist P( X ≤ b | X ≥ a) = P(a ≤ X ≤ b) F (b) − F (a) = 1 − F (a ) P( X ≥ a) Abbildung 2: α-Quantil Veranschaulichung der bedingten Wahrscheinlichkeit Manchmal interessiert nicht die Wahrscheinlichkeit dafür, mit der eine zufällige Größe einen vorgegebenen Wert nicht überschreitet, sondern es interessiert der Wert x, der von X mit einer vorgegebenen Wahrscheinlichkeit α nicht überschritten wird. Das sind die sogenannten Quantile. Definition: Wir bezeichnen den kleinsten Wert xα aus dem Definitionsbereich von X, für den gilt: P( X ≤ xα ) ≥ α als α - Quantil der Verteilung von X. Quantile spielen insbesondere bei stetigen Verteilungen eine Rolle. Ist F die Verteilungs- und f die Dichtefunktion einer stetigen Zufallsgröße X, so erfüllt ein α-Quantil xα offenbar die Beziehung: P ( X ≤ xα ) = F ( xα ) = xα ∫ f ( x)dx = α −∞ Abbildung 3: α-Quantil einer stetigen Verteilung Zufallsgrößen - 31 - Ist die Verteilungsdichte − xα = x1−α .. von X symmetrisch, so gilt offensichtlich Beispiel: Sei X eine Zufallsgröße mit der Verteilungsfunktion 0 falls x < 2 F ( x) = x −3 2 falls 2 ≤ x ≤ 5 1 falls x > 5 Ofensichtlich hat X dann die Dichtefunktion 0 falls x < 2 oder x > 5 f ( x) = 1 2≤ x≤5 3 falls Abbildung 4: Dichte- und Verteilungsfunktion für unser Beispiel Die Gesamtfläche unter der Dichte ist gleich 1. Die Fläche unter der Dichte von -∞ bis x=3 entspricht dem Funktionswert der Verteilungsfunktion F (3) an der Stelle x=3. Die Größe der Fläche unter der Dichte zwischen 3 und 5 ist 5 ∫ f ( x)dx = F (5) − F (3) = 1-1/3 = 2/3 und gleich der Wahrscheinlichkeit 3 P (3 ≤X ≤ 5) dafür, dass X zwischen 3 und 5 liegt (siehe Abbildung 5a). 5a Abbildung 5: 5b Veranschaulichung der Wahrscheinlichkeiten für unser Beispiel - 32 – Stochastik Die bedingte Wahrscheinlichkeit dafür, dass X kleiner als 4 ist, unter der Bedingung (Voraussetzung), dass X ≥ 3 ist: 2 1 − P(3 < X < 4) F (4) − F (3) 3 3 1 = = = P( X ≤ 4 | X ≥ 3) = 1 2 1 − F (3) P( X ≥ 3) 1− 3 D.h., in 50 Prozent aller Fälle, in denen X einen Wert ≥ 3 besitzt, ist dieser kleiner als 4, siehe Abbildung 5b. Das 0.9-Quantil der Verteilung ist gegeben durch die Gleichung: x0 , 9 ∫ f ( x)dx = 0,9. −∞ x0 , 9 Wir erhalten: 1 ∫ f ( x)dx = 0,9 ⇔ 3 ( x 0,9 − 2) = 0,9 ⇔ x0,9 = 2,7. −∞ D.h. nur 10% aller Beobachtungen von X überschreiten den Wert 4,7. Übungsaufgaben 2.10 Die zufällige Zeit X, die eine Berliner U-Bahn verspätet an einer Station eintrifft, liegt zwischen 0 und 3 Minuten. Die Dichtefunktion ist in folgender Skizze gegeben. Berechnen Sie a) die Verteilungsfunktion von X! b) den Anteil aller Fälle, in denen die Verspätung eine Minute überschreitet! Stellen Sie diesen Anteil grafisch dar! c) die Wahrscheinlichkeit dafür, dass die Verspätung 2 Minuten überschreitet, wenn man bereits eine Minute (Verspätung) auf die U-Bahn gewartet hat! Stellen Sie diese Wahrscheinlichkeit grafisch dar! d) Berechnen und interpretieren Sie das 50%-Quantil der Verteilung von X. Zufallsgrößen 2.3.3 - 33 - Spezielle stetige Verteilungen Wichtige Standardmodelle stetiger Zufallsgrößen sind die Gleichverteilung auf [a,b], die Dreiecksverteilung die Exponentialverteilung und die Normalverteilung. Definition: Eine Zufallsgröße X besitzt eine Gleichverteilung auf dem Intervall [a,b] (ist gleichverteilt auf [a,b]), wenn ihre Dichte die Gestalt besitzt: 1 f ( x) = b − a 0 für Gleichverteilung auf [a,b] a≤ x≤b sonst Wir schreiben: X~R([a,b]). Eine auf [a,b] gleichverteilte Zufallsgröße X beschreibt die Auswahl „auf gut Glück“ eines Punktes aus dem Intervall [a,b]. Der Wertebereich von X ist das Intervall [a,b]. Höhere Programmiersprachen besitzen häufig eine RANDOM – Funktion oder eine built-in-Prozedur ‚RAN’, die bei Aufruf eine Zahl zurückliefert, die als Wert einer auf [0,1] gleichverteilten Zufallsgröße angesehen werden kann. 2.11 Skizzieren Sie die Dichtefunktion gleichverteilten Zufallsgröße! 2.12 Zeigen Sie, dass bei einer auf [a,b] gleichverteilten Zufallsgröße alle Teilintervalle in [a,b] gleicher Länge d die gleiche Wahrscheinlichkeit besitzen! Berechnen Sie diese! Geben Sie die Verteilungsfunktion einer auf [a,b] gleichverteilten Zufallsgröße an und skizzieren Sie diese! 2.13 einer auf [a,b] Wenn man weiß, dass X Werte in [a,b] annimmt und nicht alle Teilintervalle gleicher Länge gleichberechtigt sind, sondern sich Beobachtungen von X um einen Wert c häufen, so kann man als Modell eine sogenannte Dreiecksverteilung wählen. Definition: Eine Zufallsgröße X besitzt eine Dreiecksverteilung auf [a,b] mit der Höhe c, wenn ihre Dichte die Gestalt besitzt: 2( x − a ) (c − a )(b − a) 2(b − x) f ( x) = (b − c)(b − a) 0 falls a ≤ x ≤ c falls c ≤ x ≤ b sonst Dreiecksverteilung - 34 – Stochastik Wir schreiben: X~D([a,c,b]). Exponentialverteilung mit dem Parameter λ 2.14 Skizzieren Sie die Dichtefunktion der Dreiecksverteilung auf [a,b] mit Höhe h! 2.15 Wie groß ist die Höhe h? Warum muss h kleiner werden, wenn das Intervall [a,b] länger wird? Definition: Eine exponentialverteilte Zufallsgröße nimmt Werte im Intervall [0,∞) an. Die Dichte einer Exponentialverteilung mit dem Parameter λ>0 hat die Gestalt: λe − λx f ( x) = 0 für x ≥ 0 für x < 0 Bezeichnung: X~E(λ). Abbildung 6: Dichtefunktion der Exponentialverteilung für verschiedene Parameter λ Die Exponentialverteilung dient oft als Modell für zufällige Abbauzeiten, zufällige Zwischenzeiten zwischen dem Eintreffen zweier Signale in einer Empfängerstation, zufällige Lebensdauern, wie z.B. die Zeit bis zum Ausfall eines technischen Gerätes, die Laufzeit eines Jobs im Computer oder die Zeitdauer eines Telefongespräches. Eine exponentialverteilte Zufallsgröße besitzt eine wichtige Eigenschaft, die sogenannte Vergessens- bzw. Nichtalterungseigenschaft. Diese besagt, das die Wahrscheinlichkeit, ein Zeitintervall der Länge t zu überleben unabhängig davon ist, ob die Zufallsgröße X bereits die Zeit s überlebt hat oder ob die Lebensdauer soeben beginnt. In Formeln ausgedrückt : P(X>s+t/ X>s) = P(X>t) Zufallsgrößen - 35 - Übungsaufgaben 2.16 Berechnen und skizzieren Sie die Verteilungsfunktion einer mit dem Parameter λ exponentialverteilten Zufallsgröße! 2.17 Zeigen Sie, dass für eine exponentialverteilte Zufallsgröße X gilt: P(X>s+t/ X>s) = P(X>t) für alle s,t ∈ R. 2.18 Die zufällige Zeit T (Stunden), die bis zum Abbau einer bestimmten Droge (z.B. ein Glas Wein, 10 cl) im menschlichen Blut vergeht, sei durch folgende Dichtefunktion charakterisiert: 0 falls x < 0 x f ( x) = − 2 falls x ≥ 0 0,5e a) Berechnen Sie die Verteilungsfunktion von X! b) In wieviel Prozent aller Fälle dauert der Abbau länger als 2 Stunden? c) Welche Abbauzeit wird nur in 10 % aller Fälle überschritten? Fertigen Sie alle Teilaufgaben zunächst Skizzen an! Eine für die Theorie und Anwendungen sehr wichtige stetige Verteilung ist die Normalverteilung. Normalverteilungen treten als Modelle für Körpergrößen, Geburtsgewichte, Messfehler, Niederschlagsmengen, landwirtschaftliche Erträge usw. auf. In der Theorie erscheinen Normalverteilungen als Näherungen für andere (auch diskrete) Verteilungen (siehe dazu auch Kapitel 3.2). Definition: Eine mit den Parametern µ und σ normalverteilte Zufallsgröße hat die Dichtefunktion: 2 f ( x) = 1 2πσ e − ( x−µ )2 2σ 2 , -∞ < x < ∞, µ∈R, σ>0. Wir schreiben: X~N(µ,σ2). Das Bild der Dichtefunktion ist die sogenannte Gaußsche Glockenkurve. Sie hat ihren Gipfel bei x=µ und ist umso flacher, je größer σ2 ist. Ihren Namen erhielt Normalverteilung mit den Parametern 2 µ und σ - 36 – Stochastik sie nach C.F. Gauß, der sie bei der Berechnung von Beobachtungsfehlern einführte. Eine besondere Normalverteilung ist diejenige mit den Parametern µ=0 und σ=1, d.h. N(0,1). Sie wird als Standardnormalverteilung bezeichnet. Als Symbol für die Dichtefunktion verwendet man ϕ(x) und für die Verteilungsfunktion Φ(x). Die Quantile der Standardnormalverteilung werden mit uα bezeichnet. 7a: Dichtefunktion der Normalverteilung für einige Werte von µ und σ Abbildung 7: Standardnormalverteilung 7b: Dichtefunktion der Standardnormalverteilung Dichtefunktionen der Normalverteilung Jede beliebige Normalverteilung lässt sich mit Hilfe der Verteilungsfunktion der Standardnormalverteilung berechen, es gilt folgender Satz: Satz: Ist X normalverteilt mit den Parametern µ und σ2, so ist X* =(X-µ)/σ standardnormalverteilt. Man bezeichnet die Zufallsgröße X* als standardisierte Zufallsgröße. Aus diesem Satz folgt: F ( x) = P ( X ≤ x) = P ( X * ≤ x−µ x−µ ) = Φ , d.h. σ σ die Verteilungsfunktion F einer beliebigen Normalverteilung Transformationsvorschrift: erfüllt die x−µ σ F(x) = Φ 2.19 Verdeutlichen Sie sich die folgenden Symmetrieeigenschaften einer Standardnormalverteilung: Φ(-x)=1-Φ(x). 2.20 Sei X normalverteilt mit den Parametern µ= -3 und σ2=4. Bestimmen Sie die standardisierte Zufallsgröße X*! Zufallsgrößen Die Verteilungsfunktion einer beliebigen Normalverteilung ist keine elementare Funktion, die sich einfach als Integral der Dichte bestimmen lässt. Glücklicherweise benötigt man aufgrund des Satzes zu ihrer Bestimmung aber nur die Standardnormalverteilung und deren Verteilungsfunktion und Quantile sind tabelliert, siehe Anhang A, Tabellen A1 und A2. Beispiel: Bei der Herstellung von Kondensatoren sei die Kapazität X eine normalverteilte Zufallsgröße mit den Parametern µ=5 µF und σ=0,02 µF. a) Welcher Ausschussanteil ist zu erwarten, wenn die Kapazität innerhalb des Toleranzbereiches vom Sollwert 5 µF nach oben maximal um 0,03 µF und nach unten maximal um 0,02 µF abweichen darf? b) In welchem Toleranzbereich 5 µF ± c liegen mindestens 90% aller Kapazitätswerte? Lösung: Zu a) Die gesuchte Ausschussrate ist gleich der Wahrscheinlichkeit Es gilt in Anwendung der Transforp=1- P (5 − 0,02 ≤ X ≤ 5 + 0,03) . mationsregel für Verteilungsfunktionen einer Normalverteilung: P(5 − 0,02 ≤ X ≤ 5 + 0,03) = F (5 + 0,03) − F (5 − 0,02) − 0,02 0,03 = Φ = Φ(1,5) − Φ (−1) − Φ 0,02 0,02 Φ(1,5) und Φ(-1) lesen wir aus der Tabelle A1 ab. Es ist Φ(1,5) = 0,9332 und Φ(-1) = 1 - Φ(1) = 1-0,8413 = 0,1587. Daraus ergibt sich die Lösung: p = 1 – (0,9332 – 0,1587) = 0,2255. D.h., ca. 23% aller Kondensatoren sind Ausschuss. Zu b) Hier ist der Wert c gesucht, für den gilt P (| X − 5 |≤ c) ≥ 0,9. Wir lösen dazu diese Ungleichung einfach nach c auf. Es gilt P(| X − 5 |≤ c) ≥ 0,9 ⇔ P(5 − c ≤ X ≤ 5 + c) ≥ 0,9 ⇔ F (5 + c) − F (5 − c) ≥ 0,9 In Anwendung der Transformationsregel für F und unter Beachtung der Symmetrie Φ(-x)=1-Φ(x) der Standardnormalverteilung erhalten wir weiter −c c F (5 + c) − F (5 − c) ≥ 0,9 ⇔ Φ ≥ 0,9 − Φ 0,02 0,02 c c ⇔ 2 ⋅ Φ − 1 ≥ 0,9 ⇔ Φ ≥ 0,95 0,02 0,02 - 37 - - 38 – Stochastik c Φ = 0,95 folgt, dass c/0,02 gleich dem 0,95-Quantil der 0,02 c Standardnormalverteilung ist, also = u 0,95 . Wegen der Monotonie von 0,02 Aus c c ≥ u 0,95 . Demzufolge ist c ≥ 0,02 u 0,95 . ≥ 0,95 : 0,02 0,02 Φ folgt dann aus Φ Das Quantil u 0 ,95 lesen wir aus Tabelle A2 ab und wir erhalten die Lösung: c ≥ 0,02 u 0,95 = 0,02 ⋅ 1,645 = 0,0329. D.h 5 µF ± 0,0329 µF ist der kleinste symmetrische Toleranzbereich um 5 µF, in welchem 90% aller Kapazitätswerte liegen. 1-σ σ-, 2-σ σ- und 3-σ σBereiche Obwohl der Wertebereich einer normalverteilten Zufallsgröße ganz R ist, gibt es ausgezeichnete Intervalle, in welche die Werte von X „normalerweise“ fallen, die sogenannten 1-σ-, 2-σ- und 3-σ-Bereiche. Unabhängig davon, wie groß µ und σ sind gilt für jede Normalverteilung: −σ σ P ( µ − σ < X < µ + σ ) = Φ − Φ = 2Φ (1) − 1 = 0,683 und analog σ σ P ( µ − 2σ < X < µ + 2σ ) = 0,955 und P ( µ − 3σ < X < µ + 3σ ) = 0,997 . Es ist also höchst unwahrscheinlich, das bei einer normalverteilten Zufallsgröße Werte außerhalb des 3-σ-Intervalls [ µ − 3σ , µ + 3σ ] liegen. Übungsaufgaben 2.21 Die Tabelle der Standardnormalverteilung geht nur bis x=3,09. Warum? Wie groß ist Φ(4) und Φ(-4) ? Zufallsgrößen 2.22 - 39 - Das Geburtsgewicht männlicher Neugeborener sei normalverteilt mit µ=3400g und σ2 = (470 g)2. a) Geben Sie das 3-σ-Intervall an! Mit welcher Wahrscheinlichkeit treten Geburtsgewichte außerhalb des 3-σ-Intervalls auf? b) Mit welcher Wahrscheinlichkeit wiegt ein Neugeborener zwischen 2500 g und 4000 g? c) Geben Sie einen symmetrischen Bereich [3400g-c, 3400g+c] um das mittlere Geburtsgewicht an, in dem 90 % aller Geburtsgewichte liegen! 2.4 Erwartungswert und Varianz von Zufallsgrößen Erwartungswert und Varianz sind Kenngrößen, welche die Lage und die Breite der Verteilung einer Zufallsgröße X beschreiben. So wird zum Beispiel die Lage der Normalverteilung auf der reellen Achse durch den Parameter µ gut beschrieben, während durch σ2 die Breite der Verteilung beschrieben wird. Die Glocke ist umso enger um x=µ, je kleiner σ2 ist. Bereits aus der Schule kennen Sie das Bestreben, eine Verteilung durch eine Kenngröße zu beschreiben. Unter der Klassenarbeit standen der Notenspiegel (die Verteilung) und die Durchschnittsnote als Kenngröße. Eine Kenngröße für die Breite der Verteilung wurde leider nicht angegeben. So konnte die Durchschnittsnote 3 erreicht werden, wenn alle Schüler eine 3 schrieben, aber auch, wenn die Hälfte eine 1 und die andere Hälfte eine 5 schrieb. Wir knüpfen an das vertraute Beispiel der Notenverteilung an, um die Formeln für die einzuführenden Kenngrößen der Verteilung einer diskreten Zufallsgröße zu motivieren. Der Notenspiegel sei 1 3 2 5 3 8 4 3 Die Durchschnittsnote berechnet man als x= 1 ⋅ 3 + 2 ⋅ 5 + 3 ⋅ 8 + 4 ⋅ 3 + 5 ⋅1 + 6 ⋅ 0 =2,7 20 Die rechte Seite können wir umformen zu 5 1 6 0 - 40 – Stochastik 0 1 3 8 5 3 + 2⋅ + 3⋅ + 4⋅ + 5⋅ + 6⋅ 20 20 20 20 20 20 = 1 ⋅ hn (1) + 2 ⋅ hn (2) + ... + 6 ⋅ hn (6) x = 1⋅ Hinter den Noten stehen ihre Gewichte, die ihre jeweilige relative Häufigkeit hn(i), das heißt, ihr Anteil am Ganzen. Jede Note wird mit ihrem Gewicht multipliziert und die Produkte werden addiert. Die Durchschnittsnote ist somit ein gewichtetes Mittel. Ersetzen wir die relativen Häufigkeiten durch die Wahrscheinlichkeiten, so erhalten wir den Erwartungswert einer diskreten Zufallsgröße. Erwartungswert einer diskreten Zufallsgröße Definition: Sei X eine diskrete Zufallsgröße mit der Verteilung Wert ai P(X=ai) a1 a2 a3 a4 p1 p2 p3 p4 ... ... ak pk mit k ≤ ∞. Dann heißt die Zahl EX = a1 p1 + a 2 p 2 + ⋯ + a k p k Erwartungswert von X. Der Erwartungswert ist das theoretische gewichtete Beobachtungen von X. EX macht eine Vorhersage über x = Mittel der n 1 ∑ xi in einer n 1 langen Reihe unabhängiger Beobachtungen x1,...,xn von X und umgekehrt: x liefert einen Schätzwert für einen unbekannten Erwartungswert EX. Varianz einer diskreten Zufallsgröße Dasselbe gilt für die sogenannte Varianz Var(X) einer Zufallsgröße X, die ein Maß für die Abweichungen vom Erwartungswert darstellt. Definition: Als Varianz Var(X) einer diskreten Zufallsgröße X bezeichnet man den Erwartungswert der quadratischen Abweichungen der Beobachtungen von X vom Erwartungswert EX: Var ( X ) = (a1 − EX ) 2 p1 + (a 2 − EX ) 2 p 2 + ⋯ + (a k − EX ) 2 p k Die quadratischen Abweichungen werden mit den Wahrscheinlichkeiten gewichtet, mit denen sie auftreten. Die Produkte werden addiert. Die Varianz misst im Sinne dieses gewichteten Mittels die mittlere quadratische Abweichung der Beobachtungen von X vom Erwartungswert EX. Zufallsgrößen - 41 - Im Abschnitt 4 werden wir sehen, dass ein guter Schätzwert für die Varianz auf der Basis von „ausreichend vielen“ Beobachtungen x1,...,xn durch die sogenannte Stichprobenstreuung s2 = 1 n ( xi − x ) 2 ∑ n − 1 i =1 gegeben ist. In den Definitionen für Erwartungswert und Varianz einer stetigen Zufallsgröße tritt an die Stelle der Summe das Integral und an die Stelle der „Gewichte“ pi die Dichtefunktion f(x). Definition: Sei X eine stetige Zufallsgröße mit der Dichtefunktion f. Dann heißt die Zahl EX = ∞ ∫ xf ( x)dx Erwartungswert und Varianz einer stetigen Zufallsgröße −∞ Erwartungswert von X und die Zahl Var ( X ) = ∞ ∫ ( x − EX ) 2 f ( x)dx −∞ Varianz von X. Für die in den vorigen Abschnitten eingeführten speziellen Verteilungen sind die Kenngrößen EX und Var(X) in nachfolgender Tabelle 1 aufgelistet. Definition: Die Wurzel aus der Varianz heißt Standardabweichung und wird i.A. mit σ bezeichnet: σ = Var(X) . Standardabweichung - 42 – Stochastik Verteilung von X Zweipunktverteilung mit Erfolgswahrscheinlichkeit p Binomialverteilung mit den Parametern n und p Poissonverteilung mit Parameter λ Gleichverteilung auf [a,b] Symbol E(X) p Var(X) p(1-p) B(n,p) np np(1-p) P(λ) λ λ R([a,b]) a+b (b − a) 2 2 12 2 a + b + c a + b 2 + c 2 − ab − ac − bc 3 18 Dreiecksverteilung auf [a,b] D([a,c,b]) mit Häufungspunkt c Exponentialverteilung mit Parameter λ Normalverteilung mit den Parametern µ und σ2 E(λ) 2 N(µ,σ ) 1 1 λ λ2 µ σ2 Tabelle 1 Symbole, Erwartungswert und Varianz einiger Verteilungen 2 2.23 Verdeutlichen Sie sich, dass gilt Var(X) = E(X-EX) ! 2.24 Verwenden Sie die Grundeigenschaften des Integrals, um nachzuweisen, dass gilt: Var(X) = E(X2) – (E(X))2 Kommen wir nun zu einer sehr nützlichen Eigenschaft von EX und Var(X). Kennt man den Erwartungswert und die Varianz einer Zufallsgröße X, so kann man Wahrscheinlichkeiten von Abweichungen von X vom Erwartungswert EX abschätzen, ohne die Verteilung von X genauer zu kennen. Es gilt die folgende Ungleichung: Ungleichung von Tschebyscheff Satz: (Ungleichung von Tschebyscheff). Es gilt: P (| X − EX |< ε ) ≥ 1 − Var ( X ) ε2 Setzen wir ε = 2σ bzw. ε=3σ (σ= σ = Var ( X ) ), so folgt aus diesem Satz zum Beispiel für die 2-σ- und 3-σ-Bereiche einer beliebigen Verteilung: P (| X − EX |< 2σ ) ≥ 0,75 bzw. P (| X − EX |< 3σ ) ≥ 0,89 . Zufallsgrößen - 43 - Allerdings ist diese Abschätzung unter Umständen sehr grob und kann wesentlich verbessert werden, wenn man die Verteilung von X kennt. Übungsaufgaben 2.25 Eine Klausur besteht aus 12 MC-Aufgaben à 4 Antwortalternativen, von denen jeweils nur eine richtig ist. Geben Sie unter Verwendung von Tabelle 1 die erwartete Anzahl der richtig beantworteten Aufgaben an, wenn der Proband die Lösungen aller 4 Aufgaben rät! Unser Eisverkäufer erzielt bei schönem Wetter einen Tagesgewinn von 200 Euro, bei Regen 100 Euro, bei Schneefall macht er 70 Euro Verlust. Die Wahrscheinlichkeit für schönes Wetter beträgt 0,5 für Regenwetter 0,3 und für Schnee 0,2. Wie hoch ist der erwartete Tagesgewinn für den Eisverkäufer? 2.26 2.27 2.28 X sei stetig auf [a,b] gleichverteilt. Berechnen Sie E(X) und Var(X), d.h. weisen Sie die Formeln für E(X) und Var(X) aus Tabelle 1 nach! Für die zufälligen Zeiten, die ein Server zur Verarbeitung von Jobs benötigt gilt EX=10ms und Var(X) = (2ms)2. Die Verteilung von X sei unbekannt. a) Ermitteln Sie unter Verwendung der Tschebyscheff-Ungleichung ein möglichst kleines Intervall der Form 10ms ± c , in welchem mindestens 95% aller Bearbeitungszeiten liegen! b) Ist die Verteilung von X bekannt, so lässt sich die Aussage unter a) genauer treffen. Wie groß wäre das Intervall 10ms ± c, indem 95% aller Bearbeitungszeiten liegen genau, wenn X normalverteilt wäre? - 44 – Stochastik 3 Verteilungen von Funktionen von Zufallsgrößen Häufig benötigt man bei der Modellierung des Zufalls die Verteilung von Summen oder anderen Funktionen von stochastisch unabhängigen Zufallsgrößen. Besteht zum Beispiel die Aufgabe darin, die zufällige GesamtÜbertragungszeit T eines Übertragungssystems aus zwei voneinander unabhängig arbeitenden Teilsystemen durch eine Verteilung anzupassen und ist die Verteilung der zufälligen Übertragungszeiten T1 und T2 der Teilsysteme bekannt, so besteht die mathematische Aufgabe darin, die Verteilungsfunktion von T=T1+T2 d.h., der Summe zweier stochastisch unabhängiger Zufallsgrößen zu ermitteln. Die Verteilung der Summe von Quadraten stochastisch unabhängiger normalverteilter Zufallsgrößen wird auch als χ2- (Chi-Quadrat-) Verteilung bezeichnet. Mit ihrer Hilfe kann man Hypothesen über den Typ einer unbekannten Verteilung prüfen. Das werden wir dann im folgenden Kapitel 4 näher erläutern. Nach Durcharbeiten dieses Kapitels können Sie • • • • 3.1 Erwartungswert und Varianz von Summen stochastisch unabhängiger Zufallsgrößen berechnen, Wahrscheinlichkeitsverteilungen von Summen stochastisch unabhängiger normal- oder poissonverteilter Zufallsgrößen bestimmen und dazu praktische dazu Aufgaben lösen, den Zentralen Grenzwertsatz zur Lösung praktischer Aufgaben anwenden, Quantile der χ2- (Chi-Quadrat-) Verteilung berechen. Erwartungswert und Varianz von Summen und linearen Transformationen von Zufallsgrößen Wir führen zunächst den Begriff der stochastischen Unabhängigkeit von Zufallsgrößen ein. In Analogie zur Unabhängigkeit von Ereignissen A und B definieren wir: Stochastische Unabhängigkeit von Zufallsgrößen Definition: Zwei Zufallsgrößen X und Y heißen stochastisch unabhängig, falls für alle a,b ∈ R gilt: P (( X ≤ a ) ∩ (Y ≤ b)) = P ( X ≤ a ) ⋅ P (Y ≤ b) Verteilungen von Funktionen von Zufallsgrößen - 45 - Diese Produktformel gilt entsprechend auch für n Zufallsgrößen. Es gelten folgende Eigenschaften für Erwartungswert und Varianz von Zufallsgrößen: Satz: (Eigenschaften von Erwartungswert und Varianz) Es gilt: 1. E(aX+b) = aEX + b 2. E(X1 + X2 + ... + Xn) = EX1 + EX2 + ...+ EXn 3. Var (aX + b) = a 2Var ( X ) Eigenschaften von Erwartungswert und Varianz 4. Var ( X ) =E ( X − EX ) 2 5. Für stochastisch unabhängige Zufallsgrößen gilt darüber hinaus: Var ( X 1 + X 2 + ... + X n ) = Var ( X 1 ) + Var ( X 2 ) + ... + Var ( X n ) 3.1 Seien X1 und X2 zwei stochastisch unabhängige Zufallsgrößen mit E(X1)=5, Var(X1)=1 und E(X2) = 10, Var(X2)=4. a) Berechnen Sie Erwartungswert und Varianz von Y=2X1+3X2. b) Welche lineare Transformation aX1 +b muss man auf X1 anwenden, so dass Erwartungswert und Varianz dieser Transformation mit E(X2) und Var(X2) übereinstimmt? 3.2 Verteilungen von Summen von Zufallsgrößen In diesem Abschnitt geht es um die Bestimmung der Verteilung von linearen Transformationen und von Summen von stochastisch unabhängigen Zufallsgrößen. Manche Verteilungen, wie z.B. die Poisson- und die Normalverteilung, besitzen die sogenannte Reproduktionseigenschaft. D.h., der Verteilungstyp von Summen derart verteilter unabhängiger Zufallsgrößen bleibt erhalten, die Parameter der Summen berechnen sich gemäß den Eigenschaften der Erwartungswerte von Summen von Zufallsgrößen, wie sie in Abschnitt 3.1 dargestellt wurden. Satz: (Reproduktionssatz) a) Ist X normalverteilt mit den Parametern EX=µ und Var(X)=σ2, so ist auch jede lineare Transformation Y= a⋅X + b von X normalverteilt mit den Parametern EY = aµ+b und Var(Y)= (a σ)2. Reproduktionssatz - 46 – Stochastik b) Sind X1,...,Xn stochastisch unabhängige normalverteilte Zufallsgrößen mit den Parametern EX i = µ i , Var ( X i ) = σ i2 , i=1,...,n, dann ist ihre Summe n n X = ∑ X i ebenfalls normalverteilt mit den Parametern EX = ∑ µ i und i =1 i =1 n Var ( X ) = ∑ σ i2 . i =1 c) Sind X1,...,Xn stochastisch unabhängige poissonverteilte Zufallsgrößen mit dem Parametern EX i = λi , i=1,...,n, dann ist ihre Summe n n i =1 i =1 X = ∑ X i ebenfalls poissonverteilt mit dem Parameter EX = ∑ λi . Wir bemerken, dass z.B. die Summe von n unabhängigen exponentialverteilten Zufallsgrößen nicht mehr exponentialverteilt ist. Hier erhält man eine neue theoretische Verteilung, die sogenannte ErlangVerteilung, auf die wir hier aber nicht weiter eingehen wollen, wir verweisen auf die weiterführende Statistik-Literatur [Wa], [Lex]. Beispiel: Sei X die zufällige Gesamtzahl der an einer Kreuzung aus zwei Richtungen eintreffenden Autor. Die Anzahlen X1 und X2 der aus beiden Richtungen A und B eintreffenden Autos seien beide poissonverteilt, wobei aus Richtung A im Schnitt 1 Auto pro Minute und aus Richtung B im Schnitt 2 Autos pro Minute eintreffen. Wie groß ist die Wahrscheinlichkeit dafür, dass insgesamt mehr als 3 Autos pro Minute eintreffen? Lösung: Nach Reproduktionssatz, Teil c), ist X poissonverteilt mit dem Parameter λ=3 pro Minute. Dann ergibt sich die gesuchte Wahrscheinlichkeit zu P ( X > 3) = 1 − P ( X ≤ 3) = 1 − ( P ( X = 0) + P ( X = 1) + P ( X = 2) + P ( X = 3) 9 27 −3 e ) = 1 − 0,647 = 0,353. = 1 − (e −3 + 3e −3 + e −3 + 2 6 Oft gelingt es nicht, die Verteilung einer Summe von unabhängigen Zufallsgrößen exakt auszurechnen. Aber es lässt sich zeigen, dass man sie immer, wenn n „hinreichend“ groß ist durch eine Normalverteilung gut annähern kann. Es gilt der Zentrale Grenzwertsatz: Verteilungen von Funktionen von Zufallsgrößen - 47 - Satz: (Zentraler Grenzwertsatz) Seien X1,...,Xn n stochastisch unabhängige beliebig verteilte Zufallsgrößen mit den Parametern EX i = µ i und Var ( X i ) = σ i2 , i=1,...,n. Sei Zentraler Grenzwertsatz n X = ∑ Xi . Dann konvergiert die Verteilung der standardisierten i =1 n ∑(X Summe Y= i =1 i − µi ) für n ∑σ i =1 n gegen ∞ gegen eine 2 i Standardnormalverteilung. n ∑(X Wir können also für „große n“ die Zufallsgröße Y= i i =1 − µi ) als n ∑σ i =1 2 i standardnormalverteilt betrachten. Man überzeugt sich leicht davon, dass sich die Summe X = n ∑X i =1 i als lineare Transformation X=aY+b von Y darstellen lässt (siehe Übungsaufgabe 3.2). Wenden wir den Reproduktionssatz auf X an, so folgt aus dem Zentralen Grenzwertsatz folgende wichtige Regel: Seien X1,...,Xn n stochastisch unabhängige beliebig verteilte Zufallsgrößen mit den Parametern EX i = µ i und Var ( X i ) = σ i2 , i=1,...,n. Dann ist für „große n“ n die Summe X = ∑ Xi n normalverteilt mit i =1 EX = ∑ µ i und i =1 n Var ( X ) = ∑ σ i2 . i =1 Eine Faustregel besagt, dass n ≥ 150 groß genug ist. Diese Regel liefert die Begründung dafür, dass so viele Phänomene (Körpergewicht, Intelligenzquotient, Messfehler usw.) in der Praxis normalverteilt erscheinen. Sie entstehen als Überlagerung sehr vieler unabhängig voneinander wirkender stochastischer Einflüsse. Normalverteilungsregel - 48 – Stochastik 3.2 a) Verdeutlichen Sie sich, dass gilt: n ∑(X Y= i =1 i − µi ) n ∑σ i =1 X − EX = Var ( X ) 2 i , wobei X = n ∑X i =1 i . b) Wie lauten a und b in der linearen Transformation X=aY+b? Ein wichtiger Spezialfall der Normalverteilungsregel ist der Fall, dass alle Summanden X i identisch verteilt sind, also den gleichen Erwartungswert und die gleiche Varianz besitzen: EX i = µ und Var ( X i ) = σ 2 , i=1,...,n. In n diesem Fall X = ∑ X i näherungsweise ist normalverteilt mit dem i =1 Erwartungswert EX = n n i =1 i =1 ∑ µ = nµ und der Varianz Var ( X ) = ∑ σ 2 = nσ 2 . Eine Anwendung dieses Spezialfalls besteht in der Approximation der Binomialverteilung durch die Normalverteilung. Wie wir wissen, ist die Anzahl X von Erfolgen bei n facher Wiederholung eines zweipunktverteilten Versuchs mit Erfolgswahrscheinlichkeit p binomialverteilt mit den Parametern n und p. Wir können die i.te Versuchswiederholung durch die zweipunktverteilte Zufallsgröße charakterisieren 0 falls Misserfo lg Xi = Erfo lg 1 falls Dann ist X = n ∑X i =1 i 1− p p mit EX i = p und Var ( X i ) = p (1 − p ) und wir erhalten als Spezialfall der Normalverteilungsregel den folgenden Grenzwertsatz von Moivre und Laplace bezeichneten Satz: Approximation der Binomialverteilung durch die Normalverteilung auch als Satz (von Moivre und Laplace): Eine mit den Parametern n und p binomialverteilte Zufallsgröße X ist für große n näherungsweise normalverteilt mit EX = n⋅p und Var(X) = n⋅p(1-p). Beispiel: Eine Krankheit A tritt mit der Wahrscheinlichkeit von 1% in der Bevölkerung auf. Wie groß ist die Wahrscheinlichkeit dafür, dass von 1000 Personen mehr als 15 erkranken? Lösung: Die zufällige Anzahl der erkrankten Personen unter 1000 ist binomialverteilt mit den Parametern n=1000 und p=0,01 (der Verteilungen von Funktionen von Zufallsgrößen zweipunktverteilte Versuch ist: i ist Xi =“Status der Person i“ mit Xi = 0(gesund), Xi =1(krank) mit Wahrscheinlichkeit p=0,01). Für die gesuchte Wahrscheinlichkeit ergibt sich gemäß den Wahrscheinlichkeiten der Binomialverteilung: 15 1000 (0,01) i (0,99)1000−i P( X > 15) = 1 − P( X ≤ 15) = 1 − ∑ i i =0 Die Berechnung dieser Summe ist mit einigen numerischen Schwierigkeiten verbunden. Aber glücklicherweise können wir aufgrund des Satzes von Moivre und Laplace die gesuchte Wahrscheinlichkeit gut genug durch eine Normalverteilung mit den Parametern µ=EX = np = 1000⋅0,01=10 und σ2=Var(X)=np(1-p)=1000⋅0,01⋅0,99=9,9 approximieren . Es gilt näherungsweise: 15 − 10 = 1 − Φ(1,59) P( X > 15) = 1 − P( X ≤ 15) = 1 − F (15) = 1 − Φ 9 , 9 =1-0,9441=0,0559. Übungsaufgaben 3.3 Ein Übertragungssystem besteht aus 3 hintereinander geschalteten voneinander unabhängig arbeitenden Teilsystemen. Die zufällige Übertragungszeit Xi aller Teilsysteme sei normalverteilt mit den Parametern EX1=100ms, EX2=60ms, EX3=40ms und Var(X1)=(5ms)2, Var(X2)=(3ms)2, Var(X3)=(2ms)2. Wie groß ist die Wahrscheinlichkeit dafür, dass die Gesamtübertragungszeit innerhalb des Intervalls [190ms, 210ms] liegt? ´ 3.4 Ein regelmäßiger Würfel wird n=600 mal geworfen. Wie groß ist die Wahrscheinlichkeit dafür, dass die Anzahl der gewürfelten Sechsen zwischen 90 und 110 liegt? 3.5 Die Sterblichkeitswahrscheinlichkeit von Personen, die mit einer bestimmten Krankheit infiziert wurden, beträgt 0,8. Wie groß ist die Wahrscheinlichkeit dafür, dass von 240 infizierten Personen mehr als 180 sterben? - 49 - - 50 – Stochastik 3.3 Verteilung von Funktionen von Zufallsgrößen In der sogenannten schließenden Statistik geht es u.a. darum, von Beobachtungen einer Zufallsgröße auf deren Verteilung zu schließen oder wenigstens einige ihrer Parameter gut genug zu bestimmen. Dafür benötigt man Wahrscheinlichkeitsverteilungen, die auch als Verteilungen von Stichprobenfunktionen bezeichnet werden, da sie als Wahrscheinlichkeitsverteilungen von bestimmten Funktionen S( X1 , … , Xn ) einer sogenannten Stichprobe X1 , … , Xn hergeleitet werden. Typische Vertreter sind die χ2 -Verteilung, die t-Verteilung und die F-Verteilung. Alle drei sind stetige Verteilungen. Sie besitzen alle einen oder zwei Parameter, die als Freiheitsgrade bezeichnet werden und die Form der Verteilungsdichten bestimmen. Die Freiheitsgrade hängen alle indirekt vom Stichprobenumfang n ab. Im Rahmen dieses Lehrmaterials werden wir hier nur die χ2 -Verteilung einführen, welche die Basis für den im nächsten Kapitel dargestellten χ2-Test zur Verteilungsprüfung ist. Für die anderen beiden Verteilungen verweisen wir auf die weiterführende Statistik-Literatur [Gr], [Lex]. χ -Verteilung 2 Satz: Seien X1 , … , Xn n stochastisch unabhängige standardnormalverteilte Zufallsgrößen. Dann besitzt die Quadratsumme n ∑(X i =1 i )2 eine χ2-Verteilung mit n Freiheitsgraden. Wir schreiben: n ∑(X i =1 i ) 2 ~ χ n2 Abbildung 8 gibt eine Vorstellung über die Gestalt der Dichtefunktion der χ2Verteilung in Abhängigkeit der Freiheitsgrade. Die χ2-Verteilung hängt von 2 einem Parameter, dem sogenannten Freiheitsgrad (FG), ab und wird mit χ FG abgekürzt bezeichnet. Der FG ist eine natürliche Zahl und bestimmt die Form 2 der Dichtefunktion. Die Dichtefunktion ist nicht symmetrisch. Ist X ∼ χ FG , so gilt EX = FG und Var (X) = 2 FG. Verteilungen von Funktionen von Zufallsgrößen Abbildung 8: Dichtefunktion der χ2 - Verteilung mit 2,4 und 8 FG Wir benötigen nie die konkrete Formel für die Dichte, deshalb verzichten wir hier auf die genaue Definition derselben. Wir benötigen im Weiteren lediglich die Quantile xα der χ2-Verteilung. Diese Quantile sind in der Tabelle A4 im Anhang A zusammengestellt. Die Einträge in dieser Tabelle sind die Werte xα und α , so dass gilt: P( X ≤ xα ) = α bzw. P( X > xα ) = 1 − α . Beispiel: Ist X χ2-verteilt mit 3 Freiheitsgraden, so können wir aus der Tabelle A4 ablesen: Der Wert x, für den gilt : P(X ≤ x ) = 0,9, ist x = 6,25. Für x = 7,81 erhalten wir P( X > x) = 0,05 . 3.6 Sei X ∼ χ FG . Vervollständigen Sie folgende Tabelle an den durch – gekennzeichneten Stellen! FG 3 7 35 α 0,025 0,9 xα 14,07 - - 51 - - 52 – Stochastik 4 Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen durch statistische Methoden Das Verhalten von Computer- bzw. Informationssystemen unterliegt vielfältigen zufallsbedingten Einflüssen. Häufig gehen zufällige Einflüsse auch als Zufallsgrößen in Simulationsmodelle ein, wie z.B. Zwischenankunfts- und Bedienzeiten, in Lagerhaltungsmodellen die Art und der Umfang von Einund Auslagerungsaufträgen oder in Zuverlässigkeitsmodellen die Ausfallrate einer Systemkomponente. Sollen Zufallsgrößen in Berechnungen und Modellen verwendet werden, müssen ihre entsprechenden Wahrscheinlichkeitsverteilungen bestimmt werden. Nach Durcharbeiten dieses Kapitels können Sie • • • • 4.1 Unbekannte Wahrscheinlichkeiten, unbekannte Parameter von Verteilungen, sowie Erwartungswert und Varianz einer Zufallsgröße auf der Basis einer Stichprobe schätzen, Toleranzbereiche für eine unbekannte Wahrscheinlichkeit mit vorgegebener Genauigkeit und Sicherheit berechnen und den dazu notwendigen Stichprobenumfang bestimmen, auf der Basis einer Stichprobe einer stetigen Zufallsgröße ein Histogramm zeichnen und eine Hypothese über den Typ der unbekannten Verteilung der Zufallsgröße aufstellen, diese Hypothese mittels des sogenannten χ2 –Tests zu einer vorgegebenen Irrtumswahrscheinlichkeit 1.Art überprüfen. Schätzung einer unbekannten Wahrscheinlichkeit Wir haben bisher in vielen Beispielen angenommen, dass wir bestimmte Wahrscheinlichkeiten bereits kennen. So z.B. haben wir bei der Untersuchung der Trennschärfe des Wortes „Viagra“ für einen SPAM-Filter angenommen, dass wir bereits wissen, wie wahrscheinlich dieses Wort in Texten auftritt. Woher bekommen wir aber die Information über die Wahrscheinlichkeit P(A) eines Ereignisses A? Damit beschäftigen wir uns in diesem Abschnitt. Sei X eine zweipunktverteilte Zufallsgröße Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 53 - 1 falls A beobachtet wird X = 0 falls A nicht beobachtet wird Einen Schätzwert für die Wahrscheinlichkeit P(X=1)=P(A) erhalten wir (siehe auch Abschnitt 1.1.4) durch die relative Häufigkeit des Ereignisses A, die bei n unabhängigen Beobachtungen (x1,...,xn) von X folgende Gestalt besitzt: 1 n hn ( A) = ∑ xi n i =1 Wir können jede Beobachtung xi von X auch als Realisierung einer Zufallsgröße Xi auffassen, die dieselbe Verteilung wie X besitzt. Ersetzen wir in der Formel für die relative Häufigkeit xi durch Xi, so erhalten wir eine zufällige Funktion hn ( A) = Mathematische und konkrete Stichprobe 1 n ∑ Xi n i =1 von n unabhängigen wie X verteilten Zufallsgrößen. (X1,...,Xn) wird als mathematische Stichprobe von X bezeichnet , (x1,...,xn) heißt konkrete Stichprobe von X. 1 n ∑ X i , die jeder konkreten Stichprobe vom Umfang n i =1 1 n n einen Schätzwert hn ( A) = ∑ xi für die Wahrscheinlichkeit P(A) zuordnet, n i =1 Die Funktion hn ( A) = Schätzfunktion und Schätzwert heißt Schätzfunktion für P(A). In der Statistik beurteilt man nicht die Güte eines Schätzwertes, sondern die Güte von Schätzfunktionen. Die Güte wird dabei durch verschiedene Kriterien definiert. Für unsere Schätzfunktion fordern wir: • hn ( A) = 1 n ∑ X i soll P(A) im Mittel „treffen“, d.h., es soll gelten: n i =1 E hn ( A) = P(A). Eine Schätzfunktion mit dieser Eigenschaft nennt man • erwartungstreu. . Es soll gelten lim E (h n (A) − P(A)) 2 = 0 n →∞ D.h., die Schätzung wird mit wachsendem Stichprobenumfang n immer genauer. Eine erwartungstreue Schätzfunktion mit dieser Eigenschaft heißt konsistent. Erwartungstreue und Konsistenz - 54 – Stochastik Welche der Eigenschaften besitzt nun die Schätzfunktion hn ( A) ?. Für unsere zweipunktverteilte Zufallsgröße ist E(X)=P(A) und Var(X)=P(A)(1-P(A)) und, weil alle Xi genauso wie X verteilt sind, gilt auch EXi=P(A) und VAR(Xi)=P(A)(1-P(A)) für alle i=1,...,n. Unter Berücksichtigung der Ausführungen zu den Eigenschaften von Erwartungswert und Varianz von Summen stochastisch unabhängiger Zufallsgrößen in Abschnitt 3.1 erhalten wir dann: 1 n 1 n 1 n Ehn ( A) = E ( ∑ X i ) = ∑ E ( X i ) = ∑ P( A) = P( A) und n i =1 n i =1 n i =1 1 n 1 n E (hn ( A) − P( A)) 2 = Var (hn ( A)) = Var ∑ X i = 2 ∑ Var ( X i ) n i =1 n i =1 n 1 P( A)(1 − P( A) = →0 P( A)(1 − P( A) = 2 ∑ n→ ∞ n n i =1 D.h., die relative Häufigkeit hn ( A) ist eine konsistente Schätzfunktion für die unbekannte Wahrscheinlichkeit P(A). Konfidenzintervall für P(A) • Eine weitere Methode zur Beurteilung der Güte unserer Schätzfunktion ist die Berechnung der Wahrscheinlichkeiten P(| hn ( A) − P( A) |≤ ε ) der Abweichungen der Schätzfunktion hn ( A) von P(A) bei einer vorgegebenen Genauigkeit ε. Definition: Ein Intervall [hn ( A) − ε , hn ( A) + ε ] in welchem P(A) mit einer Mindestwahrscheinlichkeit α liegt, d.h., für welches gilt: P(| hn ( A) − P( A) |≤ ε ) ≥ α heißt Konfidenzintervall für P(A) mit der Genauigkeit ε und der Sicherheit α. Die Aussage P (| hn ( A) − P ( A) |≤ ε ) ≥ 0,95 bedeutet, dass bei 100 maliger Berechnung des Intervalls [h n (A) − ε, h n (A) + ε] auf der Basis von 100 zufällig ausgewählten Stichproben jeweils vom gleichen Umfang n ca. 95 mal die unbekannte Wahrscheinlichkeit tatsächlich im berechneten Intervall liegt. Zur Ermittlung der Wahrscheinlichkeiten P (| hn ( A) − P ( A) |≤ ε ) bzw. des Konfidenzintervalls zu einer vorgegebenen Sicherheit α benötigen wir die Wahrscheinlichkeitsverteilung von hn ( A) . Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen Gemäß Zentralem Grenzwertsatz (siehe Abschnitt 3.2) ist für große n die n Summe ∑X i =1 näherungsweise normalverteilt mit dem Erwartungswert i nP(A) und der Varianz nP(A)(1-P(A)). Aus dem Reproduktionssatz folgt 1 n ∑ X i für große n n i =1 ebenfalls als normalverteilt mit den Parametern Ehn ( A) = P ( A) und P( A)(1 − P( A)) Var (hn ( A)) = betrachtet werden kann. n dann, dass die mit 1/n multiplizierte Summe hn ( A) = 4.1 Skizzieren Sie die Verteilungsdichte der relativen Häufigkeit für große n (n >150). Wie ändert sich das Bild der Verteilungsdichte mit wachsendem n ? 4.2 Weisen Sie nach, dass für eine Funktion f(p)=p(1-p) gilt: max f ( p ) = 1 / 4 p . Nun können wir Konfidenzintervalle für die unbekannte Wahrscheinlichkeit P(A) berechnen. In Übungsaufgabe 4.2 haben Sie nachgewiesen, dass für eine Funktion f(p)=p(1-p) gilt: max f ( p ) = 1 / 4 . Daraus folgt P(A)(1-P(A))≤ ¼ und p 1 P( A)(1 − P( A)) ≥ 2. Wir erhalten wir dann unter zusätzlicher Berück- sichtigung der Monotonie der Standardnormalverteilung (siehe Abbildung 9) folgende Abschätzung: P(| hn ( A) − P( A) |≤ ε ) = P( P( A) − ε ≤ hn ( A) ≤ P( A) + ε ) = F ( P ( A) + ε ) − F ( P( A) − ε ) ε n −ε n − Φ ≈ Φ P ( A)(1 − P ( A)) P( A)(1 − P( A)) Zentraler GWS ε n −1 = 2 ⋅ Φ P( A)(1 − P( A)) ( ) ≥ 2 ⋅ Φ 2ε n − 1 - 55 - - 56 – Stochastik Abbildung 9: Monotonie der Standardnormalverteilung Wir können also für große n (in der Regel wird n≥150 als ausreichend betrachtet) mit folgender Ungleichung arbeiten: ( ) (1) P(| hn ( A) − P( A) |≤ ε ) ≥ 2 ⋅ Φ 2ε n − 1 Sei u (1+2α ) das 1+α 2 -Quantil der Standardnormalverteilung. Bei vorgegebenem n und vorgegebenem α können wir als Konfidenzintervall das Intervall [hn ( A) − ε , hn ( A) + ε ] mit ε = (2) u (1+2α ) 2 n wählen, denn dieses Intervall überdeckt mindestens mit der Wahrscheinlichkeit α die unbekannte Wahrscheinlichkeit P(A). Es gilt: ( ) P(| hn ( A) − P( A) |≤ ε ) ≥ 2 ⋅ Φ 2ε n − 1 = 2 ⋅ Φ (u (1+2α )) − 1 = 2 ⋅ (1+2α ) − 1 = α . Andererseits können wir bei vorgegebenem n und vorgegebenem ε aus der Formel (1) die Sicherheitswahrscheinlichkeit α nach unten abschätzen. Aufgrund der Überlegungen zu den 2- und 3-σ-Bereichen der Standardnormalverteilung (siehe Kapitel 2.2) erhalten wir z.B., dass P(A) (für ε = 3 2 n (3) und (für ε = (4) ) mit mehr als 99,8%iger Wahrscheinlichkeit im Intervall 3 3 , hn ( A) + hn ( A) − 2 n 2 n 1 ) mit mehr als 95,5%iger Wahrscheinlichkeit im Intervall n 1 1 , hn ( A) + hn ( A) − n n Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 57 - liegt. D.h., von 1000 Berechnungen eines solchen Intervalls auf der Basis von 1000 verschiedenen Stichproben des selben Umfangs n überdecken ca. 998 Intervalle des Typs (3) und 995 Intervalle des Typs (4) die unbekannte Wahrscheinlichkeit P(A). Im Fall des Intervalltyps (4) beträgt außerdem die Abweichung ε der relativen Häufigkeit von der Wahrscheinlichkeit mit mindestens 95,5%iger Sicherheit höchstens 0,005, wenn für den Stichprobenumfang gilt: 1 n ≤ 0,005 bzw. n ≥ (200) 2 = 40000 Eine hohe Sicherheit und hohe Genauigkeit wird also mit einem hohen Stichprobenumfang erkauft. Senken wir n, so verringert sich bei gleicher Sicherheit die Genauigkeit und bei gleicher Genauigkeit die Sicherheitswahrscheinlichkeit. Die Überlegungen zum Stichprobenumfang n können wir verallgemeinern. Wir können aus Formel (1) den Stichprobenumfang n berechnen, der notwendig ist, eine vorgegebene Genauigkeit ε und eine vorgegebene Sicherheitswahrscheinlichkeit α einzuhalten. Stellen wir dazu die ( ) Ungleichung 2 ⋅ Φ 2ε n − 1 ≥ α nach n um, so erhalten wir: 1 + α u 2 n≥ 4ε 2 2 (5) D.h., für alle n, welche die Ungleichung (5) erfüllen, gilt P(| h n (A) − P(A) |≤ ε) ≥ α . Beispiel: Nach dem Verlieren eines Würfelspiels behauptet der verlierende Student, dass bei dem verwendeten Würfel die Wahrscheinlichkeit p, eine 1 zu würfeln, nicht 1/6 beträgt, sondern größer ist. Um seine Hypothese zu prüfen, führt er n=300 Versuche durch und schätzt p durch die relative Häufigkeit. Er bekommt heraus, dass diese 0,2 beträgt und damit um mehr als 0,03 von der Wahrscheinlichkeit 1/6 abweicht. Da diese Abweichung relativ groß ist, schlussfolgert er, dass der Würfel nicht gleichmäßig ist. Hat unser Student richtig argumentiert? Lösung: Offensichtlich muss man sich zunächst fragen, wie wahrscheinlich es bei einem Stichprobenumfang von n=300 ist, dass auch bei einem gleichmäßigen Würfel die relative Häufigkeit von der Wahrscheinlichkeit 1/6 um mehr als 0,03 abweicht. Dazu berechnen wir für n=300, A=“1 wird gewürfelt“, P(A)=1/6 die Wahrscheinlichkeit P(| h n (A) − 1 / 6 |> ε) . Unter - 58 – Stochastik unseren Voraussetzungen kann man hn(A) als normalverteilt mit den Parametern E(hn(A))=P(A)=1/6 und Var (h n (A )) = P(A)(1 − P(A)) 5 = n 36 ⋅ 300 auffassen und wir erhalten : P(| h n (A) − 1 / 6 |≤ ε) = P(1 / 6 − ε ≤ h n (A) ≤ 1 / 6 + ε ) = F(1 / 6 + ε) − F(1 / 6 − ε) −ε ε ε − Φ = 2 ⋅ Φ −1 Var (h ( A)) Var (h ( A)) Var (h ( A)) n n n = Φ = 2Φ (ε ⋅ 6 60 ) − 1 = 2Φ (ε ⋅ 46,48) − 1 Daraus folgt : P(| h n (A) − 1 / 6 |> ε) = 2(1 − Φ (ε ⋅ 46,48)) Damit hat eine Abweichung von mehr als ε=0,03 die Wahrscheinlichkeit 2(1 − Φ(1,2144)) = 2(1 − 0,8878) = 0,2244 . D.h., die Wahrscheinlichkeit dafür, dass bei einem gleichmäßigen Würfel eine Abweichung der relativen Häufigkeit für n=300 von 1/6 um mehr als 0,03 beobachtet wird, beträgt 22,44%. Diese Wahrscheinlichkeit ist zu hoch, um daraus zu schlussfolgern, dass der Würfel nicht gleichmäßig ist. In der Praxis wird bei derartigen Entscheidungen als Obergrenze eine Wahrscheinlichkeit von 0,05 zugrunde gelegt. Wir stellen uns nun die Frage, wie viele Beobachtungen der Student hätte machen müssen, um die unbekannte Wahrscheinlichkeit P(A) mit mindestens 95%iger Sicherheit mit einer Abweichung von höchstens 0,03 zu schätzen. Wir wollen also das n berechnen, für das gilt: P(| h n (A) − P(A) |≤ 0,03) ≥ 0,95 Dazu wenden wir Formel (5) an. Das (1+α)/2-Quantil der Standardnormalverteilung entnehmen wir Tabelle A2, es ist u((1+α)/2)=u(0,975)=1,96 und wir erhalten in Anwendung von Formel (5): 2 1 + α u (1,96) 2 2 n≥ = = 1067,111 . 4ε 2 4 ⋅ (0,002) 2 D.h., der Student hätte bei seiner gewählten Genauigkeitsgrenze von 0,03 mindestens 1068 Würfelversuche durchführen müssen, um die unbekannte Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen Wahrscheinlichkeit mit genügend großer Wahrscheinlichkeit (hier 0,95) „zu treffen“. 4.3 Übungsaufgaben Um ein effektives Codierverfahren zu entwerfen, ist es notwendig, die Wahrscheinlichkeit P(„E“) zu bestimmen, mit der das Zeichen E in deutschen Texten vorkommt. a) Wie viele Buchstaben muss man mindestens überprüfen, d.h. wie groß muss n sein, um P(„E“) durch die relative Häufigkeit mit mindestens 99%iger Sicherheit mit einer Abweichung von höchstens ±0,01 genau zu schätzen? b) Aus der Untersuchung eines Textes mit n = 500 Buchstaben wurde hn(„E“) = 0,3 ermittelt. Geben Sie einen Toleranzbereich hn(„E“) ± ε an, in welchem die unbekannte Wahrscheinlichkeit P(„E“) mit mindestens 95 %iger Sicherheit liegt! c) Angenommen wir untersuchen einen Text mit n=10000 Buchstaben und wollen P(„E“) durch hn(„E“) schätzen. Geben Sie unter Verwendung der Abschätzung p(1-p)≤1/4 (p=P(„E“)) eine untere Schranke für die Wahrscheinlichkeit P(| hn (" E" ) − P(" E" ) |≤ 0,01) dafür an, dass hn(„E“) von P(„E“) um nicht mehr als 0,01 abweichen wird! d) In der Literatur wird behauptet, dass P(„E“)=0,27 ist. Ein Informatik-Student prüft das nach und berechnet bei einem Text mit n = 200 Buchstaben eine relative Häufigkeit des Auftretens von „E“ von 0,352. Aufgrund der Größe der Differenz |hn(„E“) - P(„E“)|=0,082 argumentiert er, dass die Angabe p=0,27 falsch sei. Berechnen Sie die Wahrscheinlichkeit dafür, dass unter der Annahme P(„E“)=0,27 für n=200 die relative Häufigkeit hn(„E“) von P(„E“) um mehr als 0,08 abweicht. Sind die Schlussfolgerungen des Studenten zu akzeptieren oder nicht? - 59 - - 60 – Stochastik 4.2 Schätzung unbekannter Verteilungsparameter Die bisher verwendeten Verteilungen einer Zufallsgröße X hängen stets von einem oder mehreren Parametern ab. Zur Identifizierung der Verteilung von X gehört daher auch die Bestimmung der Parameter. Die Parameter werden aus den Beobachtungen x1 , … , xn von X geschätzt. Im Kapitel 2 haben wir dargestellt, dass die Parameter aller hier eingeführten Verteilungen von EX und Var(X) abhängen, siehe Tabelle 1. Hat man zum Beispiel den Verteilungstyp der Normalverteilung aus einem Histogramm identifiziert, so sind die beiden Parameter EX=µ und Var(X)=σ 2 zu schätzen; im Falle der Exponentialverteilung ist der Parameter α = 1/EX zu schätzen. Wir wollen deshalb zunächst den Erwartungswert µ=EX und die Varianz σ 2 =Var(X) einer Zufallsgröße X mit beliebiger Verteilung von X schätzen und uns anschließend überlegen, wie wir daraus Schätzungen für die Verteilungsparameter ermitteln. Seien X1 , … , Xn n zufällige Beobachtungen von X , die unabhängig voneinander erhoben wurden; d.h. sei X1 , … , Xn eine mathematische Stichprobe von X . arithmetisches Mittel Als Schätzfunktion für den Erwartungswert EX verwendet man in der mathematischen Statistik das arithmetisches Mittel x der Beobachtungen: n (6) Streuung X = ∑X i =1 i n Für die Varianz Var(X) wird die mittlere quadratische Abweichung der Beobachtungen Xi vom Mittelwert X , die sogenannte Streuung S2, verwendet: n (7) 1 S2 = ∑(X i =1 i − X )2 n −1 Die Bezeichnungen X und S2 haben sich in der Literatur für die beiden Schätzungen durchgesetzt. Sie werden auch als Stichprobenmittel bzw. Stichpro- 1 Wird in (7) durch n statt n-1 geteilt, so erhält man eine nicht mehr erwartungstreue Schätzung. Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen benvarianz bezeichnet. Als Schätzung für die - 61 - Standardabweichung σ= Var ( X ) wird S verwendet. Unter der Voraussetzung, dass die Beobachtungen X1 , … , Xn stochastisch unabhängig voneinander sind, kann man zeigen, dass die Schätzfunktionen X und S2 erwartungstreu sind, es gilt: E( X ) = µ und E( S 2 ) = σ 2 . Weiterhin kann man zeigen, dass ihre Varianz mit wachsendem n gegen 0 konvergiert: 2 Var( X ) = E( X -µ ) n → 0, Var( S2)= E ( S2 - σ2 ) 2 n → 0 →∞ →∞ Für hinreichend großes n liefern X und S2 also gute Näherungen für µ und σ2. Wir wollen die beiden Eigenschaften für die Schätzfunktion X des Erwartungswertes beweisen. Sind die Beobachtungen Xi identisch wie X 2 verteilt, d.h. gilt insbesondere E Xi =µ und Var( Xi )=σ für i = 1, … , n und sind die Xi alle unabhängig voneinander, so folgt aus den Eigenschaften für den Erwartungswert und die Varianz von Summen unabhängiger Zufallsgrößen (siehe Abschnitt 3.1): 1 n 1 n 1 n EX = E ( ∑ X i ) = ∑ E( X i ) = ∑ E( X) = µ n i =1 n i =1 n i =1 Var ( X ) = Var ( 1 n 1 Xi) = 2 ∑ n i =1 n n ∑Var ( X i ) = i =1 1 n2 n ∑ i =1 Var ( X ) = σ2 n n → 0 →∞ Nicht immer sind die Parameter einer Verteilung identisch mit dem Erwartungswert oder mit der Varianz der Zufallsgröße, wie z.B. bei der Normalverteilung oder der Poissonverteilung. Bei der Exponentialverteilung ist der Parameter die Intensität α , die ihrerseits das Reziproke des Erwartungswertes ist. Ein in der mathematischen Statistik gebräuchliches Verfahren zur Schätzung beliebiger Verteilungsparameter ist die sogenannte Momentenmethode. Schätzung von Verteilungsparametern Die Momentenmethode ist sehr einleuchtend. Sind die unbekannten Verteilungsparameter Funktionen von Erwartungswert und/oder Varianz von X, so ersetzt man in diesen Funktionen den Erwartungswert und die 2 Varianz durch ihre Schätzungen x und s und löst die so erhaltenen Gleichungen nach den unbekannten Parametern auf. Wollen wir Momentenmethode - 62 – Stochastik beispielsweise den Parameter α der Exponentialverteilung schätzen, so ergibt sich wegen der Beziehung EX=1/ α die Gleichung x =1/α. Wir erhal1 ten also αɵ = . Wir weisen darauf hin, dass die Momentenmethode nicht x immer erwartungstreue Schätzungen liefert! Maximum-Likelihood-Methode Eine andere Methode zur Schätzung unbekannter Verteilungsparameter ist die sogenannte Maximum-Likelihood-Schätzmethode. Bei der MaximumLikelihood-Methode nimmt man als Schätzung den Wert, für den die Beobachtungen, die man macht, am wahrscheinlichsten sind. Die Maximum-Likelihood-Methode löst eine Extremwertaufgabe, in der das Maximum einer Funktion i.allg. mehrerer Veränderlicher bestimmt werden muss. Auf die genaue Beschreibung dieses Verfahrens kann im Rahmen dieses Lehrmaterials nicht eingegangen werden. Wir verweisen den interessierten Leser auf die im Literaturverzeichnis angegebene statistische weiterführende Fachliteratur, z.B. [Lex]. In der Tabelle 2 sind die nach der Momentenmethode berechneten Schätzungen für Parameter häufig verwendeter Verteilungen angegeben. Verteilung Poissonverteilung Parameter λ Setige Gleichverteilung auf [a,b] Exponentialverteilung a, b Normalverteilung µ , σ2 α Momentenschätzungen λɵ = x aˆ = x − 3 ⋅ s , bˆ = x + 3 ⋅ s 1 x µɵ = x αɵ = σˆ 2 = s 2 Tabelle 2: Momentenschätzungen für die Parameter verwendeter Verteilungen 2 Bemerkung: Für die praktische Berechnung s2 hat sich als Alternative zu (7) folgende Formel als nützlich erwiesen. Es gilt: (8) s2 = 1 n 1 n 2 − = ( ) x x ∑ ( x i ) 2 − n( x ) 2 ∑ i n − 1 i =1 n − 1 i =1 2 Manche praktische Verteilungen haben mehr als 2 Parameter, wie die Dreiecksverteilung. Hier reichen Erwartungswert und Varianz zur Schätzung nicht aus. Man nimmt hier weitere Schätzungen, sogenannte Momente dazu. Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen Man kann auch Konfidenzintervalle für EX und Var(X) und für einige Verteilungsparameter berechnen. Allerdings übersteigt das nötige Wissen dazu die in dieser Kurseinheit vermittelten Grundkenntnisse zur Stochastik. Wir verweisen auf [Gr] und [Krey]. 4.4 Leiten Sie die in Tabelle 2 angegebenen Schätzungen für a und b einer stetigen auf [a,b] gleichverteilten Zufallsgröße unter Anwendung der Momentenmethode her! 4.5 Von einer auf [a,b] stetig gleichverteilten Zufallsgröße X sind folgende Beobachtungen erhoben worden: 3,1; 4,2; 4,5; 3,8; 3,2; 4,4; 3,9; 5,1; 4,9; 5,3 Geben Sie eine Schätzung für a und b nach der Momentenmetode an. 4.6 Die Anzahl der eintreffenden Nachrichten pro ms in einer Empfängerstation sei poissonverteilt mit dem Parameter λ. Es sind folgende Beobachtungen von X erhoben worden: 20, 18, 17, 18, 12, 15, 15, 14, 16, 10 Geben Sie eine Schätzung für λ an! Interpretieren Sie λ! 4.3 Identifizieren von Verteilungen Bei diskreten Zufallsgrößen kann man auf den Typ der zugrundeliegenden Verteilung in der Regel aus der Art des Versuchsaufbaus schließen oder man schätzt die Einzelwahrscheinlichkeiten durch die relativen Häufigkeiten wie in Abschnitt 4.1 beschrieben. Bei stetigen Zufallsgrößen ist das i.A. nicht mehr möglich. Hier kann man Hypothesen über die Verteilung anhand von Auswertungen von Beobachtungen der Zufallsgröße in Histogrammen aufstellen. - 63 - - 64 – Stochastik 4.3.1 Modellierung stetiger Verteilungen durch Histogramme Liegen beobachtete Daten x1 , … , xn , d.h. eine Stichprobe einer stetigen Einflußgrößen X vor, so kann man eine Vorstellung vom Typ der Verteilung von X bekommen, wenn man ein sogenanntes Histogramme erstellt. Histogramme, Klasseneinteilung für stetige Daten Ein Histogramm ist eine grafische Annäherung an den Graphen der zugrunde liegenden Dichtefunktion. Da die Dichtefunktionen verteilungstypische Verläufe haben, gibt das Aussehen des Histogramms häufig deutliche Hinweise auf die Art der Verteilung. Seien x1 , … , xn n Beobachtungen einer stetigen Zufallsgröße X . Ein Histogramm wird wie folgt konstruiert. • Zerlegung des Bereichs, in dem die Daten liegen, in (in der Regel gleich große) disjunkte Intervalle (Klassen) K1 ,..., K k • Bestimmung der absoluten Klassenhäufigkeiten H n ( K i ) = Anzahl der x j ∈ K i , j = 1,...,n. • Grafische Darstellung im Koordinatensystem; die x-Achse wird in die k Intervalle zerlegt, auf der y-Achse werden die absoluten Häufigkeiten abgetragen. Die Gestalt des Histogramms hängt von der Klassenzahl bzw. Klassenbreite ab. Wählt man die Klassenbreite zu klein, so sind Häufungen der Daten schwer zu erkennen. Wählt man sie zu groß, so gehen Details in der Verteilung optisch verloren. In beiden Fällen ist es nahezu unmöglich, einen adäquaten Verteilungstyp zu erkennen. Das wird in der Abbildung 10 illustriert. Für die Wahl der Klassenbreite bzw. Klassenzahl gibt es nur heuristische Regeln, welche die Klassenzahl in Abhängigkeit der Anzahl der Beobachtungen festlegen. Im allgemeinen reicht eine Klassenzahl von k ≈ n aus, wobei k ≥ 5 sein sollte (also n ≥ 25), und eine Klassenzahl von maximal 20 Klassen nicht überschritten werden muss. Diese Regel werden wir im folgenden verwenden. Beispiel : Es soll durch Simulation ermittelt werden, ob die Einführung neuer Dienste in Vermittlungsstellensoftware zur Blockierung des normalen Telefonierens führt oder nicht. Dazu ist es nötig, die Abläufe in der Vermittlungsstelle zu modellieren. Eine Teilaufgabe besteht in der Erstellung eines Modells (Wahrscheinlichkeitsverteilung) für die zufällige Dauer von Telefongesprächen. Es wurden dazu die Längen von 40 Telefongesprächen erfasst. Es ergaben sich folgende Werte (in Sekunden): Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 65 - 82, 136, 162, 110, 172, 101, 210, 200, 230, 211, 155, 168, 188, 240, 280, 200, 188, 300, 175, 178, 150, 203, 282, 209, 182, 219, 225, 220, 148, 160, 230, 190, 180, 190, 200, 260, 175, 192, 255, 235. Ermittlung der Klassenzahl k: Es gilt n = 40 = 6,35 ; durch Runden erhalten wir: k = 6. (k erfüllt unsere Nebenbedingungen 5 ≤ k ≤ 20) Ermittlung der Klassenbreite B: Wir zerlegen den Datenbereich in k=6 rechts offene Teilintervalle. Der Datenbereich ist der Bereich zwischen dem kleinsten Beobachtungswert xmin = 82 und dem größten Beobachtungswert xmax = 300. Wir erhalten zunächst: B= x max − x min 300 − 82 = = 36, 7 k 6 Wir runden B auf unsere Genauigkeit von 1 Sekunde auf und erhalten B=37 sec. (Ein Abrunden kommt hier nicht in Frage, da der ganze Datenbereich von 82 bis 300 Sekunden durch 6 Intervalle der Breite B überdeckt werden muss). Ermittlung der Klassen und der Klassenhäufigkeiten Mit der berechneten Klassenzahl k=6 und der Intervallbreite B= 37 sec ergibt sich das in Tabelle 3 und Abbildung 8 dargestellte Histogramm: i 1 2 3 4 5 6 Ki bis 118 [82, 119) von 119 bis 155 [119, 156) von 156 bis 192 [156, 193) von 193 bis 229 [193, 230) von 230 bis 266 [230, 267) ab 267 [ 267, 304) Hn (Ki ) 3 4 14 10 6 3 Tabelle 3: Absolute Klassenhäufigkeiten der Gesprächsdauern von Telefonaten - 66 – Stochastik H n ( Ki ) 15 10 5 K1 K2 K3 K4 K5 K6 x 0 0 100 Abbildung 10: 200 300 Histogramm der Telefongesprächsdauern Das Histogramm hat eine nahezu symmetrische Gestalt mit einer Häufung in der 3. und 4. Klasse. Es könnte eine Normalverteilung vorliegen. Als Schätzung für die beiden Parameter der Normalverteilung erhalten wir gemäß Tabelle 2: µɵ = x σɵ = s 2 = 194,775 2 = ( 46,9563) ≈ 195 2 ≈ ( 47 ) 2 Im Schnitt dauert ein Telefonat 195 Sekunden (bzw. 3 Minuten). Unter Berücksichtigung der Erkenntnisse über die 1-, 2-, 3σ-Bereiche der Normalverteilung (siehe Kapitel 2) kann man folgende allgemeine Schlussfolgerungen über die Dauer von Telefonaten treffen: 68,8% aller Telefonate liegen zwischen 195-s und 195+s Sekunden, also zwischen 148 und 242 Sekunden, 95,5% der Telefonate liegen zwischen 101 und 289 Sekunden und 99,8% (fast alle) liegen im Bereich von 54 und 336 Sekunden. Bei der Aufstellung von Histogrammen sollte man sich an o.g. Regeln zur Wahl der Klassenzahl und Klassenbreite halten. Wählt man die Klassenzahl z.B. zu gering oder zu groß, so kann man den adäquaten Verteilungstyp nicht mehr erkennen. Folgende Abbildungen zeigen die Klasseneinteilung für unser Beispiel bei zu geringer und zu großer Klassenzahl. Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen H n ( Ki ) - 67 - H n ( Ki ) 25 20 15 10 5 5 x 0 0 100 Abbildung 11: 200 0 300 x 0 100 200 300 Histogramme der Telefondaten mit a) k=3 Klassen (B=73) und b) k = 20 Klassen (B=11) Übungsaufgaben 4.7 Zur Simulation eines Lagerhaltungssystems wird die Verteilung der Zeit benötigt, die ein Arbeiter zum Kommisionieren braucht. Es liegen 80 beobachtete Werte für diese Zeit vor (in Minuten). 1,91 2,68 3,42 3,40 3,20 3,40 3,50 3,80 2,42 2,70 1,85 3,42 3,80 3,90 4,20 3,66 3,01 3,20 2,00 3,00 3,52 3,75 4,50 5,00 3,25 3,41 2,50 3,00 3,10 4,45 3,50 3,85 2,85 3,10 3,30 3,05 3,10 4,30 4,00 5,40 1,72 3,33 3,35 3,05 3,90 3,45 4,20 3,85 2,95 3,98 2,50 3,77 2,96 3,54 3,62 3,95 3,43 4,00 3,40 3,45 3,90 3,15 3,65 4,50 1,50 3,10 2,90 3,35 2,98 4,00 3,90 4,80 3,42 4,50 2,83 4,30 3,60 3,16 3,70 3,83 Erstellen Sie ein Histogramm und treffen Sie eine Hypothese über die zugrundeliegende Verteilung! 4.3.2 Der χ2-Test zur Verteilungsprüfung Anhand der Gestalt der Histogramme können wir eine Annahme (Hypothese) über den Typ der zugrundeliegenden Verteilung der Zufallsgröße X aufstellen. Diese Annahme kann natürlich falsch sein, da unsere Hypothese insbesondere von den speziellen zufälligen Beobachtungen von X abhängt. Die Stochastik stellt sogenannte statistische Hypothesentestverfahren zur Verfügung, mit deren Hilfe man Hypothesen über - 68 – Stochastik den Typ einer unbekannten Verteilung oder über ihre Parameter prüfen kann. Die Güte von Hypothesentestverfahren wird u.a. durch Irrtumswahrscheinlichkeiten beschrieben. Die Testtheorie ist ein sehr großes Teilgebiet der Stochastik. Ausführliche Darstellungen zu diesem Gebiet übersteigen den Rahmen dieser Lehreinheit, wir verweisen z.B. auf [Gr], [Lex], [Krey]. Wir geben im Folgenden eine Einführung in die Grundprinzipien der Testtheorie anhand eines Tests zur Verteilungsprüfung. Zum Prüfen des Typs einer Verteilung hat sich der sogenannte χ2- Test durchgesetzt. Wir beschreiben das Testverfahren zunächst für die diskrete Verteilungsprüfung. Gehen wir von einem Beispiel aus. Angenommen, wir wollen testen, ob unser Würfel gleichmäßig ist oder nicht. Die zu prüfende Hypothese lautet: Ho: Die Augenzahlen sind gleichverteilt, d.h. es gilt P( X = i ) = 1/6, i =1,...,6 wobei X die zufällige beim Würfeln erzielte Augenzahl ist. Um die Hypothese zu prüfen, würden wir zunächst einige Male würfeln und die für jede Augenzahl beobachtete Häufigkeit derjenigen gegenüberstellen, die wir bei einem gleichmäßigen Würfel erwarten würden. Angenommen wir machen folgende n=60 Beobachtungen des Würfels: 1, 2, 4, 4, 3, 4, 3, 2, 4, 5, 2, 3, 6, 3, 3, 6, 2, 1, 2, 4, 2, 4, 5, 3, 2, 4, 6, 3, 2, 5, 3, 1, 4, 5, 2, 3, 6, 1, 5, 2, 3, 3, 5, 1, 6 , 2, 1, 5, 3, 4, 3, 5, 6, 1, 1, 4, 5, 2, 1, 6 Die folgende Tabelle enthält die entsprechenden Häufigkeiten: ai = i H n B (ai ) H nE (ai ) = n⋅(1/6) 1 2 3 4 5 6 9 12 13 10 9 7 10 10 10 10 10 10 Tabelle 4: Beobachtete und erwartete Häufigkeiten bei 60 Würfen Die Anzahl der Würfe, in denen die Augenzahl ai = i gewürfelt wurde, heißt beobachtete Häufigkeit und wird mit H n B ( a i ) bezeichnet. Ist der Würfel gleichmäßig, so würden wir bei 60 Würfen für jede Augenzahl i jeweils eine Häufigkeit von 10 erwarten. Diese Zahl heißt erwartete Häufigkeit und wird Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 69 - mit H nE (ai ) bezeichnet. Offensichtlich ist H nE (ai ) =n/6 bzw. allgemein H nE (ai ) =n⋅Po(X=ai), wobei Po die für X angenommene zu prüfende hypothetische Verteilung ist. Wir würden die Hypothese Ho offenbar dann nicht ablehnen, wenn die Abweichungen der beobachteten von den erwarteten Häufigkeiten gering sind. Wir verallgemeinern nun dieses Vorgehen. Ist X eine diskrete Zufallsgröße mit den möglichen Werten a1,....,ak, und ist P0 die angenommene hypothetische diskrete Verteilung von X , dann lautet die zu prüfende Hypothese H0 : X ∼ P0 Wir haben also ein Entscheidungsproblem zu lösen; in der Statistik schreibt man H0 : X ∼ P0 gegen H1 : X ∼ P , P ≠ P0 (9) H0 heißt Nullhypothese, H1 heißt Alternativhypothese. Um dieses Entscheidungsproblem zu lösen, beobachten wir X n mal und stellen die beobachteten Häufigkeiten H n B ( a i ) den Häufigkeiten H n E ( a i ) = nP0 ( X = a i ) gegenüber, die man bei Gültigkeit der Hypothese Ho erwarten würde: ai H n B (ai ) a1 H n (a1 ) H n E ( a i ) = nP0 ( X = a i ) B ⋮ ⋮ ak H n (ak ) E H n (a1 ) ⋮ B E H n (ak ) Manchmal kann man die erwarteten Häufigkeiten ( a i ) = nP0 ( X = a i ) nicht direkt berechnen, da die Wahrscheinlichkeits- Bemerkung: Hn E verteilung Po von unbekannten Parametern abhängt. Lautet die Nullhypothese z.B. Ho: X ~ P(λ) (d.h. X besitzt eine Poissonverteilung), so ist ai = i und H n ( a i ) = nP0 ( X = a i ) = n ⋅ E λi i! e −λ . In diesem Fall wird der unbekannte Parameter aus den Beobachtungen von X geschätzt und in Po eingesetzt. Im Falle der Poissonverteilung schätzen wir verwenden H n (a i ) = nPˆ0 ( X = a i ) = n ⋅ E λˆi i! e −λ . ˆ λ̂ = x und - 70 – Stochastik Die Abweichungen der beobachteten von den erwarteten Häufigkeiten könnte man dann mathematisch durch folgende Größe messen: (10) T = ∑ ( H n (ai ) − H n (ai )) E B Ist ε eine „hinreichend“ kleine positive Zahl, so könnten wir dann unsere Entscheidung wie folgt treffen: (11) Teststatistik, kritischer Wert Fehler 1. Art Fehler 2. Art T < ε Entscheidung für H0 ( X ∼ P0) T ≥ ε Entscheidung gegen H0 T nennt man Testgröße, oder Teststatistik, ε heißt kritischer Wert . Bei diesem Entscheidungsverfahren können 2 Fehlerarten auftreten: Wir entscheiden uns gegen Ho, obwohl Ho stimmt, oder, wir entscheiden uns für Ho, obwohl Ho nicht stimmt. Diese Fehler treten mit bestimmten Wahrscheinlichkeiten auf. Die Wahrscheinlichkeit α = P( T ≥ ε / X ∼ P0 ) sich gegen P0 zu entscheiden, obwohl P0 vorliegt, wird als Fehler 1. Art und die Wahrscheinlichkeit β(F) = P(T < ε / X ∼ P, P ≠ P0 ) sich für P0 zu entscheiden, obwohl X eine Verteilung P ≠ P0 wird als Fehler 2. Art bezeichnet. Dieser hängt offensichtlich von der vorliegenden Verteilung P ab. Ziel ist es, den kritischen Wert ε so festzulegen, dass beide Fehler möglichst klein sind. Allerdings ist es mathematisch unmöglich, beide Fehler gleichzeitig zu minimieren, zumal β auch noch von P abhängt. In der Regel bewirkt eine Verringerung des Fehlers 1. Art eine Vergrößerung des Fehlers 2. Art und umgekehrt. Mit der Konstruktion optimaler Tests beschäftigt sich die theoretische Statistik. Es gibt verschiedene Optimalitätskriterien. Ein gebräuchliches Vorgehen besteht darin, zunächst alle Tests zu finden, für die der Fehler 1. Art α einen vorgegebenen kleinen Wert (z.B. 0,01, 0,05) nicht überschreitet, und unter diesen denjenigen auszuwählen, für den der Fehler 2. Art gleichmäßig für alle P minimiert wird. Ein solcher Test heißt gleichmäßig bester α -Test. Einen solchen Test zu finden, ist ein großes theoretisches Problem und nicht immer möglich, denn man benötigt zur Berechnung des Fehlers 1. Art die Verteilung der Teststatistik T unter der Annahme, dass X ∼ P0 gilt; und zur Berechnung und Optimierung des Fehlers Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 71 - 2. Art benötigt man die Verteilung von T unter der Annahme X ∼ P, für beliebige P ≠ P0. Häufig lässt sich ein wenigstens ein Test konstruieren, für den zumindest die Verteilung der Teststatistik unter der Annahme, dass X ∼ P0 gilt, hergeleitet werden kann. Damit kann dann der kritische Wert ε so gewählt werden, dass der Fehler 1. Art gleich einem vorgegebenen Wert α ist; ε ist das 1-αQuantil der Verteilung der Teststatistik. Ein solcher Test wird als α -Test bezeichnet. Wir geben nun einen α-Test für unser Entscheidungsproblem an. Die Verteilung unserer Teststatistik (10) kann leider nicht berechnet werden. Aber es ist möglich, die Verteilung der leicht abgewandelten, aber dennoch plausiblen, Teststatistik ( H nE (ai ) − H nB (ai )) 2 T = ∑( ) H nE (ai ) i =1 k (12) zumindest für große n (n∞) herzuleiten und so zu gewährleisten, dass der Fehler erster Art wenigstens approximativ für große n einen vorgegebenen (kleinen) Wert α einhält. Diese Verteilung ist eine χ2-Verteilung, woraus der Name „χ2-Test“ des Tests resultiert. Satz 1: Sei X eine stetige Zufallsgröße mit dem Wertebereich {a1,....,ak}. Sei weiterhin P0 eine hypothetisch angenommene diskrete Verteilung von X mit m unbekannten Parametern θ i .Seien x1 , … , xn n unabhängige Beobachtungen von X auf deren Basis konsistente Schätzungen θɵ i für θ i, i=1,...,m, berechnet werden und sei P̂o die Verteilung, die man erhält, durch θɵ i, i=1,...,m, ersetzt. Seien wenn man in Po alle θ i B E schließlich H n ( a i ) und H n (ai ) =n⋅ P̂o (X=ai) die beobachteten und erwarteten Häufigkeiten, i=1,...,k. Unter der Annahme, dass die Nullhypothese H0 : X ∼ P0 gilt, besitzt dann die Teststatistik ( H nE (ai ) − H nB (ai )) 2 ) T = ∑( H nE (ai ) i =1 k asymptotisch für n →∞ eine χ2 - Verteilung mit k-m-1 Freiheitsgraden, d.h. es gilt unter H0 asymptotisch für n →∞: T ∼ χ k2− m−1 . α-Test - 72 – χ -Test für diskrete Verteilungen 2 Stochastik Auf der Basis dieses Satzes führen wir folgendes als χ2-Anpassungstest bezeichnetes Entscheidungsverfahren zum Prüfen von H0 : X ∼ P0 gegen H1 : X ∼ P , P ≠ P0 2 durch. Sei ε = χ k2− m−1 ( 1 − α ) das 1-α -Quantil der χ -Verteilung mit k-m-1 Freiheitsgraden. ( H nE (ai ) − H nB (ai )) 2 T = ∑( ) ≥ ε → H nE (ai ) i =1 k Entscheidung gegen H0 (13) k T = ∑( i =1 ( H nE (ai ) − H nB (ai )) 2 ) <ε H nE (ai ) → Entscheidung für H0 Aus Satz 1 folgt für den Fehler 1. Art dieses Tests: lim P(T> ε / H 0 ) = Fχ 2 n →∞ k − m−1 (T ≥ ε ) = 1 - Fχ 2 (T < ε ) = 1 - Fχ 2 (T < χ k2− m−1 (1 − α )) k − m−1 k − m −1 = 1 - (1-α)) = α. D.h., dass der Fehler 1. Art zumindest approximativ für große n vorgegebenen Wert α nicht überschreitet. einen Inhaltlich bedeutet die Einhaltung eines Fehlers 1. Art folgendes: Wählen wir α =0,05, so heißt das, dass bei 100-maliger Anwendung des Testverfahrens nur in fünf Fällen die Hypothese Ho abgelehnt wird, obwohl sie in Wirklichkeit gilt; bei α =0,01 sogar nur in einem Fall. In folgender Abbildung ist die Dichtfunktion der Teststatistik T in (12), die sich unter der Annahme, das Ho gilt, ergibt, dargestellt. Anhand dieser Dichtefunktion kann der Annahme- und Ablehnungsbereich des Tests (13) veranschaulicht werden. Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 73 - D ichte der χ k2− m− 1 - Verteilung 1− α α Annahmebereich von H 0 A b le h n u n g s - T b e re ich v o n H 0 ε= χ Abbildung 12: 2 k− m− 1 (1 − α ) Grafische Veranschaulichung der Teststrategie (13) Bemerkung :Um das Testkriterium (13) anwenden zu können, muss n hinreichend groß sein. Aufgrund praktischer Erfahrungen wird üblicherweise für H nE ( a i ) gefordert: H nE ( a i ) ≥ 5, für alle i =1,...,k Zurück zu unserem Beispiel: Wir wollen testen, ob unser Würfel gleichmäßig ist oder nicht. Dabei soll eine Irrtumswahrscheinlichkeit 1.Art α=0,05 eingehalten werden. Lösung: Um diese Hypothese zu prüfen, muss die Bedingung H nE ( a i ) =n/6 ≥ 5 erfüllt sein. Hierzu benötigt man also mindestens n=30 Beobachtungen! Wir gehen von den n=60 oben aufgelisteten Beobachtungen des Würfels und den in Tabelle 4 dargestellten beobachteten und erwarteten Häufigkeiten aus. Das Entscheidungskriterium lautet: n ( H nB (i ) − ) 2 für Ho < χ 62− m−1 (1 − α ) 6 T =∑ 2 n i =1 ≥ χ 6− m−1 (1 − α ) gegen Ho 6 6 Für die Teststatistik T erhalten wir: 6 T = ∑( i =1 ( H nB ( i ) − n / 6) 2 (9 − 10) 2 (12 − 10) 2 (13 − 10) 2 ) = + + + n/6 10 10 10 (10 − 10) 2 (9 − 10) 2 ( 7 − 10) 2 + + + 10 10 10 = 2,4 Test auf Vorliegen einer diskreten Gleichverteilung - 74 – Stochastik Die hypothetische Verteilung ist vollständig bekannt, d.h. es sind keine unbekannten Parameter zu schätzen. Es gilt also m = 0. Der kritische Wert des Tests ist also wegen k=6 und m=0 ε = χ k2− m−1 (1- α)= χ 52 (1 − 0,05) . Aus der Tabelle A4 der χ2-Verteilung im Anhang A liest man für α =0,05 und FG= 5 den kritischen Wert ab: χ 52 (1 − 0,05) = 11,07 Da T = 2,4 < 11,07 ist, kann die Nullhypothese nicht abgelehnt werden, der Würfel ist also als gleichmäßig zu betrachten; die Schwankungen in den Beobachtungen sind rein zufällig und nicht durch systematische Fehler des Würfels bedingt. Der χ2-Test wird auf analoge Weise auch für die Prüfung stetiger Verteilungen angewendet. Seien x1 , … , xn n Beobachtungen einer Zufallsgröße X, deren Verteilung zu bestimmen ist. Das Verfahren beginnt mit der Erstellung des Histogramms der Daten wie im Abschnitt 4.3.1 beschrieben. D.h., wir zerlegen den Datenbereich in k Intervalle und berechnen die absoluten B Klassenhäufigkeiten, die wir hier mit H n ( K i ) bezeichnen. Der Index „B“ steht wieder für „beobachtet“. Anhand des Histogramms wird eine Hypothese über die Art der Verteilung von X aufgestellt. Sei die angenommenen Verteilung F0, so haben wir das Entscheidungsproblem (14) H0 : X ∼ F0 gegen H1 : X ∼ F , F ≠ F0 zu lösen. Analog zum diskreten Fall stellen wir im stetigen Falle die beobachteten Klassenhäufigkeiten H nB ( K i ) denen gegenüber, die man erhalten würde, wenn die Verteilung F0 vorliegen würde; man bezeichnet sie als „erwartete“ absolute Klassenhäufigkeiten und verwendet das Symbol H nE ( K i ) . H nE ( K i ) berechnet man wie folgt: Sei f0 die Dichtefunktion der hypothetischen Verteilung F0. Die Wahrscheinlichkeit dafür, dass X in die Klasse K i = [a i , bi ) fällt, ist bei Vorliegen der Verteilung F0, , d.h. bei Gültigkeit der Nullhypothese Po ( X ∈ K i ) = bi ∫f ai o ( x)dx = F0 (bi ) − F0 (ai ) . Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 75 - Die erwarteten absoluten Klassenhäufigkeiten bei n Beobachtungen unter der Annahme, dass die Nullhypothese gilt, berechnet man folglich gemäß H nE ( K i ) = nPo ( X ∈ K i ) = n( F0 (bi ) − F0 (ai )), K i = [ai , bi ), i = 1,…, k (15) In Abbildung 13 sind diese Häufigkeiten grafisch gegenübergestellt. Wir skalieren die y-Achse so, dass die Fläche des Balkens über der Klasse Ki gerade gleich der relativen beobachteten Häufigkeit hnB ( K i ) = H nB ( K i ) /n ist . D.h. auf der y-Achse wird die sogenannte relative Häufigkeitsdichte hnB ( K i ) ~B hn ( K i ) = , ∆K i abgetragen. ∆K i = ( bi − a i ) , ~B h n ( Ki ) f0 P( X ∈ Ki ) ~B h n ( Ki ) ai Abbildung 13: Ki x bi Gegenüberstellung der beobachteten und erwarteten relativen Klassenhäufigkeiten Die Fläche unter der Dichte f0 über Ki ist gleich der Wahrscheinlichkeit P ( X ∈ K ) und damit gleich der erwarteten relativen Häufigkeit. Wir o i werden Ho nicht ablehnen, wenn sich für alle Klassen diese (schraffierten) Flächen sich nicht wesentlich von den (dunklen) Balken unterscheiden, d.h. wenn die beobachteten und erwarteten relativen, oder mit n multipliziert, die entsprechenden absoluten Häufigkeiten H nB ( K i ) und H nE ( K i ) in etwa gleich sind. Bemerkung: Wie im diskreten Fall kann es auch hier vorkommen, dass man die erwarteten Häufigkeiten nicht direkt berechnen kann, weil die zu prüfende Verteilung Fo bzw. Po von unbekannten Parametern abhängt. Diese müssen wir zunächst aus den Beobachtungen von X schätzen, z. B. mit der Momentenmethode. Prüfen wir z.B., ob X eine Normalverteilung besitzt, so müssen wir erst Erwartungswert µ und Varianz σ2 schätzen. Prüfen wir, ob - 76 – Stochastik eine Exponentialverteilung vorliegt, so muss erst ihr Parameter α geschätzt werden. Die Grundlage für unser Entscheidungskriterium bildet folgender zu Satz 1 analoger Satz für den stetigen Fall. Satz 2: Sei X eine stetige Zufallsgröße, x1 , … , xn n unabhängige Beobachtungen von X und K1,...,Kk (Ki=[ai,bi), i=1,...,k) eine Klasseneinteilung auf der Basis dieser Beobachtungen. Seien weiterhin F0 eine Verteilung mit m unbekannten Parametern θ i und θɵ i konsistente Schätzungen für θ i, i=1,...,m. Sei F̂o die Verteilung, die man erhält, wenn man in Fo alle θ θɵ durch B i , i=1,...,m, ersetzt. Seien schließlich H n ( K i ) i und H nE ( K i ) = n( Fˆ0 (bi ) − Fˆ0 (ai )) die beobachteten und erwarteten absoluten Klassenhäufigkeiten, i=1,...,k. Unter der Annahme, dass die Nullhypothese H0 : X ∼ F0 gilt, besitzt die Teststatistik T mit ( H nE ( K i ) − H nB ( K i )) 2 ) T = ∑( H nE ( K i ) i =1 k asymptotisch für n →∞ eine χ2 - Verteilung mit k-m-1 Freiheitsgraden, d.h. es gilt unter H0 asymptotisch für n →∞: T ∼ χ k2− m−1 χ -Anpassungstest für stetige Verteilungen 2 Unser Entscheidungsverfahren zum Prüfen von H0 : X ∼ F0 gegen H1 : X ∼ F , F ≠ F0 lautet dann wie folgt: Sei ε = χ k2− m−1 ( 1− α ) das 1-α -Quantil der χ2 - Verteilung mit k-m-1 Freiheitsgraden. k T = ∑( i =1 ( H nE ( K i ) − H nB ( K i )) 2 ) ≥ε H nE ( K i ) → Entscheidung gegen H0 (16) k T = ∑( i =1 ( H nE ( K i ) − H nB ( K i )) 2 ) <ε H nE ( K i ) → Entscheidung für H0 Aus Satz 2 folgt für den Fehler 1. Art dieses Tests: Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen - 77 - lim P(T> ε / H 0 ) = α. n→∞ Bemerkung 2: Um das Testkriterium (16) anwenden zu können, muss n hinreichend groß sein. Aufgrund praktischer Erfahrungen wird analog zum diskreten Fall für H nE ( K i ) gefordert: H nE ( K i ) ≥ 5 für alle i =1,...,k Um das zu erreichen muss man gegebenenfalls mehrere Klassen der Klasseneinteilung zusammenzufassen. Allerdings sollte die resultierende Klassenzahl den Wert 5 nicht unterschreiten. Beispiel: Wir betrachten unser Beispiel aus Abschnitt 4.3.1. Hier wurden 40 Gesprächsdauern von Telefonaten gemessen und die beobachteten Klassenhäufigkeiten ermittelt, siehe Tabelle 9. Aufgrund der Gestalt des Histogramms haben wir vermutet, dass die zufällige Gesprächsdauer X eines Telefonates normalverteilt ist. Das wollen wir nun unter Einhaltung eines Fehlers 1. Art von α =0,05 mit dem χ2-Test prüfen. Lösung: Unser Entscheidungsproblem lautet: H0 : X~N(µ, σ2) gegen H1: X nicht N(µ, σ2)-verteilt mit einem vorgegebenen Fehler 1. Art α =0,05. Für die Normalverteilung sind m=2 unbekannte Parameter zu schätzen; es ergibt sich auf der Basis der n=40 Beobachtungen von X: µ̂ = x =195 Sekunden und σˆ 2 = s = (47) . 2 2 Zur Berechnung der erwarteten Klassen-Häufigkeiten ermittelt man zunächst, unter Benutzung der Tabelle A1 für die Standardnormalverteilung, 2 die Werte der Verteilungsfunktion der Normalverteilung N( x , s ) an der Stelle der oberen Klassengrenzen bi der Klassen Ki=[ai, b i), i = 1,...,6: F̂o (bi) = φ((bi - x )/s) Der Einfachheit halber lassen wir im folgenden das Zeichen ∧ weg und schreiben nur Fo anstatt F̂o . Wir haben die Werte von Fo(bi) in Tabelle 5 Test auf Vorliegen einer Normalverteilung - 78 – Stochastik zusammengefasst. Die Wahrscheinlichkeiten, in eine Klasse zu fallen, ergeben sich dann aus der Differenz dieser Werte: Po(X∈Ki) = Fo(bi) - Fo(ai) = Fo(bi) - Fo(bi-1), Fo(b0) := 0. In Tabelle 6 sind die beobachteten und erwarteten absoluten Klassenhäufigkeiten gegenübergestellt. Da die erwartete Klassenhäufigkeit für Klasse 1 und 6 kleiner 5 ist, fassen wir Klasse 1 und 2, sowie 5 und 6 zusammen und wir erhalten schließlich die Werte in Tabelle 7, die die Grundlage der Berechnung der Teststatistik T bilden. Klasse i 1 2 3 4 5 6 Obere Klassengrenze Fo(bi)= φ((bi - x )/s) bi 118 0,0506 155 0,1974 192 0,4746 229 0,7653 266 0,9346 1,0000 ∞ Tabelle 5: Werte der erwarteten Verteilungsfunktion Klasse i Klassengrenzen 1 2 3 4 5 6 bis 118 119 - 155 156 - 192 192 - 229 229 - 266 > 266 Po(X∈Ki) erw. Häufgkt. E n H (K i ) 0,0506 0,1468 0,3772 0,2907 0,1693 0,0654 beobachtete Häufigkeiten H nB ( K i ) =40 Po(X∈ Ki) 2,024 5,872 15,088 11,628 6,772 2,616 3 4 14 10 6 3 Tabelle 6: Beobachtete und erwartete Klassenhäufigkeiten Klasse i 1 2 3 4 Klassen grenzen erw. Häufgkt. H (K i ) H nB ( K i ) bis 155 156 - 192 192 - 229 > 229 7,896 15,088 11,628 9,388 7 14 10 9 E n beob. Häufkt. Tabelle 7: Beobachtete und erwartete absolute Klassenhäufigkeiten nach Zusammenlegung Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen Für die Teststatistik T in (16) ergibt sich dann auf der Basis der Werte von Tabelle 7: T= (7 − 7,896) 2 (14 − 15,088) 2 (10 − 11,628) 2 (9 − 9,388) 2 + + + = 0,5235 7,896 15,088 11,628 9,388 Mit α =0,05, k=4 und m=2 erhalten wir für den kritischen Wert aus Tabelle A4 χ k2− m−1 (1- α) = χ2 1(0,95) = 3,841 Wegen T < 3,841 kann H0 nicht abgelehnt werden. Die Dauer von Telefongesprächen darf also als normalverteilt angesehen werden. Bemerkung: Für Histogramme, aber auch für den χ2-Test wird aufgrund praktischer Erfahrungen eine Klassenzahl k ≥ 5 gefordert. In unserem Beispiel erhalten wir aber nach der Zusammenlegung nur noch k=4 Klassen. Die Analyse sollte hier also mit zusätzlichen Beobachtungen wiederholt werden! Übungsaufgaben 4.8 Überprüfen Sie mit dem χ2 -Test zu einem Fehler 1. Art von 5%, ob Ihr Würfel gleichmäßig ist. Würfeln Sie dazu zunächst 50 Mal. - 79 - - 80 – Stochastik 4.9 Um die Abläufe in einer Service-Station zu optimieren, soll ein Modell für die Verteilung der zufälligen Anzahl X der pro Tag eintreffenden Aufträge aufgestellt werden. Beobachtungen an 50 Tagen ergaben folgende Werte für X: Anzahl der Aufträge pro Tag ai 0 1 2 3 4 5 6 und mehr Beobachtete Häufigkeiten B H n (ai ) 3 6 10 17 7 7 0 Prüfen Sie zu einem Fehler 1.Art von α= 0,05, ob die Anzahl X der eintreffenden Aufträge poissonverteilt ist! 4.10 In Aufgabe 4.7 haben Sie anhand von 80 Beobachtungsdaten ein Histogramm erstellt und eine Hypothese über die Verteilung der zufälligen Zeit X, die ein Arbeiter in einem Lagerhaltungssystem zum Kommissionieren benötigt aufgestellt. Prüfen Sie Ihre Hypothese mittels χ2-Test bei Einhaltung eines Fehlers 1. Art von α= 0,05! Erzeugung von Zufallszahlen 5 - 81 - Erzeugung von Zufallszahlen Nach Durcharbeiten dieses Kapitels können Sie • mit einem Algorithmus (Pseudozufalls-) Zahlen erzeugen, die sich so verhalten, als wären sie Beobachtungen einer Zufallsgröße mit der Verteilungsfunktion F. Schon die Frage : "Wie realisiert man auf einem Computer zufällige Größen?" ruft manchmal Erstaunen hervor, denn alles, was eine solche Anlage tut, muss ja vorher programmiert werden. Wie kann sich da eine Zufälligkeit ergeben? Eine Möglichkeit, zur Laufzeit reproduzierbare Zufallszahlen zu generieren, bieten rekursive Gleichungen, die auf der Basis vorangegangener Zufallszahlen eine neue Zufallszahl erzeugen. Da das Ergebnis eine deterministisch erzeugbare Zahlenfolge ist, sind die Zahlen nicht im eigentlichen Sinne zufällig. Zahlen, welche nach einer bestimmten Formel gewonnen werden und Werte einer Zufallsgröße nachbilden, werden deshalb auch Pseudozufallszahlen genannt. Die Erzeugung derartiger Zufallszahlen erfolgt in 2 Schritten : • 1. Schritt: Erzeugung von zufälligen Zahlen, die sich so verhalten, als wären es Beobachtungen einer stetig auf dem Intervall [0,1] gleichverteilten Zufallsgröße (gleichverteilte Zufallszahlen) • 2. Schritt: Transformation der im 1. Schritt erzeugten Zahlen so, dass sie als Beobachtungen einer Zufallsgröße mit der Verteilungsfunktion F gelten können. Wir beschränken uns im folgenden auf die Darstellung des 2. Schritts, da in jeder höheren Programmiersprache RANDOM-Funktionen enthalten sind, die auf dem Intervall [0,1] gleichverteilte Zufallszahlen liefern. Diese RANDOM-Funktionen basieren i.A. auf einem Algorithmus, der als Kongruenzmethode bezeichnet wird, wir werden hier nicht weiter darauf eingehen und verweisen auf [Gr]. Die Güte der RANDOM-Funktionen ist sehr unterschiedlich. Ob tatsächlich gleichverteilte Zahlen erzeugt werden, kann man mit entsprechenden statistischen Methoden, z.B. dem χ2-Test, zumindest aber optisch mit Hilfe von Histogrammen für eine ausreichende Zahl von erzeugten Zufallszahlen, überprüfen. Pseudozufallszahlen - 82 – Stochastik 5.1 Erzeugung diskret verteilter Zufallszahlen Erzeugung von Zufallszahlen diskreter Verteilungen In der Regel sind in jeder Software Zufallszahlengeneratoren enthalten, die auf [0,1] gleichverteilte Zufallszahlen erzeugen. Dahinter steckt eine Implementation eines bestimmten Pseudozufallszahlengenerators. Wir verwenden im folgenden stellvertretend für eine solche Built-in-Funktion die Funktion random(0,1). Wir benötigen nun eine Methode, die uns aus den zwischen 0 und 1 gleichverteilten Zufallszahlen solche erzeugt, die sich so verhalten, als wären sie Beobachtungen einer Zufallsgröße X mit einer beliebigen Verteilungsfunktion F. Erzeugung einer zweipunktverteilten Zufallszahl Wir betrachten zunächst die Simulation des Münzwurfs. Sei X das zufällige Ergebnis „Kopf“ oder „Zahl“ beim Münzwurf. X besitzt dann folgende Verteilung : 1 X= 0 Kopf 1 Zahl 1 2 2 Wir simulieren nun den Münzwurf, indem wir eine Realisierung von X erzeugen. Das geschieht wie folgt: 1. 2. Wir erzeugen eine zwischen 0 und 1 gleichverteilte Zufallszahl y, z.B. mittels random(0,1). Wir definieren dann : 1 Kopf, falls y < 12 x= Zahl, falls y ≥ 12 0 Kopf 0 Zahl 0.5 y 1 y Beide Werte 0 und 1 sind offenbar gleich wahrscheinlich! 5.1 Verallgemeinern Sie dieses Vorgehen auf die Erzeugung einer Beobachtung eine zweipunktverteilten Zufallsgröße X mit der p a Verteilung X = 1 1− p a2 Erzeugung von Zufallszahlen - 83 - Sei X eine Zufallsgröße mit dem Wertebereich M ={ a1 , a2 ,..., a k } und der diskreten Wahrscheinlichkeitsverteilung pi =P( X = ai ) ,i=1,...,k. a1 p1 x pi a2 p2 a3 ... p3 ... ... a k ... pk Eine Realisierung x von X erzeugen wir wie folgt: 1. Wir erzeugen eine zwischen 0 und 1 gleichverteilte Zufallszahl y, z.B. mittels random(0,1). Wir zerlegen das Intervall [0,1] in disjunkte Teilabschnitte der Länge pi. Die Wahrscheinlichkeit des Hineinfallens von y in ein solches Teilintervall ist gerade gleich pi . 2. Wir definieren unseren Zufallszahlengenerator wie folgt: x = ai falls hi−1 ≤ y < hi i=1,...,k, wobei die hi die kumulierten Wahrscheinlichkeiten sind: h0 = 0, x = a1 x = a 2 0 i hi = ∑ p j i = 1,..., k . j =1 x = a3 p1 p2 p3 ⋯⋯ x = ak ⋯⋯ pk 1 Übungsaufgaben 5.2 Ein gleichmäßiger Würfel habe statt Augenzahlen die Buchstaben A,O,O,O,T,T auf seinen 6 Seiten. Es wird solange gewürfelt, bis bei drei aufeinanderfolgenden Würfen eines der beiden Worte ‘OTO’ oder ‘TOT’ erscheint. Im 1. Fall hat Spieler A im 2. Fall Spieler B gewonnen. Ermitteln Sie durch fünf (Papier-undBleistift-)Simulationen dieses Spiels einen Schätzwert a) für die Gewinnwahrscheinlichkeit von A, b) für die mittlere Spieldauer (mittlere Anzahl der Würfe bis Spielende). Benutzen Sie für die auf [0,1] gleichverteilten Zufallszahlen die Zufallszahlentabelle A3 im Anhang A. Erzeugung einer beliebigen diskret verteilten Zufallszahl - 84 – Stochastik 5.2 Erzeugung von Realisierungen stetig verteilter Zufallsgrößen die inverse Transformationsmethode Erzeugung stetig verteilter Zufallszahlen, Ist X eine stetige Zufallsgröße mit der Verteilungsfunktion F, so erzeugen wir eine Realisierungen x von X wie folgt : die inverse Transformationsmethode 1. Erzeuge eine stetig im Intervall [0,1] gleichverteilte Zufallszahl y, z.B. mittels random(0,1). 2. Setze x = F -1 (y) d.h. löse die Gleichung y = F(x) nach x auf . Diese Methode wird Methode der Umkehrfunktion oder inverse Transformation genannt und ist die in der Praxis gebräuchlichste Methode. F( x ) 1 y −1 x x = F ( y) Abbildung 14: Erzeugung einer stetig verteilten Zufallszahl durch Bildung der Umkehrfunktion Diese Methode basiert auf der Tatsache, dass für eine auf [0,1] stetig gleichverteilte Zufallsvariable Y gilt: P(Y ≤ y ) = y für y ∈ [0,1] Wählen wir dann X=F-1(Y), so gilt: P( X ≤ x) = P( F −1 (Y ) ≤ x) = P( F ( F −1 (Y ) ≤ F ( x)) = P(Y ≤ F ( x)) = F ( x) D.h., X=F-1(Y) besitzt die Verteilungsfunktion F oder anders gesagt, die aus den Realisierungen y von Y abgeleiteten Werte x= F-1(y) verhalten sich so, als wären es Beobachtungen einer Zufallsgröße mit Verteilungsfunktion F. 5.3 Berechnen Sie für eine auf [0,1] stetig gleichverteilte Zufallsvariable Y die Wahrscheinlichkeit P (Y ≤ y ) für y∈[0,1]! Zeigen Sie, dass für diese gilt: P (Y ≤ y ) = y . Erzeugung von Zufallszahlen - 85 - Im folgenden demonstrieren wir die Methode der inversen Transformation an 2 Beispielen. Beispiel 1: Es soll ein Algorithmus zur Erzeugung exponentialverteilter Zufallszahlen angegeben werden. Lösung: Die Verteilungsfunktion F(x) einer exponentialverteilten Zufallsgröße X mit dem Erwartungswert EX hat die Gestalt: F ( x ) = 1 − e − λx für Erzeugung exponentialverteilter Zufallszahlen x≥0 wobei λ =1/EX ist. Die Auflösung der Gleichung y = F ( x ) = 1 − e − λx nach x erfolgt durch äquivalente Umformungen: y = 1 − e −λx ⇔ e − λx = 1 − y ⇔ −λx = ln(1 − y ) ⇔ x = − 1 λ ln(1 − y ) Die Gleichung 1 x = − ln(1 − y ) λ ist der Zufallszahlengenerator für die Exponentialverteilung, wobei y eine auf [0,1] gleichverteilte Zufallszahl ist. Folgendes Beispiel zeigt das Vorgehen bei der inversen Transformationsmethode, wenn die Dichtefunktion stückweise definiert ist. Beispiel 2: Erzeugung von Realisierungen einer dreiecksverteilten Zufallsgröße X ∼ D(a,m,b). Die Verteilungsfunktion F(x) einer auf [a,b] dreiecksverteilten Zufallsgröße X mit dem Häufungspunkt m hat die Gestalt 0 2 ( x − a) ( m − a)(b − a) F( x) = ( x − a) 2 1 ( m − a)(b − a) 1 für x < a für a ≤ x ≤ m für m < x ≤ b für x ≥ 1 Erzeugung von Realisierungen einer dreiecksverteilten Zufallsgröße - 86 – Stochastik Da F(x) aus verschiedenen Formeln für die beiden Teilbereiche [a,m] und [m,b] gegeben ist, muss hier die Invertierung von F für beide Bereiche getrennt erfolgen. Wir erhalten für den Fall a ≤ x ≤ m bzw. 0 ≤ F ( x ) ≤ y = F ( x) = m−a : b−a ( x − a) 2 ⇔ ( x − a ) 2 = y (m − a)(b − a) (m − a)(b − a) ⇒ x = a + y (m − a)(b − a) und für den Fall m ≤ x ≤ b bzw. m− a ≤ F ( x ) ≤ 1: b−a ( x − b) 2 y = F ( x) = 1 − ⇔ ( x − b) 2 = (1 − y )(b − m)(b − a) (b − m)(b − a) ⇒ x = b − (1 − y )(b − m)(b − a) Die Vorschrift zur Erzeugung einer auf [a,b] mit dem Häufungspunkt m dreiecksverteilten Zufallszahl lautet also : a + x= b − m− a b− a y( m − a)(b − a) falls 0≤ y≤ (1− y )(b − m)(b − a) falls m− a ≤ y≤ 1 b− a wobei y eine im Intervall [0,1] gleichverteilte Zufallszahl ist. Übungsaufgaben 5.4 Sei X eine auf dem Intervall [a,b] stetig gleichverteilte Zufallsgröße. Geben Sie einen Algorithmus zur Erzeugung zufälliger Realisierungen von X an! Geben Sie einen Algorithmus zur Erzeugung zufälliger Realisierungen von X an, wenn X folgende Dichtefunktion besitzt: 5.5 0,75 f ( x) = 0,5 0 für −0,5 ≤ x ≤ 0,5 für 0,5 < x ≤ 1 sonst Erzeugung von Zufallszahlen 5.3 - 87 - Erzeugung von Zufallsgröße Realisierungen einer normalverteilten Die Verteilungsfunktion einer Standardnormalverteilung ist das Integral über die Gauß’sche Dichtefunktion: F( x) = 1 2π x ∫ − e x2 2 dx −∞ Wenden wir die Inversionsmethode wie üblich an, so müssten wir die Gleichung y = F(x) nach x auflösen, bzw. die Umkehrfunktion x = F− 1 ( y ) berechnen. Das ist leider analytisch nicht möglich. Man kann hier numerische Verfahren einsetzen oder die Tabelle der Standardnormalverteilung im Anhang benutzen, um zu vorgegebenem Funktionswert y das Argument x abzulesen. Das sind allerdings wenig gebräuchliche Methoden. Für die Erzeugung standardnormalverteilter Zufallsgrößen hat sich die sogenannte Methode von Box und Müller durchgesetzt. Box und Müller haben 1958 folgenden Satz bewiesen: Satz : Seien Y1 und Y2 zwei auf [0,1] gleichverteilte voneinander unabhängige Zufallsvariablen. Dann gilt : Die transformierten Zufallsgrößen X 1 = − 2 ln(Y1 ) cos(2πY2 ) und X 2 = − 2 ln(Y1 ) sin( 2πY2 ) sind zwei unabhängige standardnormalverteilte Zufallsgrößen. Um standardnormalverteilte Zufallszahlen zu erhalten, erzeugt man also zunächst zwei auf [0,1] gleichverteilte Zufallszahlen y1 und y2 und transformiert sie anschließend nach o.g. Vorschrift. Je zwei gleichverteilte Zufallszahlen y1 und y2 liefern zwei standardnormalverteilte Zufallszahlen x1 und x2. Zur Erzeugung einer Zufallszahl x, die einer Normalverteilung mit beliebigem Erwartungswert µ und beliebiger Varianz σ2 entspricht, nutzt man die Linearität der Normalverteilung aus, (siehe Reproduktionssatz, Teil a), Kap. 3.2). Diese lässt sich wie folgt formulieren: Methode von Box und Müller zur Erzeugung standardnormalverteilter Zufallszahlen - 88 – Stochastik Satz : Es gilt Z ~ N (0,1) genau dann, wenn X = σ ⋅ Z + µ ~ N ( µ , σ 2 ) . Daraus ergibt sich die folgende Methode zur Erzeugung einer Zufallszahl, die sich wie eine Beobachtung einer mit dem Erwartungswert µ und der Varianz σ2 normalverteilten Zufallsgröße verhält: 1. Erzeuge eine Realisierung z einer standardnormalverteilten Zufallsgröße gemäß der Methode von Box und Müller . 2. Berechne x aus der Vorschrift x = σ ⋅ z + µ . Übungsaufgaben 5.6 a) Erzeugen Sie unter Verwendung der Tabelle A3 im Anhang A der gleichverteilten Zufallszahlen 30 Realsierungen einer N(4,1)-verteilten Zufallsgröße! b) Stellen Sie für Ihre 30 Werte ein Histogramm auf und vergleichen Sie es mit der Verteilungsdichte der N(4,1)Verteilung! Tabellen - 89 - Literaturverzeichnis Standard-Literatur Diese Literatur ist für einen breiten Leserkreis gedacht, der eine mathematische Grundausbildung (als Nichtmathematiker) besitzt. [Grei] M.Greiner und G.Tinhofer: Stochastik für Studienanfänger der Informatik, Carl-Hanser-Verlag München, 1996. [Krey] D.Kreyszig: Statistische Methodenlehre. Teubner, Stuttgart, 1995. [Preu] W.Preuß und G. Wenisch: Lineare Algebra und Stochastik, Fachbuchverlag Leipzig , 2001. [Stin] Peter Stingl: Mathematik für Fachhochschulen – Technik und Informatik, Carl Hanser Verlag München Wien, 1996. Weiterführende Literatur Diese Literatur ist für einen Leserkreis gedacht, der auf der Basis dieser Kurseinheit sein Grundwissen zur Stochastik ergänzen möchte. [Gr] B.Grabowski: Mathematische Methoden in der Simulation dynamischer Systeme (SIM3), Hrg. ZFH Koblenz, Fernstudium Allg. Informatik, 1997. [Lex] G.Walz (Hrg.), B.Grabowski: Lexikon der Statistik, Elsevier–Spektrum Akademischer Verlag, 2004. [Wa] E.Wahrmuth: Mathematische Modelle diskreter stochastischer Systeme (SIM2), Hrg. ZFH Koblenz, Fernstudium Allgemeine Informatik, 1997. Wissenschaftliche Literatur Diese Literatur ist nicht für einen breiten Leserkreis gedacht, sonder eher für Fachleute, die auf dem Gebiet der Anwendung stochastischer Verfahren angewandte Forschung und Entwicklung betreiben. [Fish] G. S. Fishman: Monte Carlo, Concepts, Algorithms, and Applications, Springer Verlag New York, 1996. [Math] R. Mathar; D. Pfeifer: Stochastik für Informatiker. Teubner, Stuttgart, 1990. [Rip] B. D. Ripley: Stochastic Simulation. John Wiley & Sons, Inc., 1987. - 90 – Stochastik Tabellen und Diagramme A1. Tabelle der Verteilungsfunktion Φ (u) der Standardnormalverteilung für u=0,00 (0,01)3,09 Es gilt: Φ(-u) = 1-Φ(u) und Φ(u)≈1 für u ≥ 3,1 Die Funktion Φ(u) ist für u=0,00 bis u=3,09 mit der Schrittweite 0,01 tabelliert. Dabei setzt sich u aus den Zahlen der linken Spalte und der Kopfzeile zusammen. Die Zahlen in der Kopfzeile stellen die zweite Nachkommastelle von u dar. Ablesebeispiele: Φ(1,27)=0,898, Φ(-2,1) = 1- Φ(2,1) = 1–0,9821=0,0179, Φ(-3,12)=1-Φ(3,12)=0. Tabellen - 91 - Die Quantile der Standardnormalverteilung erhält man aus Tabelle A1 durch lineare Interpolation. Quantile: Φ (u ) = 0,5 ⇒ u = 0 , Φ (u ) = 0,9 ⇒ u = 1,282 α 0,900 0,950 0,975 0,990 0,995 0,999 uα 1,282 1,645 1,960 2,326 2,576 3,090 α 0,100 0,050 0,025 0,010 0,005 0,001 uα -1,282 -1,645 -1,960 -2,326 -2,576 -3,090 A2. Tabelle der Quantile der Standardnormalverteilung - 92 – Stochastik A3 Zufallszahlen zur Gleichverteilung Die einzelnen Ziffern bilden eine Zufallszahlenfolge zur Gleichverteilung auf der Menge der Ziffern 0 bis 9. Die Fünfergruppen, als Dezimalzahl gelesen und durch 100000=105 geteilt, sind eine Zufallszahlenfolge zur Gleichverteilung auf dem Intervall [0,1]. Tabellen - 93 - m\α 0,005 0,01 0,025 0,05 0,1 0,9 0,95 0,975 0,99 0,995 1 2 3 4 5 0,000 0,000 0,000 0,004 0,016 2,706 3,841 5,023 6,635 7,879 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,60 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,34 12,94 0,207 0,297 0,484 0,711 1,064 7,779 9,422 11,14 13,28 14,86 0,412 0,554 0,831 1,145 1,610 9,236 11,07 12,83 15,09 16,75 6 7 8 9 10 0,676 0,872 1,237 1,635 2,204 10,64 12,59 14,45 16,81 18,55 0,989 1,239 1,690 2,167 2,833 12,02 14,07 16,01 18,48 20,28 1,344 1,647 2,180 2,733 3,490 13,36 15,51 17,53 20,09 21,96 1,735 2,088 2,700 3,325 4,168 14,68 16,92 19,02 21,67 23,59 2,156 2,558 3,247 3,940 4,865 15,99 18,31 20,48 23,21 25,19 11 12 13 14 15 2,603 3,053 3,816 4,575 5,578 17,28 19,68 21,92 24,72 26,76 3,074 3,571 4,404 5,226 6,304 18,55 21,03 23,34 26,22 28,30 3,565 4,107 5,009 5,892 7,042 19,81 22,36 24,74 27,69 29,32 4,075 4,660 5,629 6,571 7,790 21,06 23,68 26,12 29,14 31,32 4,601 5,229 6,262 7,261 8,547 22,31 25,00 27,49 30,58 32,80 16 17 18 19 20 5,142 5,812 6,908 7,962 9,312 23,54 26,30 28,85 32,00 34,27 5,697 6,408 7,564 8,672 10,09 24,77 27,59 30,19 33,41 35,72 6,265 7,015 8,321 9,390 10,86 25,99 28,87 31,53 34,81 37,16 6,844 7,633 8,907 10,12 11,65 27,20 30,14 32,85 36,19 38,58 7,434 8,260 9,491 10,85 12,44 28,41 31,41 34,17 37,57 40,00 25 30 35 40 45 10,52 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 46,93 13,79 14,95 16,79 18,49 20,60 40,26 43,98 46,98 50,89 53,67 17,19 18,51 20,57 22,46 24,80 46,06 49,20 53,20 57,34 60,27 20,71 22,16 24,43 26,51 29,05 51,81 55,34 59,34 63,69 66,77 24,31 25,90 28,37 30,61 33,35 57,51 61,41 65,41 69,96 73,17 50 60 70 80 90 100 27,99 29,71 32,36 34,76 37,69 63,17 67,42 71,42 76,15 79,49 35,53 37,48 40,48 43,19 46,46 74,40 79,30 83,30 88,38 91,95 43,28 45,44 58,76 51,74 55,33 85,53 90,02 95,02 100,4 104,2 51,17 53,54 67,15 60,39 64,28 96,58 101,9 106,6 112,3 116,3 59,20 61,75 65,65 69,13 73,29 107,6 113,1 118,1 124,1 128,3 67,33 70,07 74,22 77,93 82,36 118,5 124,3 129,6 135,8 140,2 A4: Quantile χm (α α) der χ -Verteilung mit m Freiheitsgraden 2 2 α)) = α P(X < χm (α 2 - 94 – Stochastik Lösungshinweise zu den Aufgaben Aufgabe 1.1 A ∩ B = {2,4,6} , B\A=∅, C\A={20,40}, B ∪ C = C , B A = {1,3,5,7,8,9} , ℘(B)={∅, {2}, {4}, {6}, {2,4}, {2,6}, {4,6}, B}, |℘(B)|=8 Aufgabe 1.2 a) zu 6, b) zu 5, c) zu 2, d) zu 3, e) zu 1, f) zu 4 Aufgabe 1.3 _________ Es gilt: ( A ∪ B) M = AM ∩ BM Aufgabe 1.4 Die linke und rechte Seite des ersten Teils der Behauptung 2 des Satzes verdeutlichen wir uns in folgendem Venn-Diagramm: Beide Seiten sind offensichtlich gleich. Analog verdeutlicht man sich die anderen Behauptungen des Satzes. Aufgabe 1.5 a) A={t∈R|t ≥ 3}, B={t∈R|t ≤ 5}, C={t∈R|t > 7}, D={t∈R|3 ≤ t ≤ 5}. b) C⊂A c) D=A∩B d) A\C ={ t∈R|3 ≤ t ≤ 7} e) B,C und C,D. Aufgabe 1.6 a) z.B ℑ={∅, {1,2}, {3,4}, {5,6}, {1,2,3,4}, {1,2,5,6}, {3,4,5,6},Ω} und ℑ={∅, {1}, {2,3,4,5,6}, Ω}. b) u.a. weil {2}∪{4}∉{∅,{2}, {4}, {1,3,5,6}, Ω} . c) 2|Ω| . Aufgabe 1.7 a) Ω = {(K,Z), (Z,K), (Z,Z), (K,K)} Lösungshinweise zu den Aufgaben b) ℑ = ℘(Ω) = { ∅, {(K,Z)}, {(Z,K)}, {(Z,Z)}, {(K,K)}, {(K,Z), (Z,K)},{(K,Z), (Z,Z)}, {(K,Z), (K,K)}, {(Z,K), (Z,Z)}, {(Z,K), (K,K)}, {(Z,Z), (K,K)}, {(K,Z), (Z,K), (Z,Z)}, {(K,Z), (Z,K), (K,K)}, {(Z,K), (Z,Z), (K,K)}, {(K,Z)}, {(Z,Z), (K,K)}, Ω} c) A={(K,K),(Z,K)} – beim 2. Mal K(opf) geworfen, B={(K,K),(Z,Z)} – 2 mal das gleiche geworfen, C={(K,K), (Z,K), (K,Z)} – nicht 2 mal Z(ahl) geworfen. d) Z.B. {∅, Ω, {(K,Z), (Z,K)}, {(Z,Z), (K,K)}} und {∅, Ω, {(K,Z), (Z,K), (Z,Z)}, {(K,K)}} . Aufgabe 1.8 Man überzeugt sich leicht mit Hilfe von Venn-Diagrammen, dass die beiden Eigenschaften eines Vollständigen Ereignissystems erfüllt sind: 1) (A∪B) ∪ ( A ∩B) ∪ ( A ∩ B ) ∪ ( A ∩ B ) = Ω 2) (A∪B) ∩ ( A ∩B) =∅, (A∪B) ∩ ( A ∩ B ) = ∅, (A∪B) ∩ ( A ∩ B ) = ∅, ( A ∩B) ∩ ( A ∩ B ) =∅, ( A ∩B) ∩( A ∩ B ) = ∅, ( A ∩ B ) ∩ ( A ∩ B ) = ∅. Aufgabe 1.9 Es gilt A= (A\B) ∪ (A∩B) mit (A\B) ∩(A∩B) =∅. Aus Axiom 3 der Wahrscheinlichkeit ergibt sich daraus P(A)=P(A\B)+P(A∩B) bzw. P(A\B)=P(A)-P(A∩B). Weiterhin ist A∪B=B∪(A\B) und B∩(A\B)=∅. Aus Axiom 3 der Wahrscheinlichkeit ergibt sich dann die Behauptung P(A∪B)=P(B)+P(A\B)=P(B)+P(A)-P(A∩B). Aufgabe 1.10 Gegeben ist P( „Viagra“ ∪ „Rolex“)=0,025. Wir definieren das Ereignis S=„E-Mail ist spamverdächtig“. Dann gilt für die gesuchte Wahrscheinlichkeit: _________ _________ P( S ) = P("Viagra"∩ " Rolex") = 1 − P(„Viagra“ ∪ " Rolex" ) = 1 – 0,025 = 0,075. Aufgabe 1.11 Wir definieren das Ereignis K = Das Produkt ist verkäuflich. Es gilt: P(K) = P ( F1 ∩ F2 ) = 1 − P( F1 ∪ F2 ) = 1 – ( P( F1 ) + P( F2 ) − P( F1 ∩ F2 ) ) = 1 – (0,01 + 0,02 – 0,005) = 0,075. - 95 - - 96 – Stochastik Aufgabe 1.12 Sei A={ ωi1 ,..., ωik } eine Menge, die aus k Elementarereignissen besteht. Dann ist A als Vereinigung A= {ωi1 } ∪ ⋯{ωik } von k disjunkten Mengen darstellbar. Aus Axiom 3 der Wahrscheinlichkeit und Teil 1 des Satzes folgt dann die Behauptung wegen P(A)=P( {ωi1 } ∪ ⋯{ωik } )=P( {ωi1 }) + ⋯ + P( {ωik } ) = 1/m+…+1/m=k/m. Aufgabe 1.13 Wir überlegen uns zunächst, wie die Elementarereignisse aussehen. Einen Versuchsausgang kann man offensichtlich durch ein 5 – Tupel (i1,i2,i3,i4,i5) mit ij∈{1,2,3,4,5,6} beschreiben, ij ist die Augenzahl des j-ten Würfels. Ω ist die Anzahl aller 5-Tupel. Da jeder Würfel 6 Möglichkeiten besitzt und alle 5Tupel durch eine Kombination der 6 Möglichkeiten aller 5 Würfel entstehen, gilt: |Ω|= 6 ⋅ 6 ⋅ 6 ⋅ 6 ⋅ 6 =65. Zu a) Das Ereignis A ist die Menge aller 5-Tupel aus Ω, die aus den Zahlen 1,2,3,4,5 bestehen. Es gibt genau 5! verschiedene Möglichkeiten, diese 5 Zahlen anzuordnen, also ist |A|=5! Und wir erhalten für die gesuchte Wahrscheinlichkeit: P(A) = | A | 5! = .. | Ω | 65 Zu b) Das Ereignis A ist die Menge aller 5-Tupel, in denen 2 mal eine 4 und 3 mal eine 6 vorkommt. Würden wir alle diese 5 Tupel auflisten wollen, müssten wir aus den 5 Würfeln immer 2 auswählen, denen wir die 4 5 2 zuordnen, der Rest bekommt die Zahl 6. Es gibt genau | A |= = derartige Möglichkeiten. Folglich ist P(A)= 5! = 10 2!3! | A | 10 = = 0,001 . Die Chance, 2 | Ω | 65 mal eine 4 und 3 mal eine 6 zu würfeln, ist 1 zu 1000. Zu c) Das Ereignis A ist die Menge aller 5-Tupel, die nur verschiedene Zahlen 6 enthalten. Es gibt genau Möglichkeiten, 5 verschiedene Zahlen aus 6 5 möglichen auszuwählen und nocheinmal 5! Möglichkeiten, diese im 5 Tupel 6 5 zu vertauschen. Demzufolge ist | A |= ⋅ 5!= 6! und wir erhalten für die gesuchte Wahrscheinlichkeit: | A | 6! = . | Ω | 65 Lösungshinweise zu den Aufgaben Aufgabe 1.14 Wir überlegen uns zunächst, wie die Elementarereignisse aussehen. Einen Versuchsausgang kann man offensichtlich durch ein Tripel (i1,i2,i3) mit ij∈{1,2,3,4,5,6} beschreiben, ij ist die Augenzahl des j-ten Würfels. Ω ist die Anzahl aller Tripel. Da jeder Würfel 6 Möglichkeiten besitzt, gilt: |Ω|= 6 ⋅ 6 ⋅ 6 = 6 3 . Das Ereignis A= „mindestens 2 mal eine „6“ würfeln“ zerlegen wir in die beiden Teilereignisse: A2 = „genau 2 Sechsen gewürfelt“ und A3 = „genau 3 Sechsen gewürfelt“. Offensichtlich ist |A| = |A2| + |A3|. Es gibt nur eine Möglichkeit, genau 3 Sechsen zu würfeln – jeder der 3 Würfel muss die Augenzahl 6 aufweisen. D.h., |A3| = 1. 3 Weiterhin gibt es genau ⋅ 5 = 15 Möglichkeiten dafür, dass genau 2 der 3 2 Würfel die Augenzahl 6 besitzen und der dritte eine beliebige andere Augenzahl von 1 bis 5. D.h., |A2| = 15. Folglich ist P(A)= | A | 15 + 1 = 3 = 0,074 . |Ω| 6 Aufgabe 1.15 Es gilt B = ( A ∩ B) ∪ ( A ∩ B) und ( A ∩ B) ∩ ( A ∩ B) = ∅. Aus Axiom 3 der Wahrscheinlichkeit folgt dann P( B) = P ( A ∩ B) + P( A ∩ B) und wir erhalten P( A | B) = P( A ∩ B) P( B ) − P ( A ∩ B) P( A ∩ B) = = 1− = 1 − P( A / B) . P ( B) P( B) P( B) Aufgabe 1.16 Es ist (siehe Lösung zu Aufgabe 1.15) P( A ∩ B) = P( B) − P( A ∩ B). Daraus folgt wegen P ( A ∩ B ) = P ( A) ⋅ P ( B ) sofort P( A ∩ B) = P( B ) − P ( A) ⋅ P( B) = (1 − P( A)) P( B) = P( A) ⋅ P( B). Die anderen Beziehungen beweist man analog. Aufgabe 1.17 Die Wahrscheinlichkeit dafür, aus den 11 Buchstaben zuerst ein „m“ zu ziehen ist P( „m“) = 1/11. Es verbleiben noch 10 Buchstaben, darunter 4 mal der Buchstabe „i“. Die Wahrscheinlichkeit dafür, als nächstes ein „i“ zu ziehen, ist demzufolge P(„i“/„m“)= 4/10. Analog berechnet man alle anderen Ziehungswahrscheinlichkeiten. In Anwendung des Multiplikationssatzes erhalten wir die gesuchte Wahrscheinlichkeit: - 97 - - 98 – Stochastik P(„mississippi“) =P(„m“)⋅P(„i“/„m“)⋅P(„s”/„mi”)⋅P( „s”/ „mis”)⋅ …. ⋅P(„i” /„mississippi”) = 1 4 4 3 3 2 1 2 2 1 1 4!⋅4!⋅2 1 = ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ = . 11 10 9 8 7 6 5 4 3 2 1 11! 34650 Aufgabe 1.18 Wir definieren das Ereignis Si=„ Sudent i findet die richtige Lösung“. Gegeben ist P(S1)=P(S2)=0,6, gesucht ist P( S1 ∪ S 2 ). S1 und S2 sind stochastisch unabhängig, folglich sind es auch S 1 und S 2 und für die gesuchte Wahrscheinlichkeit ergibt sich: P( S1 ∪ S 2) = 1 − P( S 1 ∩ S 2) = 1 − P( S 1) ⋅ P( S 2) =1-0,4⋅0,4=0,86. Unabhängig keit Aufgabe 1.19 Wir definieren folgende Ereignisse: S= „Das System funktioniert“, Ei= „Element Ei funktioniert“, R1 = „Reihe 1 funktioniert“. a) Offensichtlich gilt: P( S ) = P( R1 ∩ E 3 ∩ E 4) = Unabhängig keit P( R1) ⋅ P( E 3) ⋅ P( E 4) Weiterhin ist: P( R1) = 1 − P( R1) = 1 − P( E1 ∩ E 2) und wir erhalten = Unabhängigkeit 1 − P( E1) ⋅ P( E 2) =1-0,9⋅0,9=0,19, P( S ) =0,19⋅0,1⋅0,1=0,0019. Für die gesuchte Wahrscheinlichkeit ergibt sich demzufolge: P(S)=1-0,0019=0,9981. b) Wenn E3 funktioniert, so funktioniert auch das System. D.h., es gilt P(S/E3) = 1. Gemäß dem Satz von Bayes erhalten wir dann für die gesuchte Wahrscheinlichkeit: P( E 3 / S ) = 0,9 P( S / E 3) P( E 3) P( E 3) = = ≈0,902 P( S ) P( S ) 0,9981 c) E3 und S sind nicht stochastisch unabhängig, denn es ist P(E3/S)≠P(E3). Aufgabe 1.20 Wir definieren die Ereignisse B = „das Wort ‚Viagra’ kommt vor“ und S = „Text ist ein Spam“. Gegeben sind folgende Wahrscheinlichkeiten: P(S)=0,2 und P(B/S)=0,9 und P(B/ S )=0,01. Gesucht sind a) P(S/B) und b) P(S/ B ). a) Gemäß der Formel von Bayes ist P( S / B) = P( B / S ) P( S ) . Aus der Formel P( B) der totalen Wahrscheinlichkeit ergibt sich P(B)=P(B/S)P(S)+P(B/ S )P( S )=0,9⋅0,2+0,01⋅0,8=0,188 und für P(B): wir erhalten: Lösungshinweise zu den Aufgaben P( S / B) = - 99 - 0,9 ⋅ 0,1 = 0,957 . In 95,7% aller Fälle ist ein Text, der als Spam 0,188 eingestuft wurde, tatsächlich ein Spam. b) Es ist: P ( S / B ) = P ( B / S ) P ( S ) (1 − P ( B / S )) ⋅ P ( S ) 0,1 ⋅ 0,2 = ≈ 0,02 , d.h. = 1 − P( B) 0,912 P( B ) dass 2% aller Texte, die nicht als Spam eingestuft wurden, Spams sind. Aufgabe 1.21 Gegeben sind folgende Wahrscheinlichkeiten: P(Z1)=0,3, P(Z2)=0,2, P(Z3)=0,5, P(A/Z1)=0,01, P(A/Z2)=0,02, P(A/Z3)=0,005. a) Gemäß der Formel der totalen Wahrscheinlichkeit erhalten wir für die gesuchte Wahrscheinlichkeit: P(A) =P(A/Z1)⋅P(Z1)+P(A/Z2)⋅P(Z2)+P(A/Z3)⋅P(Z3) =0,01⋅0,3+0,02⋅0,2+0,005⋅0,5 =0,0095 b) Die gesuchte Wahrscheinlichkeit ist nach Satz von Bayes: P( Z1 / A) = P( A / Z1) P( Z1) 0,01 ⋅ 0,3 = ≈ 0,316 P( A) 0,0095 Aufgabe 2.1 Der Wertebereich von X ist die Menge {0,1,2,3}. Im Abschnitt 2.2.1 wurden bereits die Wahrscheinlichkeiten p3 = P ( X = 3) = p 2 = P ( X = 2) = 15 63 und 1 berechnet. Analog berechnen wir p 0 = P( X = 0) und 63 p1 = P( X = 1) . Wir erhalten 125 und 63 P( X = 1) = P (( X 1 = 1 ∩ X 2 = 0 ∩ X 3 = 1) ∪ ( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 0) P(X=0)=P(X1=0∩X2=0∩X3=0)=P(X1=0)⋅P(X2=0)⋅P(X3=0) = ∪ ( X 1 = 0 ∩ X 2 = 0 ∩ X 3 = 1)) = P ( X 1 = 1) P( X 2 = 0) P( X 3 = 1) + P( X 1 = 0) P( X 2 = 1) P( X 3 = 0) + P( X 1 = 0) P( X 2 = 0) P( X 3 = 1) =3⋅ 1 5 5 75 ⋅ ⋅ = . 6 6 6 63 Die Wahrscheinlichkeitsverteilung von X ist also: X=i pi 0 1 2 3 125 63 75 63 15 63 1 63 - 100 – Stochastik Aufgabe 2.2 Ein elementarer Versuchsausgang des Versuchs „Würfeln mit zwei Würfeln“ lässt sich als Paar (W1,W2) beschreiben, wobei Wi die Augenzahl des i.ten Würfels ist. Die Anzahl aller möglichen Versuchsausgänge ist |Ω|=6⋅6=36. Sei X die zufällige Summe der Augenzahlen beim Würfeln mit zwei Würfeln. Offensichtlich ist X durch die Abibldung X : (W1,W2) → W1+W2 definiert und es ist P(X=k) = P({ (W1,W2)|W1+W2 =k}). Wir erhalten P(X=6)=P({(1,5),(2,4),(3,3),(4,2),(5,1)}) = 5/36 P(X=7)=P({ (1,6),(2,5),(3,4),(4,3),(5,2),(6,1)}) = 6/36 und P(X=8)=P({(2,6),(3,5),(4,4),(5,3),(6,2)}) = 5/36. Daraus folgt für die gesuchte Wahrscheinlichkeit: P(S=6 ∪ S=7 ∪ S=8) =P(S=6)+P(S=7) +P(S=8) = (5+6+5)/36 = 4/9. Aufgabe 2.3 P(Kein Verlust)=P(Schön ∪ Regen) =P(Schön) + P(Regen) =0,5+0,25=0,75. Aufgabe 2.4 Sei X die zufällige Anzahl der defekten CD-RW’s, die sich in einem Paket von 10 Stück befinden. Wir definieren die zweipunktverteilte Zufallsgröße CD ist defekt p 1 Xi = 0 CD ist nicht defekt 1 − p die den Status der i.ten CD beschreibt. Es ist p=P(Xi=1)=0,01 gegeben. Offensichtlich gilt X~B(n=10, p=0,01) und wir erhalten für die gesuchte Wahrscheinlichkeit: P( X > 1) = 1 − P( X ≤ 1) = 1 − P( X = 0) − P( X = 1) 10 10 = 1 − (0,01) 0 (0,99)10 − (0,01)1 (0,99) 9 1 0 ≈ 0,004 Aufgabe 2.5 3 i −3 e i =0 i = 0 i! = 1 − e −3 (1 − 3 − 9 / 2 − 9 / 2 − 27 / 8 − 27 ⋅ 3 / 40) P(X>5)=1-P(X ≤ 5) =1 - = 0,183 5 5 ∑ P( X = i) = 1 − ∑ Lösungshinweise zu den Aufgaben Aufgabe 2.6 Aufgabe 2.7 Aufgabe 2.8 Aufgabe 2.9 a) Fläche unter der Funktion ist nicht gleich 1. b) Funktion ist nicht monoton wachsend c) Funktion hat negative Funktionswerte. Aufgabe 2.10 a) Aus der Grafik können wir für die Dichtefunktion entnehmen: 2 2 x + . Für die Verteilungsfunktion ergibt sich damit: 9 3 0 für x<0 x x 2 2 F(x)= ∫ f (u ) du = ∫ (− x + )du für 0 ≤ x ≤ 3 3 −∞ 0 9 1 für x>3 0 für x<0 x2 2 = − + x für 0 ≤ x ≤ 3 9 3 1 für x>3 f(x)= − b) P(X>1)=1-F(1)= 4/9. - 101 - - 102 – Stochastik c) P(X>2/X ≥ 1) = P( X ≥ 1 ∩ X > 2) 1 − F (2) = = 1 /4. P( X ≥ 2) 1 − F (1) d) Wir lösen die Gleichung F(x)=0,5 nach x auf und erhalten zunächst 2 x = 3 ± 3/ 2 . Da x0,5 ≤ 3 ist, ist die Lösung = 3 − 3 / 2 ≈ 0,879 . D.h., 50% aller Verspätungen sind geringer als 0,879 Lösungen: x0,5 Minuten. Aufgabe 2.11 Aufgabe 2.12 Sei I=[u, u+d] ein beliebiges Intervall der Länge d. Dann gilt für jedes u∈[a,b] u+d P(X∈I) = 1 u+d u ∫ f ( x)dx = b − a [ x] u = d . b−a Aufgabe 2.13 F(x)=0 für x ≤ a, F(x)=(x-a)/(b-a) für a ≤ x ≤ b, F(x)=1 für x >b. Grafik: siehe Aufgabe 2.11. Aufgabe 2.14 Aufgabe 2.15 Die Fläche unter der Dichte ist [(c-a)h+(b-c)h]/2=1. Daraus folgt: h=2/(b-a). c muss kleiner werden, wenn [a,b] länger wird, weil die Fläche unter der Dichte gleich 1 sein muss. Aufgabe 2.16 Lösungshinweise zu den Aufgaben - 103 - Aufgabe 2.17 P( X > s + t / X > s) = P( X > s + t ∩ X > s) P( X > s + t ) 1 − F (s + t ) = = 1 − F (s) P( X > s) P( X > s) e −λ ( s +t ) = −λs = e −λt = 1 − F (t ) = P ( X > t ) e Aufgabe 2.18 0 falls x < 0 0 x = a) F ( x ) = ∫ f ( x )dx = −u / 2 −x / 2 e du x ≥ 0 , 5 falls 0 1 − e −∞ ∫0 x falls x < 0 falls x ≥ 0 b) P(X>2) = 1 - F(2)=e-1 ≈ 0,368. D.h., in 36,8% aller Fälle dauert der Abbau eines Glases Wein länger als 2 h. c) Wir lösen die Gleichung P(X > t) = 0,1 nach t auf. D.h., t ist das 0,9-Quantil der Exponentialverteilung. Es gilt: P( X > t ) = 0,1 ⇔ 1 − F (t ) = 0,1 ⇔ e − t / 2 = 0,1 ⇔ t = −2 ln(0,1) = 4,6 . In 10% aller Fälle wird eine Abbauzeit von 4,6 h überschritten. Aufgabe 2.19 Aufgabe 2.20 X*=(X+3)/2. Aufgabe 2.21 Die Verteilungsfunktion ist symmetrisch, d.h. es genügt, alle Werte für x≥0 zu tabellieren. Alle Werte > 3,09 liegen außerhalb des 3-σ-Bereiches. Φ(4) ≈1, Φ(-4)=1-Φ(4)≈0. Aufgabe 2.22 a) 3-σ-Bereich: 3400 ± 3⋅470 g = [1990 g , 4810 g]. Außerhalb dieses Intervalls liegen (100 - 99,7)% = 0,3 % aller Geburtsgewichte. - 104 – Stochastik b) P(2500 ≤ X ≤ 4000) = F(4000)-F(2500) = 2500 − 3400 900 600 4000 − 3400 ) = Φ Φ = Φ (1,277) − Φ (−1,915). − Φ − − Φ( 470 470 470 470 Aus Tabelle A1 im Anhang A entnehmen wir: Φ(1,277)=0,898 und Φ(-1,915)=1-Φ(1,915)=1- 0,9723=0,0277. Damit erhalten wir das Ergebnis: P(2500 ≤ X ≤ 4000) = 0,898 – 0,0277 = 0,8703. c) c ist die Lösung der Gleichung P(3400 –c ≤ X ≤ 3400 +c)=0,9. Es gilt: P(3400 –c ≤ X ≤ 3400 +c) =0,9 ⇔ F(3400+c)-F(3400-c)=0,9 ⇔ Φ(c/470) - Φ(c/470) = 0,9 ⇔ 2Φ(c/470)-1=0,9 ⇔ Φ(c/470) = 0,95 ⇔ c/470 = u0,95 ⇔c = 470⋅ u0,95 Aus Tabelle A2 im Anhang entnehmen wir u0,95 = 1,645 und folglich ist c = 470 ⋅ 1,645 = 773,15. D.h., im Intervall [2626,85 g, 4173,15 g] liegen 90% aller Geburtsgewichte. Aufgabe 2.23 Sei Y=(X-EX)2. Y besitzt die gleiche Dichtefunktion wie X, denn es gilt: ∞ ∫ Y=(x-EX) ⇔ X=x. Wir erhalten damit EY= ( x − EX ) 2 f ( x ) dx =Var(X). 2 −∞ Aufgabe 2.24 ∞ ∫ Var(X)= ( x − EX ) f ( x ) dx = 2 ∫x ∫x −∞ −∞ ∞ = ∞ 2 2 f ( x)dx + ( EX ) 2 ∞ ∞ −∞ −∞ ∫ f ( x)dx − 2 EX ∫ xf ( x)dx f ( x)dx + ( EX ) 2 − 2( EX ) 2 = E ( X 2 ) − ( EX ) 2 . −∞ Aufgabe 2.25 Sei X die Anzahl der richtig geratenen Aufgaben (von 12). X ist binomialverteilt: X ~ B(n=12, p=1/4). Demzufolge ist gemäß Tabelle 1: EX = np = 12/4 = 3. Aufgabe 2.26 Sei X der zufällige an einem Tag erzielte Gewinn des Eisverkäufers. Dann ist gemäß Definition des Erwartungswertes für diskrete Zufallsgrößen EX = (0,5⋅200 + 0,3⋅100 – 0,2⋅70) Euro = 116 Euro. Lösungshinweise zu den Aufgaben - 105 - Aufgabe 2.27 b ∞ b 1 1 x2 b 2 − a 2 (b − a )(b + a ) a + b EX = ∫ xf ( x)dx = xdx = = = = . 2(b − a ) 2 b − a ∫a b − a 2 a 2(b − a ) −∞ ∞ Var ( X ) = ∫ ( x − EX ) 2 f ( x)dx = −∞ b 1 ( x 2 − 2 xEX + ( EX ) 2 )dx ∫ b−a a b (b − a ) 2 1 x3 2 2 = − + = ( ) x EX x EX 12 b−a 3 a Aufgabe 2.28 a) Wir wenden die Tschebyscheff-Ungleichung für ε=c an und unterstellen, dass X eine stetige Zufallsgröße ist. Dann gilt: P (| X − 10 |≤ c) = P (| X − 10 |< c) ≥ 1 − 4 . c2 Wir bestimmen jetzt das gesuchte c als kleinste Lösung der Ungleichung 1− 4 ≥ 0,95. Es ist c = 8,94. c2 b) Unter Annahme der Normalverteilung gilt: P (| X − 10 |≤ c) = P (10 − c ≤ X ≤ 10 + c) = F (10 + c) − F (10 − c) = Φ ( c / 2) − Φ ( − c / 2) = 2Φ ( c / 2) − 1. Wir lösen die Gleichung 2Φ (c / 2) − 1 = 0,95 nach c auf und erhalten c = 1,96⋅2 = 3,92. Aufgabe 3.1 a) EY=2E(X1)+3E(X2)=40. Var(Y)=4var(X1)+9Var(X2)=40. b) Wir lösen das Gleichungssystem E(aX1+b)=EX2, Var(aX1+b)=Var(X2) nach a und b. Das Gleichungssystem ist aufgrund der Eigenschaften von Erwartungswert und Varianz äquivalent zu aE(X1)+b = a⋅5+b=10 , a2Var(X1)=a2⋅1=4. Daraus ergibt sich a=2, b=0 oder a=-2, b=20. Aufgabe 3.2 a) Folgt aus den Linearitätseigenschaften des Erwartungswertes und der Varianz. b) a= Var ( X ) , b= EX. - 106 – Stochastik Aufgabe 3.3 Sei X = X1 + X2 + X3 die zufällige Gesamtübertragungszeit. Aus den Eigenschaften von Erwartungswert und Varianz und aus dem Reproduktionssatz folgt dann: X=EX1+EX2+EX3=200, Var(X) = Var(X1)+ Var(X2)+ Var(X3) = 38 ms2 und X~N(200ms, 38 ms2 ). Für die gesuchte Wahrscheinlichkeit erhalten wir somit : 190 − 200 210 − 200 − Φ P(190 ≤ X ≤ 210) = F (210) − F (190) = Φ 38 38 10 − 1 = 2 ⋅Φ(1,62) - 1 = 2⋅ 0,9474 – 1 = 0,8948. = 2 ⋅ Φ 38 Aufgabe 3.4 Sei X die Anzahl der Sechsen beim 600maligen Würfeln. Dann ist X~B(n=600,p=1/6). Gemäß Grenzwertsatz von Moivre und Laplace ist X dann auch näherungsweise normalverteilt: X~N(np, np(1-p)) = N(100, 500/6). Für die gesuchte Wahrscheinlichkeit erhalten wir somit: 90 − 100 110 − 100 − Φ P(90 ≤ X ≤ 110) = F (110) − F (90) = Φ 500 / 6 500 / 6 10 − 1 = 2 ⋅Φ(1,095)-1 = 2⋅ 0,864 – 1 = 0,728. = 2 ⋅ Φ 500 / 6 Aufgabe 3.5 Sei X die Anzahl der infizierten Personen (unter 240), die sterben. Dann gilt: X~B(n=240, p=0,8). Gemäß dem Satz von Moivre und Laplace ist X näherungsweise auch normalverteilt: X ~N(np, np(1-p)) = N(192, 38,4). Für die gesuchte Wahrscheinlichkeit erhalten wir somit : 180 − 192 =1-Φ(-1,936) = Φ(1,936) = 0,9735. P ( X > 180) = 1 − F (180) = 1 − Φ 38,4 Aufgabe 3.6 FG 3 7 35 α 0,025 0,95 0,9 xα 0,216 14,07 46,06 Lösungshinweise zu den Aufgaben - 107 - Aufgabe 4.1 Je größer n, desto kleiner die Varianz der relativen Häufigkeit, desto spitzer die Dichtefunktion, desto kleiner (genauer) der 3-σ-Bereich um P(A) herum, in welchem hn(A) mit 99,8%iger Wahrscheinlichkeit liegt. D.h., mit größer werdendem n wird P(A) immer genauer durch hn(A) geschätzt. Aufgabe 4.2 Wir wenden die üblichen Methoden der Analysis an. Wir berechne die 1. Ableitung von f(p) und setzen sie gleich 0. Es ist f’(p)=1-2p =0 für p=1/2. Folglich ist p=1/2 ein extremwertverdächtiger Punkt. Wir berechnen nun die 2. Ableitung von f(p). Es ist f’’(p)=-2<0. Folglich ist p=1/2 ein Maximum. Es ist f(1/2)=1/2(1-1/2)=1/4. Aufgabe 4.3 a) Gegeben sind α=0,99 und ε=0,01. Gemäß Formel (5) ist dann n wie folgt zu wählen: 2 1+ α u (u (0,995) 2 (2,576) 2 2 = = = 16589,44 . D.h., der Text muss n≥ 0,0004 0,0004 4ε 2 aus mindestens n=16590 Buchstaben bestehen. b) ε muss die Gleichung P(| hn (" E" ) − P(" E" ) |≤ ε ) ≥ 0,95 erfüllen. Wir können die Wahrscheinlichkeit P(| hn (" E" ) − P(" E" ) |≤ ε ) nicht direkt berech- nen, sondern nur nach unten abschätzen. Gemäß Formel (1) gilt: P(| hn (" E" ) − P(" E" ) |≤ ε ) ≥ 2Φ (2ε n ) − 1 . Um das gewünschte ε zu erhalten, lösen wir nun die Gleichung 2Φ (2ε / n ) − 1 ≥ α nach ε auf. Wir erhalten gemäß Formel (2): 2Φ (2ε n ) − 1 ≥ α ⇔ Φ(2ε n ) ≥ (1 + α ) / 2 ⇔ ε ≥ u (1+2α ) 2 n . - 108 – Stochastik Für α=0,95 lesen wir u((1+α)/2)=u(0,975)=1,96 aus Tabelle A2 im Anhang A ab und erhalten als kleinstes ε: ε =1,96/(2 500 )=0,0438. D.h., die unbekannte Wahrscheinlichkeit P(„E“) liegt mit mindestens 95 %iger Sicherheit im Intervall [0,2562, 0,3438]. c) Gemäß Formel (1) gilt: P(| hn (" E" ) − P(" E" ) |≤ 0,01) ≥ 2Φ(2 ⋅ 0,01 10000 ) − 1 = 2Φ(2) -1 = 2⋅ 0,9772 – 1 = 0,9544 (D.h., erhöhen wir den Stichprobenumfang n von n=500 (b)) auf n=10000 (c)), so erhöht sich die Genauigkeit von 0,0438 auf ε=0,01.) d) hn(„E“) ist näherungsweise normalverteilt mit den Parametern µ=P(„E“) 2 und σ = P(„E“)(1-P(„E“))/n. Unter der Annahme P(„E“)=0,27 gilt also: 2 hn(„E“) ~ N(0,27, (0,031) ). Für die gesuchte Wahrscheinlichkeit erhalten wir dann: P(|hn(„E“) – 0,27| > 0,08) = 1- (F(0,27+0,08)-F(0,27-0,08)) = 1- (Φ(0,08/0,031) - Φ(-0,08/0,031)) = 2(1- Φ(0,08/0,031)) = 2(1 - Φ(2,58)) = 2(1 – 0,9951) = 0,0098 Diese Wahrscheinlichkeit ist sehr gering. D.h., da der Student eine Differenz > 0,8 beobachtet hat, die unter der Annahme P(„E“)=0,27 sehr gering wahrscheinlich ist, ist seine Schlussfolgerung, dass die Angabe P(„E“)=0,27 falsch ist, durchaus gerechtfertigt. Aufgabe 4.4 Wir erhalten für Erwartungswert und Varianz einer stetigen auf [a,b] gleichverteilten Zufallsgröße EX= a+b (b − a) 2 (siehe Tabelle und Var(X)= 2 12 1). Wir lösen die beiden Gleichungen nach a und b auf. Aus der 1. Gleichung erhalten wir a=2⋅EX-b. Nach Einsetzen von a in die 2. Gleichung ergibt sich: 1 Var ( X )= (b − EX ) 2 3 bzw. 3Var ( X ) = b − EX . Stellen wir diesen Ausdruck nach b um, so erhalten wir den gesuchten funktionalen Zusammenhang b=EX+ 3Var ( X ) . Setzen wir b nun wieder in die Beziehung a=2⋅EX-b ein, so ergibt sich für a die Beziehung a=EX - 3Var ( X ) . Lösungshinweise zu den Aufgaben - 109 - Aufgabe 4.5 In Anwendung von Formel (6) und (8) auf die gegebenen Beobachtungen 10 erhalten wir ∑x i =1 i = 42,2 , 10 ∑ (x i =1 2 i ) = 184,86 und damit x = 4,24, s 2 = 0,5649. und s ≈ 0,752. Daraus ergibt sich gemäß Momentenschätzungen (Tabelle 2): aˆ = x − 3 ⋅ s = 2,9375 und bˆ = x + 3 ⋅ s = 5,5425. Aufgabe 4.6 In Anwendung von Formel (6) auf die gegebenen Beobachtungen erhalten wir x = 15,5. Daraus ergibt sich gemäß Momentenschätzungen (Tabelle 2): λɵ = x = 15,5. λ ist die durchschnittliche Anzahl eintreffender Nachrichten pro ms. Aufgabe 4.7 Klasseneinteilung: Klassenzahl: k= 80 =8,7 -> k=9 Klassenbreite: xmin=1,5 xmax=5,4 B=( 5,4-1,5)/9=0,433 -> B=0,44 (wir runden B auf die Genauigkeit 0,01 auf !) Häufigkeitsverteilung: i Ki Hn(Ki) 1 [1,50, 1,94) 4 2 [1,94, 2,38) 1 3 [2,38, 2,82) 5 4 [2,82, 3,26) 19 5 [3,26, 3,70) 22 6 [3,70, 4,14) 18 7 [4,14, 4,58) 8 8 [4,58, 5,02) 2 9 > 5,02 1 Die Hypothese lautet: Die Kommissionszeit ist normalverteilt. Aufgabe 4.8 Die Lösung erfolgt analog zum Beispiel „Test auf Vorliegen einer diskreten Gleichverteilung“ im Kapitel 4.3.2. Aufgabe 4.9 Die Nullhypothese lautet: H0: X ist poissonverteilt . Wir haben den Parameter λ der Poissonverteilung zu schätzen, es ist somit m=1. Wir erhalten λɵ = x =2,8. Mit Hilfe der Wahrscheinlichkeitsverteilung - 110 – Stochastik der Poissonverteilung lassen sich mit λɵ = x =2,8 die erwarteten absoluten Häufigkeiten berechnen: ne − λ λˆi ˆ H (i ) = nPo ( X = i ) = , i=1,...,n i! E n Die Ergebnisse sind folgender Tabelle zusammengefasst : Klasse i Erwartete Anzahl Beobachtete ˆ e − λ λˆi Po ( X = i ) = Häufigkeiten i der Häufigkeiten i! Aufträge H nB ( i ) H nE (i ) == nPˆo ( X = i ) 1 2 3 4 5 6 7 0 1 2 3 4 5 6 und mehr ∑ 3 6 10 17 7 7 0 50 0,061 0,170 0,238 0,223 0,116 0,087 0,065 1,000 3,040 8,515 11,920 11,125 7,785 4,360 3,255 50,000 Tabelle: Häufigkeitstabelle der Aufträge Da hier erwartete Häufigkeiten auftreten, die kleiner als 5 sind, werden benachbarte Zeilen (1 und 2, 6 und 7) zusammengefasst und wir erhalten folgende Häufigkeitstabelle: Klasse i 1 2 3 4 5 Anzahl i der Aufträge bis 1 2 3 4 5 und mehr ∑ Absolute Häufigkeiten beobachtet 9 10 17 7 7 50 erwartet 11.555 11,920 11,125 7,785 7,615 50,000 Tabelle: Häufigkeitstabelle der Aufträge mit zusammengefassten Klassen Für die Teststatistik erhalten wir : T= (9 − 11,555) 2 (10 − 11,920) 2 (17 − 11,125) 2 + + + 11,555 11,920 11,125 + (7 − 7,785) 2 (7 − 7,615) 2 + = 4,106 7,785 7,615 Lösungshinweise zu den Aufgaben - 111 - Für den kritischen Wert ergibt sich aus der Tabelle A4 im Anhang für α =0,01, k=5 und m=1: χ k2− m−1 (1- α) = χ2 3 (0,99) = 11,345. Da hier T < 11,345 gilt, kann man davon ausgehen, dass die Anzahl der Aufträge pro Tag poissonverteilt mit dem Parameter λ=2,8 sind. Aufgabe 4.10 Die Klassen-Häufigkeitstabelle der beobachteten Klassenhäufigkeiten haben wir bereits als Lösung von Aufgabe 4.7 erhalten. Die Null-Hypothese lautet: H0: Die Kommissionszeit ist normalverteilt. Um den χ2-Test anzuwenden, sind die zwei Parameter der Normalverteilung zu schätzen; wir erhalten x = 3,436 , s 2 = 0,502, s=0,709. Die weitere Anwendung des χ2-Tests erfolgt wie in Kapitel 4.3.2 beschrieben mit α=0,05, m=2, n=80, x = 3,436 und s=0,709 . Die Nullhypothese wird angenommen. Aufgabe 5.1 y=random(0,1); x=a1, falls y <p; x=a2, falls y ≥p. Aufgabe 5.2 Simulation der Würfelergebnisse mit Hilfe der Tabelle A3 (Ablesen von links nach rechts, von oben nach unten). Wir treffen folgende Zuordnung: Wenn 0 ≤ x ≤ 0,33→ A, 0,33 < x ≤ 0,66 → O, 0,66< x ≤ 1,00→ T. Simulationsergebnisse: Simula- Folge von Würfelergebnissen tionslauf 1 TAOATAOOTTATTTTAOAAATOOOTO 2 OOAOATAOAATTTOT 3 AOTAAOOOATOAAOAAOTO 4 AOOTTTOOOOOAOAOOOAA- Spieldauer Gewinner 26 15 19 42 A B A B 4 A TTTATTAAAOAOAAOOOOTATOT 5 OOTO - 112 – Stochastik a) Als Schätzwert für die Gewinnwahrscheinlichkeit wird die relative Gewinnhäufigkeit von A verwendet: (Anzahl der Gewinne von A) / ( Anzahl der Spiele)=3/5=0,6 . A hat eine 60 %ige Gewinnwahrscheinlichkeit. 5 ∑ Anzahl der Würfe in Spiel i b) Mittlere Spieldauer = = i =1 5 26 + 15 + 19 + 42 + 4 = 106 / 5 = 21, 2 . 5 Im Mittel sind 21,2 Würfe pro Spiel nötig. Aufgabe 5.3 y P(Y≤y)= 1 ⋅ du = [u ]0 = y ∫ y 0 Aufgabe 5.4 1. y sei eine auf [0,1] gleichverteilte Zufallszahl, z. B. mittels random(0,1) erzeugt. 2. x = a + b⋅y Aufgabe 5.5 x Es gilt mit F ( x ) = ∫ f (u)du : −∞ 3 3 −0.5 ≤ x ≤ 0.5 4 x + 8 für F ( x) = und 1 1 x+ für . 0.5 ≤ x ≤ 10 2 2 für x < −0.5 0 F ( x) = für x > 100 . 1 Lösungshinweise zu den Aufgaben - 113 - Demzufolge lautet der Algorithmus zur Erzeugung einer gemäß dieser Verteilung verteilten Zufallszahl: 4 1 x= y− 3 2 x = 2 y − 1 F(x)=y ⇔ falls falls 0 ≤ y ≤ 6 / 8 , 6 / 8 ≤ y ≤ 1 wobei y eine in [0,1] gleichverteilte Zufallszahl ist. Aufgabe 5.6 a) 1. y1 und y2 sind zwei Zufallszahlen aus Tabelle A3 im Anhang A, z.B. die ersten beiden in der 1. Zeile von A3: y1=0,94737 und y2=0,08225. 2. z1 = − 2 ln( y1) cos(2πy 2) , z 2 = − 2 ln( y1) sin(2πy 2) sind zwei standardnormalverteilte Zufallszahlen. 3. X1=z1+4 und x2=z2+4 sind zwei N(4,1)-verteilte Zufallszahlen. Das Vorgehen wird 15mal wiederholt. b) Die Aufstellung des Histogramms erfolgt analog zum Beispiel im Kapitel 4.3.1. Glossar - 115 - Glossar χ2 - Verteilung Seien X1 , … , Xn n stochastisch unabhängige standardnormalverteilte Zufallsgrößen. Dann besitzt die Quadratsumme n X= ∑(X i =1 i )2 eine χ2-Verteilung mit n Freiheitsgraden. Bezeichnung: X ~ χ n2 . Die χ2-Verteilung hängt von einem Parameter, dem sogenannten Freiheits2 abgekürzt bezeichnet. Der FG ist eine natürgrad (FG), ab und wird mit χ FG liche Zahl und bestimmt die Form der Dichtefunktion. Die Dichtefunktion ist 2 nicht symmetrisch. Ist X ∼ χ FG , so gilt EX = FG und Var (X) = 2 FG. Die χ2Verteilung wird für den χ2 - Anpassungstest benötigt. χ2 - Anpassungstest Der χ2-Anpassungstest ist ein Testverfahren zum Prüfen der Adäquatheit einer Verteilungsfunktion F0 für X. Die Nullhypothese lautet: H0: X besitzt die Wahrscheinlichkeitsverteilung Po bzw. H0: X besitzt die Verteilungsfunktion F0 . F0 muss dabei nicht vollständig bekannt sein; sie kann noch m unbekannte Parameter θ 1 , … , θ m enthalten. Die Teststatistik T des χ2-Anpassungstest basiert auf der Differenz zwischen den beobachteten und erwarteten Häufigkeiten H nB (ai ) und H nE (ai ) bzw. Klassenhäufigkeiten HnB ( Ki ) und HnE ( Ki ) : k T =∑ i =1 k T= ( H nE (ai ) − H nB (ai )) 2 für diskrete Zufallsgrößen H nE (ai ) ∑ (H i= 1 E B 2 n ( Ki ) − Hn ( Ki )) E Hn ( Ki ) für stetige Zufallsgrößen. T besitzt eine χ2-Verteilung mit k-m-1 Freiheitsgraden, wobei k die Anzal der möglichen Werte für X bzw. die Klassenzahl der Häufigkeitsverteilung von X und m die Anzahl der zu schätzenden Parameter von Po bzw. F0 sind. Die Teststatistik T wird mit dem ( 1− α )-Quantil der χ2-Verteilung als dem - 116 – Stochastik kritischen Wert verglichen: ε =χ2k-m-1(1-α). Ist T< ε , so wird die Entscheidung für H0 getroffen, andernfalls wird H0 abgelehnt. Der χ2-Test ist ein α-Test. Arithmetisches Mittel, Streuung Das arithmetische Mittel x ist eine Punktschätzung für den Erwartungswert EX und die Streuung s2 ist eine Punktschätzung für die Varianz Var(X) einer Zufallsgröße X . Aufgrund der Definition von EX und Var(X) sind folgende Schätzwerte plausibel: x= s2 = 1 n ∑x , n i =1 i 1 n ∑ ( x − x )2 n − 1 i=1 i Beide Schätzfunktionen sind erwartungstreue und konsistente Schätzfunktionen für EX bzw. Var(X), siehe Punktschätzungen. Bayes’sche Formel, Formel der totalen Wahrscheinlichkeit Sind A1, A2,..., An ein vollständiges System von Ereignissen und B ein weiteres Ereignis, so gilt die Bayes’sche Formel: P ( A j | B) = P ( A j ∩ B) P( B ) = P( A j ) P( B / A j ) n . ∑ P ( A ) P( B / A ) i =1 i i n Die Beziehung P ( B ) = ∑ P ( Ai ) P( B / Ai ) wird als Formel der Totalen Wahri =1 scheinlichkeit bezeichnet. Bedingte Wahrscheinlichkeit Die Information über das Eintreten eines Ereignisses B kann die Chancen für das Eintreten von A verändern. Die Bewertung dieser Chance erfolgt über die bedingte Wahrscheinlichkeit von A unter der Bedingung B: P( A / B) = P( A ∩ B) (Hier ist P(B)≠0 vorausgesetzt). P( B ) Glossar - 117 - Binomialverteilung Eine diskrete Zufallsgröße X mit dem Wertebereich {0,1,...,n} heißt binomialverteilt mit den Parametern n und p, falls sie folgende Wahrscheinlichkeitsverteilung besitzt: n p i = P( X = i) = p i (1 − p ) n −i , i i=0,1,...,n. Bezeichnung X~B(n,p), EX=np, Var(X)=np(1-p). Aus dem Zentralen Grenzwertsatz folgt, dass man eine B(n,p)-Verteilung für große n und kleine p durch eine Normalverteilung N(np,np(1-p)) annähern kann. Diskrete Zufallsgrößen Die Verteilung einer diskreten Zufallsgröße kann als Tabelle angegeben werden: Wert ai a1 a2 … ak P(X=ai) p1 p2 … pk Die Summe der Einzelwahrscheinlichkeiten pi muss 1 ergeben. Die Zahl k EX = ∑ ai pi i =1 heißt Erwartungswert von X. k Var ( X ) = ∑ (ai − EX ) 2 pi i =1 heißt Varianz von X. σ = Var ( X ) bezeichnet man als Standardabweichung. Exponentialverteilung mit dem Parameter λ Eine exponentialverteilte Zufallsgröße nimmt Werte im Intervall [0,∞) an. Die Dichte einer Exponentialverteilung mit dem Parameter λ>0 hat die Gestalt: λe − λx f ( x) = 0 für x ≥ 0 für x < 0 Bezeichnung: X~E(λ). EX=1/λ, Var(X)=1/λ2. Fehler 1. Art, Fehler 2. Art Da die Entscheidung in einem Hypothesentest auf einer Stichprobe beruht, können Fehlentscheidungen vorkommen, die als Fehler 1. und 2. Art - 118 – Stochastik bezeichnet werden. Man begeht einen Fehler 1. Art, wenn man sich für H1 entscheidet, obwohl H0 richtig ist. Entscheidet man sich für H0, obwohl H1 richtig ist, handelt es sich um den Fehler 2. Art. Entscheidung für H0 Entscheidung für H1 H0 richtig kein Fehler Fehler 1.Art H1 richtig Fehler 2.Art kein Fehler Die Güte eines Testverfahrens wird durch die Wahrscheinlichkeiten für das Auftreten eines Fehlers 1. Art und 2. Art beschrieben: P(Entscheidung für H0 | H1 ist richtig ) und P(Entscheidung für H1 | H0 ist richtig ). Gleichverteilung auf [a,b] Eine stetige Zufallsgröße X heißt gleichverteilt auf [a,b], wenn ihre Dichte die Gestalt besitzt: 1 f ( x) = b − a 0 a≤ x≤b für sonst Wir schreiben: X~R([a,b]). EX = a+b (b − a) 2 . , Var(X)= 2 12 Histogramm Ein Histogramm veranschaulicht eine Häufigkeitsverteilung von Beobachtungen x1 , … , xn einer stetigen Zufallsgröße, der eine Klasseneinteilung zugrunde liegt. Hypothesentest Ein Hypothesentest liegt vor, wenn man aufgrund einer beobachteten Stichprobe über einen Parameter θ oder eine Verteilungsfunktion F entscheiden soll. Die Entscheidungsmöglichkeiten werden als Hypothesen formuliert. Man unterscheidet zwischen der Nullhypothese H0 und der Alternative H1. Typische Hypothesentestprobleme betreffen a) die Entscheidung darüber, ob eine Zufallsgröße X die Verteilungsfunktion F=F0 besitzt, bzw. b)-c) die Entscheidung über den Wert θ 0 eines unbekannten Parameters θ der Verteilungsfunktion von X : a) H0: F=F0 b) H0: θ = θ 0 gegen gegen H1: F≠F0 H1: θ ≠ θ 0 Glossar - 119 - c) H0: θ < θ 0 d) H0: θ > θ 0 gegen gegen H1: θ ≥ θ 0 H1: θ ≤ θ 0 a) und b) werden als zweiseitige Probleme und c) und d) als einseitige Probleme bezeichnet. In der mathematischen Statistik werden Testverfahren zur Verfügung gestellt, mit denen man zwischen den beiden jeweiligen Hypothesen mit möglichst geringen Fehlerwahrscheinlichkeiten für den Fehler 1.Art und den Fehler 2.Art entscheiden kann. Inverse Transformationsmethode Die inverse Transformationsmethode wird benutzt, um Zufallszahlen x1 , … , xn zu erzeugen, die sich so verhalten, als wären es Beobachtungen einer Zufallsgröße X mit der Verteilungsfunktion F. Dabei wird folgender Satz ausgenutzt: „Y ist gleichverteilt auf [0,1] genau dann, wenn X=F-1(Y) die Verteilungsfunktion F besitzt“. In der inversen Transformationsmethode werden 2 Schritte durchgeführt: 1. Erzeugung einer auf [0,1] gleichverteilten Pseudo-Zufallszahl y. 2. Auflösung der Gleichung: y=F(x) nach x. Normalverteilte Zufallszahlen werden nach der Methode von Box und Müller erzeugt. Klassische Wahrscheinlichkeit, Laplace-Versuche Als klassische Wahrscheinlichkeit bezeichnet man die Wahrscheinlichkeit von Ereignissen in Laplace-Versuchen. Bei einem Laplace-Versuch ist die Menge Ω aller möglichen Versuchsergebnisse endlich und alle Ergebnisse sind gleichwahrscheinlich. Die Wahrscheinlichkeit für ein Ereignis A ist dann P(A) = |A|/|Ω|, wobei |A| bzw. |Ω| die Anzahl der in A bzw. Ω enthaltenen Versuchsergebnisse ist. Konfidenzintervall, Genauigkeit, Sicherheit, Irrtumswahrscheinlichkeit Um die Güte eines Schätzverfahrens θɵ =S( X1 , … , Xn ) für endliches n zu beurteilen, betrachtet man die Abweichung θɵ − θ < ε - 120 – Stochastik Die positive Zahl ε gibt die Genauigkeit des Schätzwertes θɵ an. Da θɵ eine Zufallsgröße ist, kann man diese Genauigkeit nur mit einer gewissen Sicherheit (Überdeckungswahrscheinlichkeit) erhalten; diese Sicherheit ist gleich P( θɵ − θ < ε ) Das Intervall [θɵ − ε , θɵ + ε ] um θɵ mit der Genauigkeit ε , für welches die Genauigkeit mit einer Sicherheit 1− α eingehalten wird, d.h., für welches gilt P(θ ∈ [θˆ − ε ,θˆ + ε ]) = P( θˆ − θ < ε ) = α , wird als Konfidenzintervall (Bereichsschätzung für θ zum Niveau α bezeichnet. α heißt Sicherheitswahrscheinlichkeit und (1- α ) ɵ ɵ Irrtumswahrscheinlichkeit der Bereichsschätzung [θ − ε , θ + ε ] Maximum-Likelihood-Methode Die Maximum-Likelihood-Methode ist eine Methode zur Schätzung eines unbekannten Parameters θ einer Verteilungsfunktion F einer Zufallsgröße X . Sie liefert als Schätzung den Wert, für den die vorliegenden Beobachtungen x1 , … , xn am wahrscheinlichsten sind. Sei f(x/ θ ) die Dichtefunktion von X unter der Annahme, daß der unbekannte Parameter θ ist. Die Maximum-Likelihood-Schätzung ergibt sich als Lösung des Extremwertproblems: n θɵ = max ∏ f ( xi / θ ) . θ∈ℜ i= 1 Methode von Box und Müller zur Erzeugung normalverteilter Zufallszahlen N(µ, σ2)-verteilte Zufallszahlen werden nach dieser Methode wie folgt erzeugt: 4. Man erzeugt zwei auf [0,1] gleichverteilte Zufallszahlen y1, y2. 5. Zwei standard-normalverteilte Zufallszahlen ergeben sich aus: x1 = − 2 ln( y1 ) cos(2πy 2 ) und 3) x2 = − 2 ln( y1 ) sin(2πy 2 ) Zwei N(µ, σ )-verteilte Zufallszahlen ergeben sich gemäß: z1 = σ ⋅ x1 + µ und z 2 = σ ⋅ x2 + µ 2 Nicht normalverteilte Zufallszahlen Transformationsmethode erzeugt. werden nach der inversen Glossar - 121 - Momentenmethode Die Momentenmethode ist eine Methode zur Schätzung eines unbekanten Parameters θ einer Verteilungsfunktion F einer Zufallsgrößen X . Bei dieser Methode wird θ als Funktion von EX und Var(X) (und evtl. weiteren Größen), der sogenannten Momente, dargestellt: θ =g(EX,Var(X)). Die Momentenschätzung erhält man, indem man in dieser Funktion EX und Var(X) durch ihre Schätzungen, d.h. das arithmetische Mittel und die Streuung, ersetzt: θɵ = g( x , s2 ) . Multiplikationssatz Für beliebige Ereignisse A und B mit P(B)>0 gilt: P( A ∩ B) = P( A | B) ⋅ P( B) Diese Formel lässt sich auf n Ereignisse A1, ..., An verallgemeinern. Es gilt: P( A1 ∩ A2 ∩ ⋯ ∩ An ) = P ( A1 ) P( A2 | A1 ) P( A3 | A1 ∩ A2 ) ⋅ ⋯ ⋅ P( An | A1 ∩ ⋯ ∩ An −1 ) Normalverteilung normalverteilung mit den Parametern µ und σ2, Standard- Eine Zufallsgröße X heißt normalverteilt mit den Parametern µ und σ2 , falls sie die Dichtefunktion: f ( x) = 1 2πσ e − ( x−µ )2 2σ 2 , -∞ < x < ∞, µ∈R, σ>0. besitzt. Wir schreiben: X~N(µ,σ2). EX = µ, Var(X)=σ2. Die Normalverteilung mit µ=0 und σ2=1 heißt Standardnormalverteilung. Diese ist tabelliert. Wahrscheinlichkeiten normalverteilter Zufallsgrößen führt man durch Standardisierung auf Wahrscheinlichkeiten standardnormalverteilter Zufallsgrößen zurück. Diese liest man dann aus der Tabelle der Verteilungsfunktion der Standardnormalverteilung ab. Die kσ-Bereiche geben eine gute Orientierung, wo die Werte einer normalverteilten Zufallsgröße liegen. Es gilt immer: P(µ-σ<X<µ+σ) = 0,683, P(µ-2σ<X<µ+2σ) = 0,955, P(µ-3σ<X<µ+3σ) = 0,977. Es ist höchst unwahrscheinlich, dass eine normalverteilte Zufallsgröße Werte außerhalb des 3σ–Bereiches annimmt. - 122 – Stochastik Poissonverteilung mit dem Parameter λ Eine diskrete Zufallsgröße X mit dem Wertebereich {0,1,2...} heißt poissonverteilt mit dem Parameter λ, falls sie folgende Wahrscheinlichkeitsverteilung besitzt: pi = P ( X = i ) = λi −λ e , i! i=0,1,2.... Bezeichnung X~P(λ), EX=λ, Var(X)=λ. Pseudozufallszahlen, lineare Kongruenzmethode, Periode Eine Folge von Pseudozufallszahlen ist eine deterministische (von einem Algorithmus erzeugte) Folge von Zahlen, die sich so verhalten, als wären es stochastisch unabhängige Beobachtungen einer Zufallsgröße mit einer Verteilungsfunktion F. Ein typischer Algorithmus für die Erzeugung von ganzzahligen Zufallszahlen aus der Menge {0,1,...,m} ist die lineare Kongruenzmethode 1. Ordnung. Die Zahlen werden nach der Vorschrift: X i = (aX i −1 + b) mod m erzeugt. Die so erzeugte Zahlenfolge wiederholt sich spätestens nach einer Folge von m erzeugten Zahlen. Die Anzahl der Zahlen bis zur ersten Wiederholung einer Zahl heißt Periode p des Zufallszahlengenerators; es gilt immer p≤m. Die Koeffizienten a,b, der Wert m und der Startwert x0 müssen so gewählt werden, dass die Periode p möglichst groß ist. Auf dem Intervall [0,1] stetig gleichverteilte Zufallszahlen erhält man durch yi = xi/(m-1). Aus yi erhält man dann Zufallszahlen, die sich so verhalten, als wären es Beobachtungen einer Zufallsgröße mit Verteilungsfunktion F , indem man die inverse Transformationsmethode oder die Methode von Box und Müller anwendet. Produktformel für unabhängige Ereignisse Sind Ereignisse A1 , A2 , ⋯ , An stochastisch unabhängig, so folgt aus dem Multiplikationssatz für jede beliebige Teilauswahl A1* , A2* , ⋯ , Ak * Ereignissen aus diesen n die Produktformel: P ( A1* ∩ A2* ∩ ⋯ ∩ Ak * ) = P( A1* ) P ( A2* ) ⋅ ⋯ ⋅ P( Ak * ) von k Glossar - 123 - Punktschätzung, Erwartungstreue, Konsistenz Als Punktschätzung für einen unbekannten Parameter θ einer Verteilungsfunktion F bezeichnet man eine Funktion, die jeder konkreten Stichprobe ( x1 , … , xn ) einen Wert θɵ als Schätzwert für θ zuordnet: S( x1 , … , xn )= θɵ . S heißt (Punkt-)Schätzfunktion bzw. Punktschätzung und wird durch die Zufallsgröße θɵ =S( X1 , … , Xn ) bezeichnet. Die Güte der Punktschätzung θɵ wird durch ihren Erwartungswert E( θɵ )= θ und ihre Varianz Var( θɵ ) beschrieben. Gilt E( θɵ )= θ , so nennt man θɵ erwartungstreu. D.h., im Mittel (bei häufiger Anwendung) wird mit der Vorschrift S( X , … , X )= θɵ der unbekannte Para1 n meter θ „getroffen“. Gilt darüber hinaus, dass die quadratische Abweichung 2 Var( θɵ )=E( θ - θɵ ) für wachsenden Stichprobenumfang n gegen 0 konvergiert, so heißt die Punktschätzfunktion θɵ konsistent für θ ( θɵ trifft θ mit wachsendem n immer genauer). Quantil Sei X eine stetige Zufallsgröße mit der Dichte f(x) und der Verteilungsfunktion F(x). Die Zahl x α , für die gilt: +∞ P(X< x α )=F( x α )= ∫ f ( x )dx = α −∞ heißt unteres α -Quantil der Verteilungsfunktion F. Ist f(x) symmetrisch, so gilt: x α =-x(1- x α ). Reproduktionseigenschaft von Verteilungen Die Reproduktionseigenschaft besagt, dass der Verteilungstyp sich nicht ändert, wenn zwei stochastisch unabhängige Zufallsgrößen, die den gleichen Verteilungstyp besitzen, addiert werden. Die Reproduktionseigenschaft wird in der Simulation häufig für normalverteilte und poissonverteilte Zufallsgrößen angewendet; die Summe S zweier poisson- bzw. normalverteilter Zufallsgrößen X und Y ist wieder poisson- bzw. normalverteilt; der Erwartungswert bzw. die Varianz der Summe S ergibt sich aus der Summe der Erwartungswerte bzw. der Varianzen von X und Y. - 124 – Stochastik Signifikanzniveau, α -Test Das Signifikanzniveau α für einen Hypothesentest ist eine vorgegebene obere Schranke für die Wahrscheinlichkeit des Fehlers 1. Art. Häufig wählt man für α die Werte 0,1, 0,05 oder 0,01. Ein Test heißt α - Test, falls der Fehler 1.Art= α ist. Statistische Inferenz Schluss von einer Stichprobe x1 , … , xn von X auf die Verteilungsfunktion F bzw. auf Parameter θ von F. Stetige Zufallsgröße Die Verteilung einer stetigen Zufallsgröße X ist durch ihre Dichtefunktion f bestimmt. Für Intervallwahrscheinlichkeiten gilt: b P(a < X ≤ b) = ∫ f ( x)dx für alle a,b∈R. a Für die Verteilungsfunktion F gilt x F ( x) = P( X ≤ x) = ∫ f (u )du bzw. F’(x) = f(x). −∞ Mit Hilfe der Verteilungsfunktion kann man Intervallwahrscheinlichkeiten berechnen: P(a < X ≤ b) = F (b) − F (a ) . Die Zahl ∞ E ( X ) = ∫ xf ( x)dx −∞ heißt Erwartungswert von X und die Zahl Var ( X ) = ∞ ∫ ( x − EX ) 2 f ( x)dx −∞ heißt Varianz von X. σ = Var ( X ) bezeichnet man als Standardabweichung. Stichprobe, zufällige Stichprobe, mathematische und konkrete Stichprobe Als zufällige oder mathematische Stichprobe einer Zufallsgröße X bezeichnet man n unabhängige identisch wie X verteilte Zufallsgrößen X1 , … , Xn . Das Tupel ( X1 , … , Xn ) wird als Folge wiederholter Beobachtungsvorgänge von X aufgefasst, wobei die Beobachtungsvorgänge unabhängig voneinander und unter identischen Versuchsbedingungen durchgeführt werden. Die Zahl n wird als Stichprobenumfang bezeichnet. Im Unterschied zur zufälligen Stichprobe bezeichnet man eine Folge von n Glossar - 125 - konkreten Beobachtungswerten x1 , … , xn von X , die voneinander unabhängig und unter identischen Versuchsbedingungen erhoben wurden, als konkrete Stichprobe. Stichprobenumfangsbestimmung Bei Konfidenzintervallen besteht das Ziel im erreichen einer hohen Genauigkeit (kleinem ε ) und einer hohen Sicherheit α . Das kann man immer mit genügend großem Stichprobenumfang n erreichen. Dazu gibt man sich ein gewünschtes ε und α vor und löst die Gleichung P( θˆ − θ < ε ) = α nach n auf. Je kleiner ε bzw. größer α , desto größer wird das erforderliche n. Bei Hypothesentests besteht das Ziel darin, zu vorgegebenem Fehler 1. Art einen möglichst kleinen Fehler 2.Art zu einzuhalten. Auch das kann man durch genügend großem Stichprobenumfang erreichen. Testverfahren, Teststatistik, Kritischer Wert Ein Testverfahren ist eine Vorschrift, die für jede mögliche Stichprobe x1 , … , xn eindeutig festlegt, für welche der beiden Hypothesen Ho oder H1 in einem Hypothesentest man sich entscheidet. Ein typisches Entscheidungskriterium ist das folgende. Sei T( x1 , … , xn ) eine auf den Beobachtungen basierende Größe, durch die plausibel die Abweichung von der Nullhypothese Ho beschrieben wird. Ist T < ε, so entscheidet man sich für Ho, ist T ≥ ε, so entscheidet man sich gegen Ho. T wird als Teststatistik und ε als kritischer Wert bezeichnet. Die statistische Testtheorie beschäftigt sich damit, Teststatistiken T und kritische Werte ε so zu konstruieren, dass die bei einem Hypothesentest auftretenden Wahrscheinlichkeiten für den Fehler 1. Art und den Fehler 2. Art möglichst minimal sind. Tschebyscheff-Ungleichung Die Ungleichung P(| X − EX |< ε ) ≥ 1 − Var ( X ) ε2 - 126 – Stochastik wird als Tschebyscheff-Ungleichung bezeichnet. Kennt man nur den Erwartungswert und die Varianz einer Zufallsgröße X, aber nicht deren genaue Verteilung, so kann man Wahrscheinlichkeiten von Abweichungen von X vom Erwartungswert EX durch diese Ungleichung abschätzen. Allerdings ist diese Abschätzung unter Umständen sehr grob und kann wesentlich verbessert werden, wenn man die Verteilung von X kennt. Wahrscheinlichkeitsverteilung Die Wahrscheinlichkeit P(A) eines Ereignisses A ist ein Maß für den Grad der Gewissheit über das Eintreten dieses Ereignisses. Dieses Maß muss folgende Bedingungen erfüllen: (P1) P(A) ≥ 0. (P2) P(Ω) = 1. (P3) P(A1 ∪ A2 ∪ … ) = P(A1) + P(A2) + … falls die Ereignisse A1 ∪ A2 ∪ … paarweise disjunkt (unvereinbar) sind. Zentraler Grenzwertsatz, Satz von Moivre und Laplace Der Zentrale Grenzwertsatz besagt, dass eine Summe hinreichend vieler stochastisch unabhängiger Zufallsgrößen näherungsweise normalverteilt ist. Als Spezialfall des Zentralen Grenzwertsatzes ergibt sich der Satz von Moivre und Laplace, der besagt, dass eine Binomialverteilung B(n, p) für große n und kleine p durch eine Normalverteilung N(np, np(1-p)) ersetzt werden kann. Stichwortverzeichnis - 127 - Stichwortverzeichnis # χ -Verteilung 50 2 χ2-Test für diskrete Verteilungen 72 für stetige Verteilungen 76 A Alternativhypothese 69 a-posteriori-Wahrscheinlichkeit 18 a-priori-Wahrscheinlichkeit 18 arithmetisches Mittel 60 B Bayes'sche Formel 17 Bedingte Wahrscheinlichkeit 14, 30 Binomialverteilung 25 Borelmengen 8, 28 D einer stetigen Zufallsgröße 41 Exponentialverteilung 34, 85, 117 F Fehler 1. Art 70 Fehler 2. Art 70 Freiheitsgrade 50 F-Verteilung 50 G Gleichverteilung 26 stetige 33 Grenzwertsatz von Moivre und Laplace 48 Grundmenge (Ergebnismenge) eines zufälligen Versuchs 5 H Histogramm 64 de Morgansche Regeln 4 Dichtefunktion 28 Dreiecksverteilung 33, 85 I E Klassenhäufigkeiten absolute 64 Klassische Wahrscheinlichkeit 11 Konfidenzintervall für eine Wahrscheinlichkeit P(A) 54 Konsistenz 53 Kritischer Wert 70 Ereignisfeld 7 Ereignisse 5 Elementarereignisse 5 Komplementärereignis 6 sicheres Ereignis 6 stochastisch unabhängige 15 unmögliches Ereignis 6 zusammengesetzte Ereignisse 5 Ereignissystem Vollständiges 8 Erwartungstreue 53 Erwartungswert 61 Eigenschaften 45 einer diskreten Zufallsgröße 40 Inverse Transformationsmethode 84 K L Laplace-Versuch 11 M Maximum-Likelihood-Methode 62 Mengen 2 Mittel arithmetisches 60 - 128 – Stochastik Momentenmethode 61 Multiplikationssatz(-formel) 14 N Normalverteilung 35, 87 1-,2-,3-Sigma-Bereiche der Normalverteilung 38 Standardnormalverteilung 36 Nullhypothese 69 P Poissonverteilung 26 Potenzmenge 2 Produktformel für unabhängige Ereignisse 15 Pseudozufallszahlen 81 Q Quantil 30 R relative Häufigkeit 8 Reproduktionssatz für Verteilungen 45 S Satz Reproduktionssatz 45 über die Eigenschaften von Erwartungswert und Varianz 45 von Moivre und Laplace 48 Zentraler Grenzwertsatz 47 Satz von Bayes 17 Schätzfunktion 53 Schätzwert 53 Standardnormalverteilung 36, 87 Stichprobe konkrete 53 mathematische 53 Streuung 60 T Testgröße 70 Teststatistik 70 Totale Wahrscheinlichkeit 17 Formel der 17 Transformation inverse 84 t-Verteilung 50 U Unabhängigkeit von Ereignissen 15 Unabhängigkeit von Zufallsgrößen 44 Ungleichung von Tschebyscheff 42 V Varianz 61 Eigenschaften 45 einer diskreten Zufallsgröße 40 einer stetigen Zufallsgröße 41 Venn-Diagramm 3 Verteilungen diskret 82 stetige 84 Verteilungsfunktion 29 W Wahrscheinlichkeit Axiomatische Definition 9 bedingte 14, 30 Eigenschaften 10 klassische 11 Wahrscheinlichkeitsraum 1 Wahrscheinlichkeitsverteilung einer diskreten Zufallsgröße 22 Z Zentraler Grenzwertsatz für Verteilungen 47 Zufälliger Versuch 5 Zufallsgrößen 20 diskret 22 stetige 27 Zufallszahlen 81 Zufallszahlengeneratoren 82 Zweipunktverteilung 25 Stichwortverzeichnis - 129 -