stochastik

Werbung
STOCHASTIK
Wahrscheinlichkeitstheorie und mathematische
Statistik
Prof. Dr. Barbara Grabowski
Hochschule für Technik und Wirtschaft
des Saarlandes
Lehreinheit zur Kurseinheit „Mathematik für Informatiker“
im Fernstudiengang „Allgemeine Informatik“ der ZFH Koblenz
Einleitung
Einleitung
Diese Kurseinheit dient der Vermittlung von Grundkenntnissen auf dem
Gebiet der Wahrscheinlichkeitsrechnung und mathematischen Statistik.
Mathematische Statistik und Wahrscheinlichkeitsrechnung sind zwei
unterschiedliche Teildisziplinen der Mathematik, die ohne einander nicht
denkbar sind und unter dem Sammelbegriff „Stochastik“ zusammengefasst
werden. Aufgabe der Wahrscheinlichkeitsrechnung ist es, Gesetzmäßigkeiten
des Zufalls zu untersuchen, bzw. mathematische Modelle dafür zu liefern.
Die Wahrscheinlichkeitsrechnung ist zugleich das theoretische Fundament
der mathematischen Statistik. Diese wird in der Regel in die Teildisziplinen
„Beschreibende Statistik“ und „Schließende Statistik“ unterteilt. Während es in
der Beschreibenden Statistik um Methoden der Aufbereitung und Darstellung
von Datenmaterial geht, stehen im Mittelpunkt der Schließenden Statistik
Verfahren, mit deren Hilfe von Beobachtungsdaten eines Merkmals an n
Objekten einer Grundgesamtheit, d.h. von der sogenannten Stichprobe, auf
die Verteilung der Merkmalswerte in der gesamten Grundgesamtheit
geschlossen wird. Dieser Schluss wird mit Hilfe von Methoden der
Wahrscheinlichkeitsrechnung
durch
Irrtumsbzw.
Sicherheitswahrscheinlichkeiten bewertet.
Die Stochastik hat längst in viele moderne wissenschaftliche Teildisziplinen
Einzug gehalten, auch die Informatik und die Kommunikationstechnik sind
ohne stochastische Methoden nicht mehr denkbar. Stochastische Methoden
finden hier zum Beispiel Anwendung
- bei der probabilistischen Analyse von Algorithmen
- bei der Codierung bzw. in der Informationstheorie
- in der Sprach- und Signalverarbeitung
- bei der Mustererkennung bzw. Bildverarbeitung
- bei der Modellierung von Rechner- bzw. Informationsnetzen
- bei der Simulation komplexer Systeme, wie z.B. Fertigungs-,
Informations-, Verkehrssysteme usw.
Darüber hinaus sind Methoden der Statistik fester Bestandteil von
Datenbanksystemen geworden und finden als Data-Mining-Verfahren
Anwendung.
Wir geben in dieser Kurseinheit eine Einführung in die Methoden der
Stochastik, wobei wir uns aufgrund der beschränkten Seitenzahl dieser
Lehreinheit auf eine Einführung in die Wahrscheinlichkeitsrechnung und
einige wenige Methoden der Schließenden Statistik beschränken. Für weitere
Methoden der Stochastik, insbesondere auch der Beschreibenden Statistik,
Stochastik
verweisen wir auf die im Literaturverzeichnis des Anhangs angegebene
weiterführende Literatur.
Im ersten Kapitel werden Sie mit dem Begriff der Wahrscheinlichkeit und mit
Grundgesetzen des Rechnens mit Wahrscheinlichkeiten vertraut gemacht. Im
Kapitel 2 wird der Begriff der Zufallsgröße eingeführt und die Methodik zur
Modellierung der Wahrscheinlichkeitsverteilungen von Zufallgrößen
dargestellt. Kapitel 3 enthält Angaben über die Verteilung von Summen und
anderen Funktionen von Zufallsgrößen. Im Mittelpunkt von Kapitel 4 steht
die Aufgabe der Identifizierung der Verteilung einer Zufallsgröße anhand
von Beobachtungen dieser Zufallsgröße. Anhand dieser Aufgabenstellung
werden wichtige Grundprinzipien der Schließenden Statistik, wie Punkt- und
Bereichsschätzungen, für Verteilungsparameter erläutert. Die Kurseinheit
schließt mit dem Kapitel 5 ab, in welchem Algorithmen zur Erzeugung von
Pseudo-Zufallszahlen vorgestellt werden.
In jedem Kapitel werden eine Reihe von Übungsaufgaben gestellt. Am Ende
dieser Kurseinheit finden Sie die Lösungen zu allen Übungsaufgaben.
Für die Herleitung vieler Aussagen in dieser Kurseinheit benötigt man
Grundkenntnisse der Analysis, wie z.B. die einfache Integralrechnung.
Nach Durcharbeiten dieser Kurseinheit können Sie zufällige Einflussparameter in stochastischen Systemen mathematisch modellieren. Insbesondere können Sie
• mit Wahrscheinlichkeiten rechnen,
• auf der Basis einer Folge von Beobachtungen eines Ereignisses A dessen
Wahrscheinlichkeit mit vorgegebener Genauigkeit schätzen,
• auf der Basis von Beobachtungen einer Zufallsgröße ein Histogramm
aufstellen und eine Hypothese über die Verteilung der Zufallsgröße
bilden und diese prüfen, sowie die Parameter der Verteilung schätzen,
• Algorithmen für die Erzeugung von Zufallszahlen typischer z.B. in der
Simulation verwendeter Verteilungen entwickeln.
Inhaltsverzeichnis
-I-
Inhaltsverzeichnis
1 Der Wahrscheinlichkeitsraum
1
1.1 Der Wahrscheinlichkeitsraum................................................................................... 1
1.1.1 Kleiner Exkurs zur Mengenlehre .................................................................. 2
1.1.2 Zufälliger Versuch und zufällige Ereignisse................................................ 5
1.1.3 Das Ereignisfeld............................................................................................... 7
1.1.4 Relative Häufigkeit von Ereignissen und Definition der
Wahrscheinlichkeit.......................................................................................... 8
1.2 Der klassische Wahrscheinlichkeitsbegriff ............................................................ 11
1.3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit von
Ereignissen ................................................................................................................ 13
1.4 Totale Wahrscheinlichkeit und Bayes’sche Formel ............................................. 17
2 Zufallsgrößen
20
2.1 Begriff der Zufallsgröße........................................................................................... 20
2.2 Diskrete Zufallsgrößen............................................................................................. 22
2.2.1 Diskrete Zufallsgröße und ihre Wahrscheinlichkeitsverteilung ............. 22
2.2.2 Spezielle diskrete Wahrscheinlichkeitsverteilungen ................................ 25
2.3 Stetige Zufallsgrößen................................................................................................ 27
2.3.1 Stetige Zufallsgrößen, Verteilungsdichte und Verteilungsfunktion....... 27
2.3.2 Bedingte Wahrscheinlichkeiten und Quantile........................................... 30
2.3.3 Spezielle stetige Verteilungen...................................................................... 33
2.4 Erwartungswert und Varianz von Zufallsgrößen ................................................ 39
3 Verteilungen von Funktionen von Zufallsgrößen
44
3.1 Erwartungswert und Varianz von Summen und linearen Transformationen
von Zufallsgrößen .................................................................................................... 44
3.2 Verteilungen von Summen von Zufallsgrößen..................................................... 45
3.3 Verteilung von Funktionen von Zufallsgrößen .................................................... 50
4 Schätzung von Wahrscheinlichkeiten und Identifizieren von
Verteilungen durch statistische Methoden
52
4.1 Schätzung einer unbekannten Wahrscheinlichkeit .............................................. 52
4.2 Schätzung unbekannter Verteilungsparameter .................................................... 60
4.3 Identifizieren von Verteilungen.............................................................................. 63
- II –
Stochastik
4.3.1 Modellierung stetiger Verteilungen durch Histogramme ....................... 64
4.3.2 Der χ2-Test zur Verteilungsprüfung .......................................................... 67
5 Erzeugung von Zufallszahlen
81
5.1 Erzeugung von Zufallszahlen diskreter Verteilungen......................................... 82
5.2 Erzeugung von Realisierungen stetig verteilter Zufallsgrößen - die inverse
Transformationsmethode........................................................................................ 84
5.3 Erzeugung von Realisierungen einer normalverteilten Zufallsgröße ............... 87
Literaturverzeichnis
89
Tabellen und Diagramme
90
Lösungshinweise zu den Aufgaben
94
Glossar
115
Stichwortverzeichnis
127
Der Wahrscheinlichkeitsraum
1
Der Wahrscheinlichkeitsraum
In diesem Kapitel werden der Wahrscheinlichkeitsbegriff für Ereignisse
definiert und die Grundgesetze des Rechnens mit Wahrscheinlichkeiten
dargestellt. Es bildet damit die Grundlage für alle weiteren Kapitel.
Nach Durcharbeiten dieses Kapitels können Sie
•
•
•
•
•
1.1
die Grundgesetze des Rechnens mit Wahrscheinlichkeiten anwenden,
ihre Chancen in Glücksspielen mittels der klassischen Wahrscheinlichkeit berechnen,
die stochastische Unabhängigkeit von Ereignissen überprüfen,
bedingte Wahrscheinlichkeiten berechnen,
mit Hilfe der Bayes’schen Formel einfache Aufgaben lösen.
Der Wahrscheinlichkeitsraum
Die Wahrscheinlichkeitstheorie untersucht mathematische Modelle für reale
Vorgänge, in denen der Zufall eine Rolle spielt. Wir nennen sie Vorgänge mit
zufälligem Ergebnis und bezeichnen sie als zufällige Versuche.
Beispiel:
Der Betreiber einer Poststation interessiert sich für die Wartezeit von Kunden
in seiner Anlage. Er lässt sie beobachten. Das Ergebnis – hier die Wartezeit ist nicht vorhersagbar. Ein Vorgang mit zufälligem Ergebnis läuft ab. Mit
dem Vorgang sind Ereignisse verbunden:
-
Die Wartezeit ist kleiner als 10 Minuten.
Die Wartezeit beträgt mindestens 20 Minuten.
Die Wartezeit liegt zwischen 10 und 50 Minuten.
Für die Beurteilung der Qualität des Services der Post ist es vielleicht
notwendig, dass das Ereignis: „Die Wartezeit beträgt höchstens 10 Minuten“
eine Wahrscheinlichkeit von mindestens 0,95 besitzt.
Das mathematische Modell für einen Vorgang mit zufälligem Ergebnis ist der
Wahrscheinlichkeitsraum [Ω,ℑ,P]. Hierbei repräsentiert Ω die Menge der
möglichen Ergebnisse des Vorgangs. ℑ enthält diejenigen Teilmengen von Ω,
-1-
-2–
Stochastik
die wir Ereignisse nennen, und wird als Ereignisfeld zu unserem zufälligen
Versuch bezeichnet. P schließlich ist die sogenannte Wahrscheinlichkeitsverteilung, die jedem Ereignis aus ℑ eine als Wahrscheinlichkeit des
Ereignisses bezeichnete Zahl zwischen 0 und 1 zuordnet.
Diese
Wahrscheinlichkeit soll den Grad der Gewissheit über das Eintreten des
Ereignisses ausdrücken. In den folgenden Abschnitten werden die Begriffe
Ereignis, Grundmenge Ω, Ereignisfeld ℑ und Wahrscheinlichkeitsmaß P
näher erklärt.
1.1.1
Mengen
Kleiner Exkurs zur Mengenlehre
Es ist in der Wahrscheinlichkeitsrechnung üblich, Ereignisse durch Mengen
darzustellen. Auf diese Weise kann man mit Ereignissen wie mit Mengen
rechnen. Eine Menge wird angegeben, indem man alle ihre Elemente angibt,
z.B.
- durch Aufzählung oder
- durch Angabe einer die Elemente charakterisierenden Eigenschaft
Dabei ist zu beachten, dass jedes Element in der Menge nur einmal
vorkommt. Mengen werden mit Großbuchstaben und ihre Elemente mit
kleinen Buchstaben bezeichnet.
x ∈ A bedeutet: x ist Element der Menge A
x ∉ A bedeutet: x ist kein Element von A
|A| = Anzahl der Elemente in A.
Beispiele: A={1,2,7}, B = {x ∈ R| 2 ≤ x < 10}, 2 ∈ A , 1 ∉ B, |A| = 3.
Teilmengen,
leere Menge,
Potenzmenge
Mengen stehen in Relationen zueinander. Es bedeutet:
A = B : Die Elemente von A und B sind gleich.
A ⊆ B : Die Elemente von A sind auch in B enthalten (A ist Teilmenge von B).
A ⊂ B : Die Elemente von A sind auch in B enthalten und B enthält
mindestens ein Element, welches nicht in A enthalten ist (A ist echte
Teilmenge von B).
Die Menge ∅={}, die kein Element enthält, wird als leere Menge bezeichnet.
Offensichtlich gilt für jede Menge A: ∅ ⊆ A.
Die Menge, die alle möglichen Teilmengen einer Menge A enthält, wird als
Potenzmenge von A bezeichnet: ℘(A) = {M| M ⊆ A}.
Der Wahrscheinlichkeitsraum
-3-
Beispiel:
Sei A = {1,2,7}. Dann ist ℘(A) = { ∅, {1},{2},{7}, {1,2}, {1,7}, {2,7}, {1,2,7} }.
Mengen kann man durch Operationen miteinander verknüpfen. Diese
Operationen kann man sich in sogenannten Venn-Diagrammen
veranschaulichen:
Operation
Vereinigung
Durchschnitt
Differenz
Mengenoperationen
Operator Bedeutung
Venn-Diagramm
A∪B
enthält alle Elemente, die
in A oder B enthalten
sind
A∩B
enthält alle Elemente, die
in A und B enthalten sind
A\B
enthält alle Elemente, die
in A, aber nicht in B
enthalten sind
Zwei Mengen A und B heißen disjunkt, falls sie kein gemeinsames Element
besitzen, falls also gilt: A ∩ B = Φ.
disjunkte Mengen
Beispiel: Seien A={1,2,3}, B={2,3,7,9}. Dann ist: A∪B={1,2,3,7,9}, A∩B={2,3},
A\B= {1}, B\A = {7,9}. Die Mengen A∩B und B\A sind disjunkt.
Ist A ⊆ M, also A eine Teilmenge einer Obermenge M, so
AM
= M\A als
bezeichnet man die Menge
Komplementärmenge
Komplementärmenge (bzw. Komplement) von A (bzgl. M).
Beispiel: Sei M = {1,2,3,4,5,6}, A={2,4,6}. Dann ist AM = {1,3,5}. Offensichtlich
sind AM und A disjunkt und ihre Vereinigung ergibt M.
Mengenoperationen besitzen Eigenschaften. So zum Beispiel sind ∪ und ∩
kommutativ, aber \ nicht. Weiterhin kann man aus den Venn-Diagrammen
der Tabelle erkennen, dass gilt: (A∩B) ∪ (A\B) = A. Im folgenden Satz sind
einige wichtige Eigenschaften von Mengenoperationen aufgelistet:
Satz: (Eigenschaften von Mengenoperationen)
Es gilt:
1. A∪B=B∪A und A∩B=B∩A
2. (A∪B)∩C = (A∩C) ∪ (B∩C) und (A∩B)∪ C = (A∪C) ∩(B∪C)
3. (A∪B)∪ C = A ∪ (B∪ C) und (A∩B)∩ C = A ∩(B∩C)
Eigenschaften von
Mengenoperationen
-4–
Stochastik
4. A = (A∩B) ∪ (A\B)
5. Wenn A ⊆ B , so gilt A∩B=A und A∪B = B
6. Wenn A ⊆M und B ⊆M, so gilt:
_________
_________
( A ∪ B) M = AM ∩ BM und ( A ∩ B) M = AM ∪ BM (de Morgansche
Regeln)
Übungsaufgaben
1.1
Sei A = {1,2,3,4,5,6,7,8,9}, B={2,4,6}, C={2,4,6,20,40}.
Berechnen Sie A∩B, B\A, C\A, B ∪C, B A , ℘(B), |℘(B)|.
In welcher Relation stehen B und C zueinander?
Sind B A und C disjunkt oder nicht ?
1.2
Welches Bild gehört zu welcher Formel? Ordnen Sie zu!
a)A∩(B∩C), b)A∩(B∪C), c)A∪(B∩C)
d)A∪(B∪C), e)(A∩B)∪C, f)(A∪B)∩C
1.3
_________
Stellen Sie im folgenden Diagramm die Mengen ( A ∪ B ) M und
AM ∩ BM dar. Was stellen Sie fest?
1.4
Machen Sie sich analog zu 1.3 die Aussagen 2., 5. und 6. des
Satzes „Eigenschaften von Mengenrelationen“ klar, indem Sie die
Menge der linken Seite und diejenige der rechten Seite der
jeweiligen Gleichung im Venn-Diagramm darstellen und diese
Grafiken dann miteinander vergleichen.
Der Wahrscheinlichkeitsraum
1.1.2
-5-
Zufälliger Versuch und zufällige Ereignisse
Ein unter Beibehaltung eines festen Komplexes von Bedingungen beliebig oft
wiederholbarer Vorgang mit ungewissem Ausgang heißt zufälliger Versuch.
Wir bezeichnen ihn mit V. Die Menge Ω der möglichen Ergebnisse von V
wird als Grundmenge bzw. Ergebnismenge zu V bezeichnet. Die Elemente ω
von Ω stellen jeweils ein mögliches Ergebnis bei Durchführung von V dar. Als
Ereignisse zu V bezeichnet man Teilmengen von Ω. Für Ereignisse
verwenden wir Großbuchstaben A,B,C, .... . Die Aussage „Das Ereignis A ist
eingetreten“ bedeutet, dass irgendein Element von A als Ergebnis des
zufälligen Versuches beobachtet wurde.
zufälliger Versuch,
Grundmenge,
Ergebnisse,
Ereignisse
1. Beispiel:
Versuch : V = Werfen eines Spielwürfels
einige mögliche Ergebnisse: ω = 2 oder ω = 6
Grundmenge: Ω = {1,2,3,4,5,6}
einige mögliche Ereignisse:
„ungerade Augenzahl“ : A= {1,3,5}
“Augenzahl ist größer als 3“: B ={4,5,6}
„Augenzahl ist gleich 6“ : C={6}
2. Beispiel:
Versuch : V = Ermittlung der Wartezeit eines Kunden in der Post
einige mögliche Ergebnisse: ω = 10 Minuten oder ω = 15 Minuten
Grundmenge: Ω = {ω ∈ R| ω ≥ 0 } (enthält alle möglichen Wartezeiten)
einige mögliche Ereignisse:
„Wartezeit ist kleiner als 10 Minuten“ : A= {ω ∈ R| 0≤ ω < 10 }
„Wartezeit liegt zwischen 20 und 50 Minuten“: B = {ω ∈ R| 20 ≤ ω ≤ 50 }
„Wartezeit beträgt 15 Minuten“ : C={15}
Wir unterscheiden zwischen Elementarereignissen und zusammengesetzten
Ereignissen. Elementarereignisse sind „Einermengen“, die jeweils genau ein
Ergebnis des zufälligen Versuchs enthalten. Damit treten niemals zwei
Elementarereignisse gleichzeitig ein, sie sind disjunkt. In unseren Beispielen
stellt jeweils das Ereignis C ein Elementarereignis dar. Demgegenüber heißen
Ereignisse, die durch Vereinigung mehrerer Elementarereignisse entstehen,
zusammengesetzte Ereignisse.
Elementarereignis
Da Ereignisse durch Mengen dargestellt werden, können die Relationen und
Operatoren der Mengenlehre verwendet werden, um Relationen zwischen
und Verknüpfungen von Ereignissen darzustellen. Dabei bedeutet:
Verknüpfung von
Ereignissen
-6–
Stochastik
A⊆B
A=B
A∪B
A∩B
A\B
Mit dem Ereignis A tritt auch das Ereignis B ein (A zieht B nach
sich).
A zieht B nach sich und B zieht A nach sich.
A oder B oder beide Ereignisse treten ein.
(Summe von Ereignissen)
A und B treten ein. (Produkt von Ereignissen)
Das Ereignis A aber nicht das Ereignis B tritt ein.
Wir können die Summe und das Produkt von Ereignissen auf mehr als zwei
Ereignisse verallgemeinern.
A1 ∪ A2 ∪ ⋯ ∪ An Mindestens eines der Ereignisse Ai , i = 1,..., n ,tritt ein.
A1 ∩ A2 ∩ ⋯ ∩ An Alle Ereignisse Ai , i = 1,..., n ,treten gemeinsam ein.
Komplementärereignis,
sicheres Ereignis,
unmögliches
Ereignis
Das Ereignis A = Ω\A heißt Komplementärereignis oder Gegenereignis zu A
und bedeutet, dass A nicht eintritt. Zwei Ereignisse A und B heißen disjunkt,
wenn sie nicht gemeinsam eintreten, d.h., wenn gilt: A ∩ B = ∅. Ein
Ereignis, welches bei jeder Durchführung des Versuchs V eintritt, heißt
sicheres Ereignis und eines, welches nie eintritt unmögliches Ereignis.
Offensichtlich ist Ω ein sicheres und Ω =∅ ein unmögliches Ereignis.
Der in Abschnitt 1.1.1. angegebene Satz über Eigenschaften von
Mengenoperationen gilt genauso für die entsprechenden Verknüpfungen von
Ereignissen.
1.5
In einem Reaktionszeitversuch V seien folgende Ereignisse von
Interesse: A= „Die Reaktionszeit ist größer oder gleich 3
Sekunden“, B= „Die Reaktionszeit ist nicht größer als 5
Sekunden“, C= „Die Reaktionszeit ist größer als 7 Sekunden“, D=
„Die Reaktionszeit liegt zwischen 3 und 5 Sekunden
(einschließlich 3 und 5)“.
a) Stellen Sie A,B,C,D als Mengen dar!
b) In welcher Relation stehen A und C zueinander?
c) Stellen Sie D aus A und B unter Verwendung von
Mengenoperationen dar!
d) Welches Ereignis wird durch die Menge A\C
beschrieben? Geben Sie die Menge an!
e) Geben Sie alle Paare disjunkter Ereignisse an, die sich aus
A,B,C und D bilden lassen!
Der Wahrscheinlichkeitsraum
1.1.3
-7-
Das Ereignisfeld
Zu einem Versuch V können wir immer viele Ereignisse definieren. Alle
Ereignisse sind immer Teilmengen der Grundmenge Ω. Im folgenden fassen
wir die bei Durchführung von V praktisch relevanten Ereignisse in einer
Menge, dem sogenannten Ereignisfeld von V zusammen. Wir fordern dabei,
dass die Anwendung der Operationen ∪, ∩ und \ auf die Ereignisse des
Ereignisfeldes nicht aus diesem hinausführt, d.h., wir fordern, dass
Ereignisfeld alle Ereignisse enthält, die sich durch Anwendung der
Mengenoperationen ∪, ∩ und \ bilden lassen.
Definition: Sei V ein zufälliger Versuch mit der Grundmenge Ω. Ein
Ereignisfeld ℑ=ℑ(Ω) zu V über Ω ist eine Menge von Ereignissen A ⊆ Ω, die
folgende Eigenschaft besitzt:
1. ℑ enthält das unmögliche Ereignis ∅ und das sichere Ereignis Ω, also
∅∈ℑ und Ω∈ℑ.
2. Wenn A ∈ℑ und B∈ℑ, so ist auch A∪B ∈ℑ und A∩B ∈ ℑ.
3. Wenn A ∈ ℑ, so ist auch das Komplement A ∈ ℑ.
4. Mit abzählbar unendlich vielen Ereignissen Ai ∈ ℑ, i=1,2,..., sind auch
∞
∞
i =1
i =1
deren Summe ∪ Ai und deren Produkt ∩ Ai in ℑ enthalten.
Ereignisfelder zu einem zufälligen Versuch sind nicht eindeutig bestimmt.
Beispiel:
Sei V der zufällige Versuch „Würfeln mit einem Würfel“. Dann ist die
Grundmenge Ω={1,2,3,4,5,6}. Mögliche Ereignisfelder zu V sind:
1. ℑ = {∅, {2,4,6}, {1,3,5}, Ω}
2. ℑ = ℘ (Ω) = {A| A ⊆ Ω}.
1.6
Sei V der zufällige Versuch „Würfeln mit einem Würfel“.
a) Geben Sie mindestens zwei weitere Ereignisfelder zu V an!
b) Warum ist {∅, {2}, {4}, {1,3,5,6}, Ω} kein Ereignisfeld zu V?
c) Wie viele Ereignisse enthält das Ereignisfeld ℑ = ℘(Ω)?
Üblicherweise legt man in der Wahrscheinlichkeitsrechnung bei Versuchen V
mit endlichen Grundmengen Ω die Potenzmenge ℑ = ℘(Ω) als Ereignisfeld
zugrunde, da dieses Ereignisfeld alle möglichen zu V definierbaren
Ereignisse, insbesondere die Elementarereignisse, enthält. Bei Versuchen mit
reellen Grundmengen (Ω=R) wird in der Regel als Ereignisfeld nicht die
Potenzmenge von R, sondern eine etwas „kleinere“ Menge, nämlich die
Das Ereignisfeld
-8–
Stochastik
Menge der sogenannten Borel-Mengen zugrunde gelegt. Diese enthält alle
offenen, halboffenen und abgeschlossenen reellen Zahlen-Intervalle, sowie
deren Summen, Produkte und Komplemente. Auf eine ausführliche
Definition der Borel-Mengen sei hier verzichtet.
Vollständiges
Ereignissystem
Definition:
Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld ℑ.
Eine Menge von Ereignissen A1 , A2 ,..., An , Ai ⊆ Ω für i=1,...,n, heißt
vollständiges Ereignissystem in ℑ, falls gilt:
a) Ai ∩ A j = ∅ für i≠j und b) A1 ∪ A2 ∪ ⋯ ∪ An = Ω .
Übungsaufgaben
1.7
Sei V der zufällige Versuch „Zweimaliger Münzwurf. Ein
Versuchsausgang sei durch das Paar ω=(M1, M2), Mi ∈{K,Z},
beschrieben Mi.: Ergebnis des i.ten Wurfes, i=1,2).
a) Geben Sie Ω an!
b) Geben Sie das Ereignisfeld ℑ = ℘(Ω) an!
c) Beschreiben Sie die Ereignisse A={(K,K),(Z,K)},
B={(K,K),(Z,Z)}, C={(K,K), (Z,K), (K,Z)} in Worten!
d) Geben Sie mindestens 2 vollständige Ereignissysteme in
ℑ=℘(Ω) an!
1.8
1.1.4
Relative Häufigkeit
Ein Ereignisfeld ℑ zu einem Versuch V enthalte die Ereignisse A
und B. Zeigen Sie, dass die Ereignisse A∪B, A ∩B, A ∩ B ,
A ∩ B ein vollständiges System von Ereignissen in ℑ bilden!
Relative Häufigkeit von Ereignissen und Definition der
Wahrscheinlichkeit
Will man wissen, wie groß die Chance des Eintretens eines Ereignisses A∈ℑ
bei Durchführung eines Versuches V ist, so könnte man den Versuch n mal
durchführen und dabei beobachten, wie oft A eingetreten ist, d.h., die relative
Häufigkeit hn(A) von A ermitteln. Die relative Häufigkeit hn(A) ist der Anteil
der Versuche an den n Versuchswiederholungen, in denen A eintritt. Tritt A
beispielsweise bei 50 Versuchen 10 mal ein, so ist hn(A)=10/50 = 1/5. Welcher
Der Wahrscheinlichkeitsraum
-9-
Wert sich für hn(A) in einer konkreten Versuchsreihe ergibt, ist vom Zufall
abhängig, d.h., kann nicht mit Bestimmtheit vorhergesagt werden. Dennoch
besitzt die relative Häufigkeit allgemeingültige Eigenschaften, z.B. :
1. 0 ≤ hn(A),
2. hn(Ω)=1,
3. Wenn A∩B=∅, so ist hn(A∪B)= hn(A)+hn(B).
Da die relative Häufigkeit vom Zufall abhängt und außerdem mit der Anzahl
n der Versuche stark schwankt, ist sie kein ideales Maß für die
Quantifizierung der Chance des Eintretens von A. Wir kommen deshalb zu
einem allgemeineren Begriff, dem der sogenannten Wahrscheinlichkeit P(A)
eines Ereignisses A. P(A) ist ein idealisiertes nicht vom Zufall abhängendes
Modell der relativen Häufigkeit. Damit die Wahrscheinlichkeit P(A) ein gutes
Modell für die relative Häufigkeit hn(A) sein kann, muss sie die o.g. 3
grundlegenden Eigenschaften der relativen Häufigkeit erfüllen. Für eine
mathematische Definition bilden sie 3 von 4 Axiomen, die vom russischen
Mathematiker Kolmogorov 1933 festgelegt wurden und aus denen sich die
ganze Wahrscheinlichkeitstheorie herleiten lässt.
Definition: (Axiomatische Definition der Wahrscheinlichkeit)
Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld
ℑ=ℑ (Ω). Dann heißt jede Abbildung P: ℑ → [0,1] Wahrscheinlichkeitsmaß
auf ℑ, falls für alle Ereignisse A, B, Ai (i=1,2,...) aus dem Ereignisfeld ℑ
folgende Eigenschaften (Axiome) erfüllt sind:
1. 0 ≤ P(A),
2. P(Ω)=1,
3. Wenn A∩B= ∅, so ist P(A∪B)=P(A)+P(B),
4.
∞
∞
P(∪ Ai ) = ∑ P( Ai ) , falls Ai ∩ A j = ∅ für i≠j.
i =1
i =1
P(A) wird als Wahrscheinlichkeit (Chance) des Eintretens von A bei
einmaliger Durchführung des Versuchs V bezeichnet.
Wenn man den Versuchsumfang n einer Versuchsreihe sehr groß macht (im
Idealfall gegen ∞ gehen lässt), so wird man feststellen, dass sich die relative
Häufigkeit hn(A) stets auf ein und denselben festen Wert, und zwar P(A),
einpegelt. Diese Eigenschaft bezeichnet man als Stabilität der relativen
Häufigkeit. Demzufolge kann man die Wahrscheinlichkeit P(A) auch als
Vorhersagewert für die relative Häufigkeit betrachten, mit der das Ereignis A
in einer langen Reihe von Wiederholungen des Versuchs V eintritt. So ist P(A)
= 0,5 die Wahrscheinlichkeit dafür, beim Münzwurf Kopf zu werfen,
Axiomatische
Definition der
Wahrscheinlichkeit
- 10 –
Stochastik
gleichzeitig bedeutet dieser Wert aber auch, dass bei n maligem Münzwurf
(n groß) in ungefähr 50 Prozent aller Würfe Kopf geworfen wird. Umgekehrt
liefert eine beobachtete relative Häufigkeit einen Schätzwert für die
Wahrscheinlichkeit des betrachteten Ereignisses. Je größer dabei n ist, desto
genauer ist dieser Schätzwert für P(A).
Aus den o.g. 4 Axiomen folgen eine Reihe weiterer Eigenschaften der
Wahrscheinlichkeit P. Einige davon fassen wir in folgendem Satz zusammen:
Eigenschaften der
Wahrscheinlichkeit
Satz: (Eigenschaften der Wahrscheinlichkeit)
Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld
ℑ=ℑ (Ω). Dann besitzt ein Wahrscheinlichkeitsmaß P auf ℑ für alle Ereignisse
A, B, Ai (i=1,2,...) aus dem Ereignisfeld ℑ folgende Eigenschaften:
1. 0 ≤ P(A) ≤ 1,
2. P(∅)=0, P(Ω)=1,
3. P( A ) = 1-P(A),
4.
n
n
P(∪ Ai ) = ∑ P( Ai ) , für alle n∈N, falls Ai ∩ A j = ∅ für i≠j,
i =1
i =1
5. P(A∪B) = P(A)+P(B)-P(A∩B)
6. Wenn A⊆B, so ist P(A) ≤ P(B)
Beweis: Stellvertretend beweisen wir die Aussage 3. des Satzes. Es gilt:
Ω = A∪ A und es ist A∩ A =∅. In Anwendung der Axiome 2 und 3 der
Wahrscheinlichkeitsdefinition erhalten wir:
1=P(Ω) = P(A∪ A ) = P(A)+P( A )
Stellen wir diese Gleichung nach P( A ) um, so erhalten wir die Behauptung 3.
des Satzes.
q.e.d
1.9
Zeigen Sie, dass für zwei beliebige Ereignisse A und B eines
Ereignisfeldes gilt: P(A∪B) = P(A)+P(B)-P(A∩B).
Beispiel: Die Hochbegabung von Kindern einer bestimmten Altersstufe wird
mit zwei Testverfahren ermittelt. Bestehen die Kinder beide Tests, so werden
sie als hochbegabt eingestuft. Es sei bekannt, dass 2 % der Kinder der
betrachteten Altersstufe Test 1 (T1) besteht. Die Wahrscheinlichkeit, dass ein
Kind den zweiten Test (T2) besteht, ist 0,03. Insgesamt bestehen 96% weder
den ersten noch den zweiten Test. Mit welcher Wahrscheinlichkeit wird ein
Kind als hochbegabt eingestuft?
Lösung: Es gilt: P(T1)=0,02, P(T2)=0,03 und P( T1 ∩ T2 ) =0,96. Gesucht ist
P(T1∩T2). Aus den Eigenschaften von P folgt:
P(T1∩T2) = P(T1)+P(T2)-P(T1∪T2).
Der Wahrscheinlichkeitsraum
Da
T1∪T2
das
Komplement
- 11 -
von
T1 ∩ T2
ist,
gilt
weiterhin
P(T1∪T2)=1-P( T1 ∩ T2 ) = 0,04.
Daraus folgt für die gesuchte Wahrscheinlichkeit
P(T1∩T2) = P(T1)+P(T2)-P(T1∪T2) = 0,02+0,03-0,04 = 0,01.
Das heißt, dass 1 Prozent der Kinder der betreffenden Altersklasse als
hochbegabt eingestuft werden.
Übungsaufgaben
1.10
In deutschsprachlichen E-Mails tritt häufig das Wort „Viagra“
oder das Wort „Rolex“ auf. Mit mindestens einem dieser beiden
Worte sind 2,5 % aller E-Mails behaftet. Eine E-Mail wird nur
dann nicht als spamverdächtig klassifiziert, wenn sie keines der
beiden Worte enthält. Mit welcher Wahrscheinlichkeit wird eine
E-Mail nicht als spamverdächtig eingestuft?
1.11
Bei der Herstellung eines Produktes treten 2 Fehler F1= „nicht ´
maßhaltig“
und
F2=„nicht
funktionsfähig“
mit
den
Wahrscheinlichkeiten P(F1)=0,015 und P(F2)=0,01 ein. Mit beiden
Fehlern behaftet sind insgesamt 0,5 % aller Produkte. Ein Produkt
ist nur dann verkäuflich, wenn es keinen der beiden Fehler
besitzt. Mit welcher Wahrscheinlichkeit ist ein Produkt
verkäuflich?
1.2
Der klassische Wahrscheinlichkeitsbegriff
Bereits im 17. Jahrhundert interessierte man sich für die Berechnung von
Gewinn-Wahrscheinlichkeiten in Glücksspielen.
Charakteristisch für
Glücksspiele ist es, dass ihnen zufällige Versuche zugrunde liegen, bei denen
es nur endlich viele gleichwahrscheinliche Versuchsausgänge gibt. Diese
Versuche bezeichnet man als Laplace-Versuche. Die Wahrscheinlichkeit in
Laplace-Versuchen wird als klassische Wahrscheinlichkeit bezeichnet. Sie ist
gleich dem Quotienten aus der Anzahl der für dieses Ereignis günstigen
Versuchsausgänge und der Gesamtzahl der möglichen Versuchsausgänge, Im
folgenden werden wir sehen, dass sich diese Formel als Spezialfall aus den 4
Axiomen der Wahrscheinlichkeit ergibt.
- 12 –
Stochastik
Laplace-Versuch
Definition: Sei V ein zufälliger Versuch mit der endlichen Grundmenge
Ω = {ω1 ,..., ω m }. Ist P( ω i ) = p für alle i=1,...,m, so heißt V Laplace-Versuch.
Klassische
Wahrscheinlichkeit
Satz: (Klassische Wahrscheinlichkeit in Laplace-Versuchen)
Sei V ein Laplace-Versuch mit der Grundmenge Ω = {ω1 ,..., ω m }. Dann gilt
1
und
m
| A|
2. P(A)=
für jedes Ereignis A∈ℑ = ℘ (Ω).
|Ω|
1. P({ ω i }) =
Beweis zu 1. Es ist P( Ω) = P ({ω1 } ∪ ... ∪ {ω m }) =
Daraus folgt die Behauptung p=P({ ω i }) =
1.12
m
m
∑ P({ω }) = ∑ p = mp.
i =1
i
i =1
1
.
m
Beweisen Sie die Behauptung 2. des Satzes!
Die Berechnung der klassischen Wahrscheinlichkeit läuft auf die Ermittlung
der Anzahl von Elementen einer Menge hinaus. Dazu benötigen wir im
wesentlichen zwei kombinatorische Formeln.
Kombinatorische
Formeln
Satz: (Kombinatorische Formeln)
1.) Es gibt genau n! Vertauschungen von n Elementen.
2.) Es
gibt
genau
 n
n!
  =
. k-elementige Teilmengen einer
 k  k!(n − k )!
n-elementigen Menge.
Mit diesen beiden Formeln kann man nahezu beliebige Aufgaben zur
klassischen Wahrscheinlichkeit lösen.
Beispiel: Wie groß ist die Wahrscheinlichkeit dafür, beim Würfeln mit 5
Würfeln (Kniffel) genau 2 mal die Augenzahl 4 und des weiteren die Zahlen
1,2,3 gewürfelt werden?
Lösung: Wir überlegen uns zunächst, wie die Elementarereignisse aussehen.
Einen Versuchsausgang kann man offensichtlich durch ein 5 – Tupel
(i1,i2,i3,i4,i5) mit ij∈{1,2,3,4,5,6} beschreiben, ij ist die Augenzahl des j-ten
Würfels. Ω ist die Anzahl aller 5-Tupel. Da jeder Würfel 6 Möglichkeiten
besitzt und alle 5-Tupel durch eine Kombination der 6 Möglichkeiten aller 5
5
Würfel entstehen, gilt: |Ω|= 6 ⋅ 6 ⋅ 6 ⋅ 6 ⋅ 6 =6 . Das Ereignis A ist die Menge
aller 5-Tupel, in denen 2 mal eine 4 und die Zahlen 1, 2, 3 vorkommen.
Der Wahrscheinlichkeitsraum
- 13 -
Würden wir alle diese 5 Tupel auflisten wollen, müssten wir aus den 5
Würfeln immer 2 auswählen, denen wir die 4 zuordnen, der Rest bekommt
 5
5!
= 10 Möglichkeiten, 2 Würfel aus
die Zahlen 1,2,3. Es gibt genau   =
 2  2!3!
fünfen auszuwählen. Haben wir zwei Würfel festgelegt, so ordnen wir den
restlichen 3 Würfeln die Zahlen 1,2,3 zu. Dafür gibt es genau 3!
Möglichkeiten. Folglich ist
P(A)=
 5
5!
| A |=  3!= = 60 und es ergibt sich
2!
 2
| A | 60 10
=
=
≈ 0,008 . Die Chance, 2 mal eine 4 und die Zahlen 1,2,3
| Ω | 65 64
zu würfeln, beträgt 8 zu 1000.
Übungsaufgaben
1.13
Ein 5-stelliger Zahlencode, bestehend aus den Ziffern 1 bis 6, wird
zufällig durch Würfeln mit 5 gleichmäßigen Würfeln bestimmt.
Wie groß ist die Wahrscheinlichkeit dafür,
a) die Zahlen 1,2,3,4,5 zu würfeln?
b) 2 mal die 4 und 3 mal die 6 zu würfeln?
c) 5 verschiedene Zahlen zu würfeln?
1.14
Wie groß ist die Wahrscheinlichkeit dafür, beim 3maligen
Würfeln mit einem gleichmäßigen Würfel mindestens 2 mal eine 6
zu würfeln?
1.3
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
von Ereignissen
Ein Zufallsexperiment sei durch die Grundmenge Ω beschrieben. Ein Ereignis
A ⊆ Ω hat dann die Wahrscheinlichkeit P(A). Wie ändert sich diese
Wahrscheinlichkeit, wenn wir die Zusatzinformation erhalten, dass im
Experiment das Ereignis B eingetreten ist? Beim Würfeln mit einem Würfel
ist die Wahrscheinlichkeit eine 6 zu würfeln gleich 1/6. Erhalten wir aber die
Zusatzinformation, dass eine gerade Zahl gewürfelt wurde, so ist die
Wahrscheinlichkeit für eine 6 gleich 1/3.
Wir gehen bei unseren
- 14 –
Stochastik
Überlegungen von Ω zu einem kleineren Grundraum B über und berechnen
in diesem Grundraum die Wahrscheinlichkeit für A∩B.
Bedingte
Wahrscheinlichkeit
Definition: Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem
Ereignisfeld ℑ. Seien A∈ℑ und B∈ℑ zwei beliebige Ereignisse zu V mit
P(B)>0. Dann heißt
P(A|B) =
P( A ∩ B )
P( B)
bedingte Wahrscheinlichkeit von A unter der Bedingung B.
Speziell ist P(B|B) = 1, denn aufgrund der Information ist das Eintreten von B
sicher. Die bedingte Wahrscheinlichkeit P(⋅|B) ist bei festgehaltener
Bedingung B ein Wahrscheinlichkeitsmaß auf ℑ, d.h. P(⋅|B) erfüllt alle
Axiome und Eigenschaften der Wahrscheinlichkeit, die in Abschnitt 1.1.4
dargestellt wurden. Insbesondere gilt dann auch P ( A | B ) = 1 − P ( A | B ) .
Man beachte aber, dass im allgemeinen P ( A | B ) ≠ 1 − P ( A | B ) ist.
Multiplikationssatz
1.15
Zeigen Sie anhand der Definitionsgleichung der bedingten
Wahrscheinlichkeit, dass P ( A | B ) = 1 − P ( A | B ) gilt!
Multiplizieren wir in der Definitionsgleichung für die bedingte
Wahrscheinlichkeit beide Seiten mit P(B), so erhalten wir die sogenannte
Multiplikationsformel:
P( A ∩ B) = P( A | B) ⋅ P( B)
Oftmals sind die Wahrscheinlichkeiten P(A|B) und P(B) gegeben oder leicht
zu ermitteln und die Multiplikationsformel wird dann angewendet, um die
Die MultiplikaProduktwahrscheinlichkeit
P ( A ∩ B ) zu ermitteln.
tionsformel lässt sich auf beliebig viele Ereignisse verallgemeinern:
Satz: (Multiplikationssatz)
Sei V ein zufälliger Versuch mit der Grundmenge Ω und dem Ereignisfeld
ℑ=ℑ(Ω). Seien Ai∈ℑ , i=1,...,n , n beliebige Ereignisse. Dann gilt:
P( A1 ∩ A2 ∩ ⋯ ∩ An )
= P ( A1 ) P( A2 | A1 ) P( A3 | A1 ∩ A2 ) ⋅ ⋯ ⋅ P( An | A1 ∩ ⋯ ∩ An −1 )
Beispiel: Aus einem gut gemischten Kartenspiel sollen 3 Spieler nacheinander
eine Karte ziehen. Mit welcher Wahrscheinlichkeit zieht jeder Spieler eine
Pik-Karte (Ereignis A)?
Der Wahrscheinlichkeitsraum
- 15 -
Lösung: Unter den 32 Karten sind 8 Pik-Karten. Die Wahrscheinlichkeit, dass
der erste Spieler eine Pik-Karte zieht ist P(A1)=8/32=1/4. Nachdem der erste
Spieler eine Pik-Karte gezogen hat, sind nur noch 31 Karten und davon 7 PikKarten im Spiel. Somit ist die Wahrscheinlichkeit dafür, dass der zweite
Spieler eine Pik-Karte zieht P(A2|A1) = 7/31. Analog erhalten wir dann
P(A3|A1∩A2)=6/30
und
somit:
P(A) = P(A1∩A2∩A3)=
8 7 6
7
⋅ ⋅
=
.
32 31 30 620
Verändert die Information über das Eintreten von B die Chancen für A nicht,
d.h. gilt P(A|B)=P(A), so heißen A und B stochastisch unabhängig.
Unabhängige
Ereignisse
Für 2 unabhängige Ereignisse gilt die Produktformel:
Produktformel für 2
unabhängige
Ereignisse
P ( A ∩ B ) = P ( A) ⋅ P ( B )
Beispiel: Sind die beiden Ereignisse A = „Würfeln einer geraden Zahl“ und
B= „Würfeln einer Zahl ≥ 4“ stochastisch unabhängig?
Lösung: Es gilt P(A)=1/2 und P(B|A)=2/3. Damit sind P(A)≠P(B|A) und
folglich sind A und B nicht stochastisch unabhängig. Das gleiche Ergebnis
erhalten wir, wenn wir die Produktformel untersuchen: Es ist P(A)=1/2,
P(B)=1/2 und P(A∩B)=2/6. Folglich ist P(A∩B)≠P(A)P(B), woraus folgt, dass
A und B nicht stochastisch unabhängig sind.
1.16 Zeigen Sie dass aus P ( A ∩ B ) = P ( A) ⋅ P ( B ) folgt, dass auch die
Beziehungen P ( A ∩ B ) = P ( A ) ⋅ P ( B ) ,
P( A ∩ B ) = P ( A) ⋅ P( B )
und P ( A ∩ B ) = P ( A ) ⋅ P ( B ) gelten!
(D.h., aus der stochastischen Unabhängigkeit von A und B folgt
die stochastische Unabhängigkeit von A , B sowie A, B , sowie
A , B ).
Die Definition der Unabhängigkeit von n beliebigen Ereignissen sieht etwas
komplizierter aus. Die inhaltliche Bedeutung ist analog zum Fall zweier
Ereignisse: das Eintreten jeweils eines Teils der Ereignisse beeinflusst die
Chancen des Eintretens des anderen Teils nicht. Für die Berechnungen ist die
Verallgemeinerung der Produktformel wichtig:
Sind Ereignisse A1 , A2 , ⋯ , An stochastisch unabhängig, so gilt für jede
beliebige Teilauswahl A1* , A2* , ⋯ , Ak * von k Ereignissen aus diesen n:
P ( A1* ∩ A2* ∩ ⋯ ∩ Ak * ) = P( A1* ) P ( A2* ) ⋅ ⋯ ⋅ P( Ak * )
Allgemeine
Produktformel für n
unabhängige
Ereignisse
- 16 –
Stochastik
Beispiel: Die Wahrscheinlichkeit, dass ein Beobachter in einem gewissen
Zeitraum ein Signal auf einem Bildschirm übersieht, sei 0,2 und bei allen
Beobachtern gleich. Wie viele unabhängig voneinander arbeitende
Beobachter benötigt man, wenn insgesamt die Wahrscheinlichkeit dass ein
Signal übersehen wird (Ereignis A), nicht größer als 0,01 sein soll?
Lösung: Sei Ai das Ereignis „Das Signal wird von Beobachter i übersehen“.
Dann gilt P(Ai)=0,2. Da die Beobachter unabhängig voneinander arbeiten,
gilt:
n
P(A)= P ( A1 ∩ A2 ∩ ⋯ ∩ An ) = P( A1 ) P( A2 ) P( A3 ) ⋅ ⋯ ⋅ P( An ) =(0,2) .
0,2 n ≤ 0,01 . Daraus folgt durch
Logarithmieren : log(0,2 n ) = n log(0,2) ≤ log(0,01) . Bei der Auflösung der
Gleichung nach n muss man durch den negativen Wert log(0,2) dividieren;
dadurch kehrt sich das Relationszeichen um. Wir erhalten:
log(0,01)
n≥
= 2,86 . Das heißt, dass mindestens 3 Beobachter nötig sind.
log(0,2)
Die
geforderte
Bedingung
war:
Übungsaufgaben
1.17
Aus 11 Buchstaben „m“, „i“, „i“, „i“, „i“, „s“, „s“, „s“, „s“, „p“, „p“
wird zufällig der Reihe nach jeweils einer ausgewählt und zu einem
Wort angelegt. Berechnen Sie unter Verwendung des
Multiplikationssatzes die Wahrscheinlichkeit dafür, dass das Wort
„mississippi“ entsteht!
1.18
Zwei Studenten bearbeiten unabhängig voneinander die gleiche
Übungsaufgabe. Jeder der beiden findet die richtige Lösung mit der
Wahrscheinlichkeit 0,6. Wie groß ist die Wahrscheinlichkeit dafür,
dass mindestens einer der beiden die Aufgabe richtig löst?
1.19
Ein System besteht aus 4 Elementen, die wie folgt angeordnet sind:
Das System verhält sich wie bei
Reihen- und Parallelschaltungen. Es
funktioniert, wenn mindestens eine
Reihe funktioniert. Eine Reihe
funktioniert, wenn alle Elemente der
Reihe funktionieren.
Jedes Element arbeitet unabhängig von den anderen mit der
gleichen
Wahrscheinlichkeit
p=0,9, d.h. fällt mit der
Der Wahrscheinlichkeitsraum
- 17 -
Wahrscheinlichkeit 0,1 unabhängig von den anderen Elementen aus.
a) Wie groß ist die Wahrscheinlichkeit dafür, dass das System S
funktioniert?
b) Wie groß ist die Wahrscheinlichkeit dafür, dass Element 3
funktioniert unter der Bedingung, dass das System S
funktioniert ?
c)
1.4
Sind die Ereignisse „Das System S funktioniert“ und „Das
Element 3 funktioniert“ stochastisch unabhängig?
Totale Wahrscheinlichkeit und Bayes’sche Formel
Oft liegen Wahrscheinlichkeiten für ein vollständiges System von Ereignissen
A1, A2,..., An vor, sowie die Wahrscheinlichkeiten P(B/Ai) für das Eintreten
eines weiteren Ereignisses B unter der Bedingung Ai und es ist P(B) und/oder
P(Ai/B) gesucht.
Sind A1, A2,..., An ein vollständiges System von Ereignissen, so gilt:
B = ( A1 ∩ B) ∪ ( A2 ∩ B) ∪ ⋯ ∪ ( An ∩ B) , wobei alle Ereignisse ( Ai ∩ B) und
( A j ∩ B ) paarweise
für
i≠j
disjunkt
sind.
Nach
Axiom
n
3
Formel der Totalen
Wahrscheinlichkeit
der
n
Wahrscheinlichkeit erhalten wir dann P(B) = P (∪( Ai ∩ B )) = ∑ P ( Ai ∩ B )
i =1
i =1
und aus dem Multiplikationssatz für 2 Ereignisse folgt daraus
n
P(B) = ∑ P ( Ai ) P( B / A i ) .
i =1
Diese Formel wird als Formel der totalen Wahrscheinlichkeit bezeichnet.
Der Engländers Thomas Bayes entwickelte im Jahre 1764 eine Formel für die
Wahrscheinlichkeit des Eintreten von Aj unter der Voraussetzung, dass B
eingetreten ist und unternahm damit als erster den Versuch, für statistische
Schlüsse logische Grundlagen anzugeben.
Satz: (Formel von Bayes)
Sind A1, A2,..., An ein vollständiges System von Ereignissen und B ein
weiteres Ereignis, so gilt:
Satz von Bayes
- 18 –
Stochastik
P ( A j | B) =
P ( A j ∩ B)
P( B )
=
P( A j ) P( B / A j )
n
.
∑ P ( A ) P( B / A )
i =1
i
i
Eine besondere Bedeutung dieser Formel liegt in folgender Überlegung:
Angenommen, eine direkte Beobachtung der Ereignisse A1,...,An ist nicht
möglich und man hat auf irgendeine Weise aber eine Anfangs-Information
über deren Wahrscheinlichkeiten P(A1),..,P(An) erhalten. Diese werden als apriori-Wahrscheinlichkeiten bezeichnet. Beobachtet man nun bei Durchführung
des zufälligen Versuchs das Ereignis B, so ist man bestrebt, diese Information
zur verbesserten Entscheidungsfindung darüber zu verwenden, welches der
Ereignisse A1,...,An eingetreten ist. In diesem Zusammenhang pflegt man die
Wahrscheinlichkeiten P(A1/B), ..., P(An/B) als a-posteriori-Wahrscheinlichkeiten
zu bezeichnen. Eine andere Anendung dieser Formel besteht darin, die
Trennschärfe eines beobachteten Ereignisses B für die Entscheidung, dass ein
Ereignis Ai eingetreten ist, zu beurteilen. Entscheidet man sich bei Auftreten
von B für das Ereignis Ai, so wird P(Aj/B) für i≠j als Irrtumswahrscheinlichkeit bei dieser Entscheidung interpretiert.
Beispiel: Ein Übertragungssystem sendet und empfängt die Zeichen 0 und 1
(Ereignisse S0 und S1). In 80 % aller Fälle wird eine 0 in 20 % aller Fälle eine 1
gesendet. Die Übertragung ist fehlerbehaftet. Die Wahrscheinlichkeit dafür,
dass eine 1 empfangen wird (Ereignis E1), unter der Bedingung, dass eine 0
gesendet wurde, beträgt 0,01. Die Wahrscheinlichkeit dafür, dass eine 0
empfangen wurde (E0) unter der Bedingung, dass eine 1 gesendet wurde, ist
0,02. Wir stellen uns nun auf den Standpunkt, dass wir nur die empfangenen
Zeichen beobachten können. Es werden nur die Zeichen 0 und 1 empfangen.
a) In wieviel % aller Fälle wird eine 1 empfangen und b) wie groß ist die
Wahrscheinlichkeit dafür, dass tatsächlich auch eine 1 gesendet wurde, wenn
eine 1 empfangen wurde?
Lösung: Offensichtlich bilden S0 und S1 ein vollständiges Ereignissystem.
Gegeben sind folgende Wahrscheinlichkeiten: P(S0)=0,8, P(S1)=0,2,
P(E1/S0)=0,01 und P(E0/S1)=0,02. Gesucht sind a) P(E1) und b) P(S1/E1).
Gemäß der Formel der totalen Wahrscheinlichkeit gilt:
P ( E1) = P( S 0) P ( E1 | S 0) + P( S1) P( E1 | S1) .
Da nur die Zeichen 0 und 1 empfangen werden,
P ( E1 | S1) = 1 − P ( E 0 | S1) = 1 − 0,02 = 0,98 und wir erhalten für a)
P ( E1) = 0,8 ⋅ 0,01 + 0,2 ⋅ 0,98 = 0,204
ist
Der Wahrscheinlichkeitsraum
Wir sehen, dass die Wahrscheinlichkeit dafür, eine 1 zu empfangen sich als
bewichtetes Mittel der Wahrscheinlichkeiten ergibt, eine 1 zu empfangen,
wenn tatsächlich eine 1 gesendet wurde und eine 1 zu empfangen, wenn
keine 1 gesendet wurde. Aufgrund des Übertragungsfehlers empfangen wir
etwas mehr Einsen als gesendet wurden. Für die Wahrscheinlichkeit b) ergibt
sich nach der Bayes’schen Formel:
P ( S1 | E1) =
P ( S1) P( E1 / S1) 0,2 ⋅ 0,98
=
≈ 0,96 .
P( E1)
0,204
Übungsaufgaben
1.20
Wir wollen die Zuverlässigkeit eines SPAM-Filters untersuchen,
dabei nehmen wir an, dass wir genau wissen, was eine SPAM ist!.
Unser SPAM-Filter arbeitet wie folgt: Es werden alle Texte als
SPAM eingestuft, in denen das Wort „Viagra“ vorkommt. In
jedem anderen Fall werden die Texte als O.K. eingestuft. Es soll
die Zuverlässigkeit dieses SPAM-Filters, d.h., die Trennschärfe
des Wortes „Viagra“ untersucht werden. Aus Untersuchungen
von Texten sei bekannt, dass 20 % aller Texte SPAM’s sind. Es
sei weiterhin bekannt, dass in 90% aller Texte, die tatsächlich
SPAM’s sind, das Wort „Viagra“ vorkommt, aber leider auch in
1% aller Texte, die keine SPAM’s sind.
a) Wie groß ist die Wahrscheinlichkeit dafür, dass ein Text,
der als SPAM eingestuft wurde auch wirklich ein SPAM
ist?
b) Wie groß ist die Wahrscheinlichkeit dafür, dass ein nicht
als SPAM eingestufter Text ein SPAM ist?
1.21
Eine Firma bezieht jeweils 30 %, 20% bzw. 50% von benötigten
Teilen von 3 verschiedenen Zulieferern Z1, Z2 bzw. Z3. Über die
Ausschussrate (Anteil der defekten Teile unter den gelieferten) sei
bekannt, dass sie bei Z1 1%, bei Z2 und Z3 2% bzw. 0,5 % beträgt.
a) Wie viel % Ausschuss (Ereignis A) erhält die Firma
insgesamt?
b) Mit welcher Wahrscheinlichkeit stammt ein defektes Teil
von Z1?
- 19 -
- 20 –
Stochastik
2
Zufallsgrößen
In diesem Kapitel wird der Begriff der Wahrscheinlichkeit auf Zufallsgrößen
erweitert. Es wird der Begriff Zufallsgröße eingeführt und es wird erläutert,
wie Wahrscheinlichkeitsverteilungen von Zufallsgrößen
mathematisch
beschrieben werden. Wir unterscheiden dabei zwischen diskreten und
stetigen Zufallsgrößen, die sich hinsichtlich der Modellierung ihrer
Verteilungen grundsätzlich unterscheiden.
Nach Durcharbeiten dieses Kapitels können Sie
•
•
•
•
•
2.1
diskrete und stetige Zufallsgrößen voneinander unterscheiden,
auf der Basis einer gegebenen Wahrscheinlichkeitsverteilung Wahrscheinlichkeiten für eine diskrete Zufallsgöße berechnen,
auf
der
Basis
einer
gegebenen
Verteilungsdichte
oder
Verteilungsfunktion Wahrscheinlichkeiten einer stetigen Zufallsgröße
berechnen,
spezielle diskrete Verteilungen (Gleichverteilung, Binomialverteilung
und Poissonverteilung) und spezielle stetige Verteilungen (stetige
Gleichverteilung,
die
Exponentialverteilung
und
die
Normalverteilung) voneinander unterscheiden und typischen
Anwendungsfällen
zuordnen,
sowie
auf
ihrer
Basis
Wahrscheinlichkeiten für praktische Anwendungen berechnen,
typische Parameter von Verteilungen von Zufallsgrößen, wie
Erwartungswert, Varianz und Quantile berechnen und interpretieren.
Begriff der Zufallsgröße
Es gibt viele praktische Anwendungsfälle, in denen nicht die elementaren
Versuchsausgänge ω, sondern aus diesen abgeleitete reelle Größen X(ω), die
sogenannten Zufallsgrößen, interessieren. Zufallsgrößen kann man auch als
Abbildungen von Ω in die Menge der reellen Zahlen auffassen: X:
ω∈Ω→X(ω)∈R. Bei der zufälligen Auswahl einer Person könnte z.B. ω der
Name der Person und X(ω) ihr Einkommen oder ihr Alter sein. In der
Qualitätskontrolle könnte X(ω) die Anzahl der defekten Teile in einem Los
bestehend aus n Teilen sein. ω ist dann ein n-Tupel, bestehend aus den
Zahlen 0 (Teil ist OK) und 1 (Teil ist defekt), X(ω) wäre gleich der Summe der
Elemente von ω. Andere Beispiele sind die zufällige Anzahl der Kunden in
Zufallsgrößen
einem Postamt, die zufällige Anzahl der defekten Sektoren auf einer
Festplatte, die zufällige Zeit, die zwischen dem Eintreffen zweier Nachrichten
vergeht, die zufällige durchschnittliche Temperatur und Niederschlagsmenge
in einem bestimmten Monat an einem bestimmten Ort, das alles sind
Zufallsgrößen.
In allen diesen Fällen interessiert uns nicht, mit welcher Wahrscheinlichkeit
P(A) ein Ereignis A⊆Ω eintreten wird, sondern uns interessiert, mit welcher
Wahrscheinlichkeit X Werte in einer Menge B⊆R annimmt, also PX (B). Fassen
wir Ereignisse B⊆R zu einem Ereignisfeld E zusammen und fordern wir, dass
für
jedes
Ereignis
B∈E
das
zugehörige
−1
Urbildereignis X ( B ) = {ω ∈ Ω | X (ω ) ∈ B} =AB in dem Ereignisfeld ℑ(Ω)
von Ω liegt und dass P ein Wahrscheinlichkeitsmaß auf ℑ(Ω) ist, so kann man
die Wahrscheinlichkeit eines beliebigen Ereignisses B∈E auf „natürliche“
Weise“ bestimmen zu:
PX ( B) = P({ω ∈ Ω | X (ω ) ∈ B}) =P(AB)
D.h., durch eine Zufallsgröße X wird der Wahrscheinlichkeitsraum
[Ω,ℑ (Ω),P] in den Wahrscheinlichkeitsraum [X,E,PX] transformiert, wobei
X⊆R der Wertebereich von X ist. PX besitzt wegen dieser Transformation alle
Eigenschaften eines Wahrscheinlichkeitsmaßes (auf E).
Für Zufallsgrößen verwenden wir im folgenden große lateinische Buchstaben
X,Y,T,Z,..., für ihre Wertebereiche die zugehörigen Buchstaben in
Frakturschrift
X, Y, T, Z,... ,
und für die Realisierungen
(konkreten Beobachtungen) der Zufallsgrößen kleine lateinische Buchstaben
x,y,z,t,... .
Wir verwenden folgende Schreibweise für Ereignisse: X∈B (statt B) und
schreiben: X=x , falls B={x}; X ≤ b, falls B={x∈X|x≤b}; a<X<b, falls B={
x∈X|a<x<b} usw. . Für die Wahrscheinlichkeit PX schreiben wir im folgenden
der Einfachheit halber nur P.
- 21 -
- 22 –
Stochastik
2.2
2.2.1
Diskrete Zufallsgrößen
Diskrete Zufallsgröße und ihre Wahrscheinlichkeitsverteilung
Eine Zufallsgröße X heißt diskret, falls ihr Wertebereich X endlich oder
abzählbar unendlich ist, falls also gilt: X={a1,a2,...,ak}, k∈N, k≤ ∞, ai∈R.
Bei diskreten Zufallsgrößen interessierenden Ereignisse der Form: X∈B,
B⊆X., die in dem Ereignisfeld E=ℑ(X) zusammengefasst sind. D.h. wir
wollen ein Wahrscheinlichkeitsmaß P auf dem Ereignisfeld E angeben. Ein
solches Maß ist eindeutig durch die Einzelwahrscheinlichkeiten pi=P(X=ai)
bestimmt.
Definition: Sei P ein Wahrscheinlichkeitsmaß auf dem Ereignisfeld E=ℑ(X).
Als (Einzel-)Wahrscheinlichkeitsverteilung P einer diskreten Zufallsgröße,
bezeichnet man die Gesamtheit der Einzelwahrscheinlichkeiten pi=P(X=ai),
i=1,..., k. Die Einzelwahrscheinlichkeiten lassen sich in Tabellenform angeben:
Wert ai
P(X=ai)
a1 a2 a3 a4 ...
p1 p2 p3 p4 ...
ak
pk
Offensichtlich gilt (da P ein Wahrscheinlichkeitsmaß ist) für die Einzelwahrscheinlichkeiten:
0 ≤ pi ≤ 1 für alle i=1,2,...,k und
k
∑p
i =1
i
= 1.
Mit Hilfe der Einzelwahrscheinlichkeiten kann man die Wahrscheinlichkeit
für jedes beliebige Ereignis X∈B, B⊆X, berechnen. Sei B={a1*,a2*,...,am*}. Da die
Ereignisse X=ai* und X=aj* für i* ≠ j* disjunkt sind, gilt gemäß Axiom 3 für
Wahrscheinlichkeitsmaße :
P(X∈B) = P( (X=a1*) ∪...∪ (X=am*))=
m
m
i =1
i =1
∑ P ( X = a i* ) = ∑ p i*
Beispiel: X sei die Anzahl der ‚Köpfe’ beim zweimaligen Münzwurf. Gesucht
ist die Wahrscheinlichkeitsverteilung von X.
Lösung: Der Wertebereich von X ist X={0,1,2}. Gesucht sind die
Einzelwahrscheinlichkeiten pi = P(X=i), i=0,1,2.. Unser Versuch hat die
folgenden elementaren Versuchsausgänge: (K,Z),(Z,K),(K,K),(Z,Z), (K=’Kopf’,
Z=’Zahl’), wobei das erste Element der Tupel das Ergebnis des ersten Wurfes
Zufallsgrößen
- 23 -
und das zweite Element das Ergebnis des 2.Wurfes repräsentiert.
offensichtlich folgende Abbildung:
X ist
Das heiß, das Ereignis „X=0“ ist äquivalent zu A0={(Z,Z)}, „X=1“ ist
äquivalent zu A1={(K,Z),(Z,K)}, „X=2“ bedeutet, dass A2={(K,K)}eingetreten
ist, und wir erhalten wegen P(X=i) = P(Ai) in Anwendung der Regel
P(Ai)=|Ai|/|Ω| der klassischen Wahrscheinlichkeit folgende Tabelle:
i
pi=P(X=i)
0
1/4
1
1/2
2
1/4
Die Wahrscheinlichkeit, dass beim zweimaligen Münzwurf mindestens
einmal Kopf auftritt, ist offensichtlich P(X ≥ 1) = p1 +p2 = 3/4.
Beispiel: Wie groß ist die Wahrscheinlichkeit dafür, beim 3maligem Würfeln
mindestens 2 Sechsen zu würfeln?
Lösung: Sei X=“die Anzahl der Sechsen beim 3maligen Würfeln“. Dann ist X ∈
X={0,1,2,3}. Gesucht ist P(X ≥ 2) = p2 + p3, wobei pi=P(X=i) ist. Wir bestimmen
nun die Einzelwahrscheinlichkeitsverteilung von X. Dazu müssen wir nicht
unbedingt Ω und die Abbildung X:Ω→ X genau bestimmen, sondern wir
können eleganterweise auch wie folgt vorgehen. Sei Xi
folgende
Zufallsgröße, die das Ergebnis des i.ten Wurfes beschreibt:
0 falls ' keine 6 '
Xi = 
1 falls ' eine 6'
Offensichtlich ist nach den Regeln der klassischen Wahrscheinlichkeit
P(Xi=1)=1/6 und P(Xi=0)=5/6. Darüber hinaus gilt die Äquivalenz folgender
Ereignisse: X = 3 ⇔ X 1 = 1 ∩ X 2 = 1 ∩ X 3 = 1 ;
X = 2 ⇔ ( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 1) ∪ ( X 1 = 1 ∩ X 2 = 0 ∩ X 3 = 1)
∪ ( X 1 = 1 ∩ X 2 = 1 ∩ X 3 = 0)
usw., usf. Wir wollen nun beispielsweise P(X=2) berechnen. Die durch ∪
verknüpften Teilereignisse der rechten Seite der Äquivalenz zu ‚X=2’ sind
alle disjunkt. Nach Axiom 3 der Wahrscheinlichkeit gilt folglich:
- 24 –
Stochastik
P( X = 2) = P( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 1) + P( X 1 = 1 ∩ X 2 = 0 ∩ X 3 = 1)
+ P( X 1 = 1 ∩ X 2 = 1 ∩ X 3 = 0)
Die 3 Ereignisse ' X 1 = e1 ' , ' X 2 = e2 ' , ' X 3 = e3 ' , ei ∈ {0,1} , sind gegenseitig
stochastisch unabhängig (d.h., das Ergebnis eines Wurfes beeinflusst die
Ergebnisse der anderen Würfe nicht). Demzufolge kann man auf die
Verbundwahrscheinlichkeiten die Produktformel für unabhängige Ereignisse
anwenden, beispielsweise gilt:
P ( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 1) = P ( X 1 = 0) ⋅ P( X 2 = 1) ⋅ P ( X 3 = 1) =
5 1 1
⋅ ⋅
6 6 6
Wir erhalten:
5 1 1 1 5 1 1 1 5
1 1 5
⋅ ⋅ + ⋅ ⋅ + ⋅ ⋅ = 3 ⋅ ⋅ ⋅ ≈ 0,069
6 6 6 6 6 6 6 6 6
6 6 6
1 1 1
und P ( X = 3) = ⋅ ⋅ ≈ 0,005 .
6 6 6
P ( X = 2) =
Die Wahrscheinlichkeit, beim 3 maligen Würfeln mindestens 2 mal die 6 zu
würfeln ist also P(X ≥ 2) = p2 + p3 = 0,074.
Übungsaufgaben
2.1
Bestimmen Sie die vollständige Wahrscheinlichkeitsverteilung der
Zufallsgröße X=„Anzahl der Sechsen beim 3maligen Würfeln“!
2.2
Wie groß ist die Wahrscheinlichkeit dafür, dass beim Würfeln mit
zwei Würfeln die Summe der Augenzahlen 6, 7 oder 8 ist?
2.3
Ein Eisverkäufer erzielt bei schönem Wetter einen Tagesgewinn
von 100 Euro und bei Regen von 50 Euro. Bei Schneefall macht er
40 Euro Verlust, ebenso macht er einen Verlust von 20 Euro bei
starkem Wind (ohne Regen und Schnee). Aus den
Wetterberichten der letzten Jahre sei bekannt, dass die
Wahrscheinlichkeit für schönes Wetter 0,5, für Regen 0,25, für
Schneefall 0,15 und für starken Wind 0,1 beträgt. Wie groß ist die
Wahrscheinlichkeit dafür, dass der Eisverkäufer keinen Verlust
am Tag erzielt?
Zufallsgrößen
2.2.2
- 25 -
Spezielle diskrete Wahrscheinlichkeitsverteilungen
Im folgenden stellen wir einige Standardmodelle für Verteilungen diskreter
Zufallsgrößen vor.
Definition: In einem zufälligen Versuch wird beobachtet, ob ein Ereignis A
eintritt oder nicht. Wir können das durch die folgende Zufallsgröße X
abbilden:
eintritt (Misserfolg)
0 falls A nicht
X =
1 falls A eintritt (Erfolg)
Zweipunktverteilung
P(X=0)=1 - p
P(X=1)=p
Die Verteilung von X heißt Zweipunkt- oder Bernoulliverteilung, p = P(X=1)
heißt Erfolgswahrscheinlichkeit.
In Verallgemeinerung der Zweipunktverteilung entsteht die sogenannte
Binomialverteilung.
Definition: Wir gehen von einem zweipunktverteilten Versuch mit
Erfolgswahrscheinlichkeit p aus. X sei die Anzahl der Erfolge bei n maliger
stochastisch unabhängiger Wiederholung des zweipunktverteilten Versuchs.
X hat dann den Wertebereich {0,1,...,n} und besitzt die folgende als
Binomialverteilung mit den Parametern n und p bezeichnete Verteilung:
 n
pi = P( X = i) =   p i (1 − p) n −i ,
i
i=0,1,...,n.
Wir schreiben: X~B(n,p).
Beispiel: In einer Mathematik-Klausur werden 6 Aufgaben zu je drei
Antwortalternativen gestellt, von denen jeweils nur eine richtig ist. Wie groß
ist die Wahrscheinlichkeit dafür, dass ein Student mehr als 4 Aufgaben nur
durch Raten richtig beantwortet (und damit unverdient eine 1 bekommt)?
Lösung: Für jede Aufgabe i erhalten wir eine zweipunktverteilte Zufallsgröße
Xi, wobei Xi=1 ist, falls die Aufgabe i richtig geraten wird. Die
Erfolgswahrscheinlichkeit ist p=P(Xi =1) =1/3. Da die Lösung stets geraten
wird, hängt das Ergebnis für eine Aufgabe nicht vom Ergebnis der anderen
Aufgaben ab. Wir haben es also mit einer n=6 fachen stochastisch
unabhängigen Wiederholung eines zweipunktverteilten Versuches mit
Erfolgswahrscheinlichkeit p=1/3 zu tun. Die Zufallsgröße X=’Anzahl der
Binomialverteilung
- 26 –
Stochastik
richtig geratenen Aufgaben’ ist also binomialverteilt mit n=6 und p=1/3 und
wir erhalten die Lösung:
 6
 6
13
P( X > 4) = P( X = 5) + P( X = 6) =  (1 / 3) 5 (2 / 3) +  (1 / 3) 6 (2 / 3) 0 = 6
3
 5
 6
≈0,018.
Das heißt, unser nicht erwünschte Fall kommt bei 1000 Studenten, die die
Klausur nur durch Raten absolvieren, ca. 18 mal vor. (Glücklicherweise sind
die Studenten aber alle fleißig und lösen eine Klausur selten durch Raten.)
Gleichverteilung
Definition: Eine Zufallsgröße X besitzt eine (diskrete) Gleichverteilung auf der
endlichen Menge X={a1,a2,...,ak}, wenn sie die Werte a1,a2,...,ak mit derselben
pi = P( X = ai ) =
Wahrscheinlichkeit
1
k
für alle i=1,...,k, annimmt. X
beschreibt eine Auswahl „auf gut Glück“ aus der Menge ={a1,a2,...,ak}. Wir
schreiben: X~ R({a1,a2,...,ak}).
Poissonverteilung
Definition: Eine Zufallsgröße X besitzt eine Poissonverteilung (ist poisson-verteilt)
mit dem Parameter λ>0, wenn sie die Werte
0,1,2,....
mit den
Wahrscheinlichkeiten
pi = P( X = i) =
λi
i!
e −λ , i=0,1,2,....
annimmt. Wir schreiben: X~P(λ).
Die Poissonverteilung findet als Modell oft Anwendung, wenn eine
Zufallsgröße X zählt, wie viele von einer großen Anzahl von unabhängigen
Ereignissen mit recht kleiner Wahrscheinlichkeit eintreten Sie dient für λ= n⋅p
als Approximation der Binomial-Wahrscheinlichkeiten für große n und
kleine
p
(Empfehlung:
n
>
20,
p < 0,01), denn man kann zeigen, dass gilt:
lim
p →0
n →∞
np = λ ( konstant )
n i
λi
  p (1 − p ) n −i = e −λ
i!
i
Wie wir im Abschnitt 2.4 sehen werden, lässt sich λ als arithmetisches Mittel
der Beobachtungen von X in einer langen Reihe von wiederholten
Beobachtungen von X interpretieren.
Beispiel: Die Anzahl X der Anrufe, die in einer Telefonzentrale zwischen 22
und 23 Uhr eintreffen, sei poissonverteilt mit dem Parameter λ=5 (d.h., im
Schnitt treffen in diesem Zeitraum ca. 5 Anrufe ein.) Man unterstellt, dass die
Telefonzentrale eine große Anzahl von Kunden bedient, von denen jeder
Zufallsgrößen
- 27 -
unabhängig vom anderen im fraglichen Zeitraum anrufen wird. Die
Wahrscheinlichkeit, dass in dieser Zeit höchstens 2 Anrufe eintreffen, beträgt:
P ( X ≤ 2) = P ( X = 0) + P ( X = 1) + P ( X = 2) = e −5 + 5e −5 +
25 −5
e = 0,12 .
2
Übungsaufgaben
2.4
Eine Firma, die CD-RW’s herstellt, gibt Ihre Ausschussrate (Anteil
der defekten CD-RW’s an allen) mit 1 % an. Wie groß ist die
Wahrscheinlichkeit dafür, dass in einem Paket von 10 CD-RW’s
mehr als 1 defekt ist?
Hinweis: Überlegen Sie sich zunächst, wie die Zufallsgröße X
definiert werden kann und welches Verteilungsmodell für sie in
Frage kommt!
2.5
Die Anzahl X der pro ms eintreffender Signale in einer
Empfängerstation sei poissonverteilt mit dem Parameter λ=3 (d.h.,
im Schnitt treffen ca. 3 Signale pro ms ein). Wie groß ist die
Wahrscheinlichkeit dafür, dass die Kapazität K=5 Signale/ms der
Empfängerstation überschritten wird?
2.3
2.3.1
Stetige Zufallsgrößen
Stetige
Zufallsgrößen,
Verteilungsfunktion
Verteilungsdichte
und
Wir betrachten nun Zufallsgrößen, deren Wertebereich X gleich der Menge R
der reellen Zahlen oder ein (endliches oder unendliches) Teilintervall von R
ist, und für die |X|=∞ ist. Die Wahrscheinlichkeitsverteilung P einer solchen
Zufallsgröße lässt sich nicht mehr durch die Einzelwahrscheinlichkeiten
P(X=x) beschreiben, denn diese sind i.A. gleich Null (Nach den Regeln der
klassischen Wahrscheinlichkeit wäre beispielsweise P(X=x)= 1/|X|=0). Die
für praktische Zwecke bei einer stetigen Zufallsgröße interessierenden
- 28 –
Stochastik
Ereignisse sind deshalb nicht mehr von der Form „X=x“, sondern von der
Form X∈B, wobei B sogenannte Borelmengen in R sind. Borelmengen sind
nicht alle Teilmengen von R, sondern nur die, die sich durch die Operationen
∪, ∩ und Komplementbildung aus halboffenen Intervallen (-∞,x], x∈R, bilden
lassen. Hierzu gehören u.a. alle offenen, halboffenen und geschlossenen
Intervalle, also Ereignisse der Form: X< a, X ≤ a, X > b, X ≥ b, a < X < b,
a ≤ X < b, a < X ≤ b, a ≤ X ≤ b, für a ≤ b (einschließlich a=-∞ und b=∞). Bei
stetigen
Zufallsgrößen
tritt
an
die
Stelle
der
Einzelwahrscheinlichkeitsverteilung die sogenannte Dichtefunktion f(x).
Während wir bei diskreten Zufallsgrößen die Wahrscheinlichkeit P(X ∈B)
durch eine Summe der Einzelwahrscheinlichkeiten beschrieben haben:
P(X∈B) =
∑ P(X = a ) = ∑ p
i
i:ai ∈B
i:ai ∈B
i
werden wir bei stetigen Zufallsgrößen diese Wahrscheinlichkeit durch ein
Integral darstellen:
P(X∈B) =
∫ f ( x)dx
x: x∈B
Stetige
Zufallsgröße,
Dichtefunktion
Definition: Eine Zufallsgröße X heißt stetig, wenn (in Verallgemeinerung der
Einzelwahrscheinlichkeiten) eine integrierbare Funktion f:R→R mit folgenden
Eigenschaften existiert:
(D1) f(x) ≥ 0 für alle x∈R
∞
(D2)
∫ f ( x)dx = 1
−∞
b
(D3) P (a < X ≤ b) =
∫ f ( x)dx
für alle a,b∈R.
a
Die Funktion f heißt Dichtefunktion oder kurz Dichte von X.
Abbildung 1:
Dichte f einer stetigen Zufallsgröße
Als Konsequenz der Eigenschaft (D3) ergibt sich für alle c∈R: P(X=c)=0. Bei
einer stetigen Zufallsgröße sind deshalb die Wahrscheinlichkeiten z. B.
folgender Ereignisse gleich:
Zufallsgrößen
- 29 -
X< a und X ≤ a, sowie X>b und X≥ b,
sowie a < X < b, a ≤ X < b, a < X ≤ b, und a ≤ X ≤ b.
Da sich Intervalle bzw. beliebige Borelmengen stets aus den halboffenen
Intervallen (-∞,x], x∈R, durch Anwendung der Operationen ∪, ∩ und
Komplementbildung erzeugen lassen, kann man die Wahrscheinlichkeiten
P(X∈B) beliebiger Borelmengen B auch aus den Wahrscheinlichkeiten
P(-∞<X ≤ x)=P(X ≤ x) erzeugen. Deshalb spielt bei stetigen Zufallsgrößen die
sogenannte Verteilungsfunktion, die durch
x
F(x) = P(X ≤ x)=
∫ f (u)du
−∞
definiert ist, eine zentrale Rolle. Wahrscheinlichkeitsverteilungen stetiger
Zufallsgrößen sind durch die Angabe der Dichtefunktion f(x) oder der
Verteilungsfunktion F(x) eindeutig bestimmt, wobei es oft bequemer ist, mit
der Verteilungsfunktion zu arbeiten. Die Intervallwahrscheinlichkeiten in
(D3) lassen sich z.B. mit Hilfe der Verteilungsfunktion wie folgt berechnen:
P (a < X ≤ b) = F (b) − F (a ).
Offensichtlich kann man die Dichtefunktion bestimmen, wenn man die
Verteilungsfunktion kennt, es gilt:
F’(x)=f(x).
2.6
Deuten Sie die Verteilungsfunktion einer stetigen Zufallsgröße
mit Hilfe von Abbildung 1 grafisch!
2.7
Stellen Sie die Wahrscheinlichkeit P(X > b) mit Hilfe der
Verteilungsfunktion F und mit Hilfe der Dichtefunktion f dar!
2.8
Stellen Sie die Wahrscheinlichkeiten
P(X ≤ b), P(X>a),
P(a ≤ X ≤ b), P(|X – a|≥ b) grafisch als Fläche unter der
Dichtefunktion f dar!
Warum ist die in Abb. a) gegebene Funktion k e i n e
Dichtefunktion? Warum sind die in Abb. b) und c) gegebenen
Funktionen k e i n e Verteilungsfunktionen?
2.9
a)
b)
c)
Verteilungsfunktion
- 30 –
Stochastik
2.3.2
Bedingte
Wahrscheinlichkeiten
Bedingte Wahrscheinlichkeiten und Quantile
Wir können auch bedingte Wahrscheinlichkeiten berechnen. Für die
Ereignisse A = ' X ≥a ' und B = 'X ≤ b' gilt: P(B/A) = P ( A∩ B)/ P ( A ).
Folglich ist
P( X ≤ b | X ≥ a) =
P(a ≤ X ≤ b) F (b) − F (a)
=
1 − F (a )
P( X ≥ a)
Abbildung 2:
α-Quantil
Veranschaulichung der bedingten Wahrscheinlichkeit
Manchmal interessiert nicht die Wahrscheinlichkeit dafür, mit der eine
zufällige Größe einen vorgegebenen Wert nicht überschreitet, sondern es
interessiert der Wert x, der von X mit einer vorgegebenen Wahrscheinlichkeit
α nicht überschritten wird. Das sind die sogenannten Quantile.
Definition: Wir bezeichnen den kleinsten Wert xα aus dem Definitionsbereich
von X, für den gilt:
P( X ≤ xα ) ≥ α
als α - Quantil der Verteilung von X.
Quantile spielen insbesondere bei stetigen Verteilungen eine Rolle. Ist F die
Verteilungs- und f die Dichtefunktion einer stetigen Zufallsgröße X, so
erfüllt ein α-Quantil xα offenbar die Beziehung:
P ( X ≤ xα ) = F ( xα ) =
xα
∫ f ( x)dx = α
−∞
Abbildung 3:
α-Quantil einer stetigen Verteilung
Zufallsgrößen
- 31 -
Ist die Verteilungsdichte
− xα = x1−α ..
von X symmetrisch, so gilt offensichtlich
Beispiel: Sei X eine Zufallsgröße mit der Verteilungsfunktion
 0 falls x < 2

F ( x) =  x −3 2 falls 2 ≤ x ≤ 5
 1 falls x > 5

Ofensichtlich hat X dann die Dichtefunktion
0 falls x < 2 oder x > 5
f ( x) =  1
2≤ x≤5
 3 falls
Abbildung 4:
Dichte- und Verteilungsfunktion für unser Beispiel
Die Gesamtfläche unter der Dichte ist gleich 1. Die Fläche unter der Dichte
von -∞ bis x=3 entspricht dem Funktionswert der Verteilungsfunktion F (3)
an der Stelle x=3. Die Größe der Fläche unter der Dichte zwischen 3 und 5 ist
5
∫ f ( x)dx = F (5) − F (3) =
1-1/3 = 2/3 und gleich der Wahrscheinlichkeit
3
P (3 ≤X ≤ 5) dafür, dass X zwischen 3 und 5 liegt (siehe Abbildung 5a).
5a
Abbildung 5:
5b
Veranschaulichung der Wahrscheinlichkeiten für unser Beispiel
- 32 –
Stochastik
Die bedingte Wahrscheinlichkeit dafür, dass X kleiner als 4 ist, unter der
Bedingung (Voraussetzung), dass X ≥ 3 ist:
2 1
−
P(3 < X < 4) F (4) − F (3) 3 3 1
=
=
=
P( X ≤ 4 | X ≥ 3) =
1 2
1 − F (3)
P( X ≥ 3)
1−
3
D.h., in 50 Prozent aller Fälle, in denen X einen Wert ≥ 3 besitzt, ist dieser
kleiner als 4, siehe Abbildung 5b.
Das 0.9-Quantil der Verteilung ist gegeben durch die Gleichung:
x0 , 9
∫ f ( x)dx = 0,9.
−∞
x0 , 9
Wir erhalten:
1
∫ f ( x)dx = 0,9 ⇔ 3 ( x
0,9
− 2) = 0,9 ⇔ x0,9 = 2,7.
−∞
D.h. nur 10% aller Beobachtungen von X überschreiten den Wert 4,7.
Übungsaufgaben
2.10
Die zufällige Zeit X, die eine Berliner U-Bahn verspätet an einer
Station eintrifft, liegt zwischen 0 und 3 Minuten. Die
Dichtefunktion ist in folgender Skizze gegeben.
Berechnen Sie
a) die Verteilungsfunktion von X!
b) den Anteil aller Fälle, in denen die Verspätung eine Minute
überschreitet! Stellen Sie diesen Anteil grafisch dar!
c) die Wahrscheinlichkeit dafür, dass die Verspätung 2 Minuten
überschreitet, wenn man bereits eine Minute (Verspätung) auf
die U-Bahn gewartet hat! Stellen Sie diese Wahrscheinlichkeit
grafisch dar!
d) Berechnen und interpretieren Sie das 50%-Quantil der
Verteilung von X.
Zufallsgrößen
2.3.3
- 33 -
Spezielle stetige Verteilungen
Wichtige Standardmodelle stetiger Zufallsgrößen sind die Gleichverteilung
auf [a,b],
die Dreiecksverteilung die Exponentialverteilung und die
Normalverteilung.
Definition: Eine Zufallsgröße X besitzt eine Gleichverteilung auf dem Intervall
[a,b] (ist gleichverteilt auf [a,b]), wenn ihre Dichte die Gestalt besitzt:
 1

f ( x) =  b − a

0
für
Gleichverteilung
auf [a,b]
a≤ x≤b
sonst
Wir schreiben: X~R([a,b]).
Eine auf [a,b] gleichverteilte Zufallsgröße X beschreibt die Auswahl „auf gut
Glück“ eines Punktes aus dem Intervall [a,b]. Der Wertebereich von X ist das
Intervall [a,b]. Höhere Programmiersprachen besitzen häufig eine RANDOM
– Funktion oder eine built-in-Prozedur ‚RAN’, die bei Aufruf eine Zahl
zurückliefert, die als Wert einer auf [0,1] gleichverteilten Zufallsgröße
angesehen werden kann.
2.11
Skizzieren Sie die Dichtefunktion
gleichverteilten Zufallsgröße!
2.12
Zeigen Sie, dass bei einer auf [a,b] gleichverteilten
Zufallsgröße alle Teilintervalle in [a,b] gleicher Länge d die
gleiche Wahrscheinlichkeit besitzen! Berechnen Sie diese!
Geben Sie die Verteilungsfunktion einer auf [a,b]
gleichverteilten Zufallsgröße an und skizzieren Sie diese!
2.13
einer
auf
[a,b]
Wenn man weiß, dass X Werte in [a,b] annimmt und nicht alle Teilintervalle
gleicher Länge gleichberechtigt sind, sondern sich Beobachtungen von X um
einen Wert c häufen, so kann man als Modell eine sogenannte
Dreiecksverteilung wählen.
Definition: Eine Zufallsgröße X besitzt eine Dreiecksverteilung auf [a,b] mit der
Höhe c, wenn ihre Dichte die Gestalt besitzt:
 2( x − a )
 (c − a )(b − a)

 2(b − x)
f ( x) = 
 (b − c)(b − a)
0


falls a ≤ x ≤ c
falls c ≤ x ≤ b
sonst
Dreiecksverteilung
- 34 –
Stochastik
Wir schreiben: X~D([a,c,b]).
Exponentialverteilung mit dem
Parameter λ
2.14
Skizzieren Sie die Dichtefunktion der Dreiecksverteilung auf
[a,b] mit Höhe h!
2.15
Wie groß ist die Höhe h? Warum muss h kleiner werden,
wenn das Intervall [a,b] länger wird?
Definition: Eine exponentialverteilte Zufallsgröße nimmt Werte im Intervall
[0,∞) an. Die Dichte einer Exponentialverteilung mit dem Parameter λ>0 hat
die Gestalt:
λe − λx
f ( x) = 
0
für x ≥ 0
für x < 0
Bezeichnung: X~E(λ).
Abbildung 6:
Dichtefunktion der Exponentialverteilung für verschiedene Parameter
λ
Die Exponentialverteilung dient oft als Modell für zufällige Abbauzeiten,
zufällige Zwischenzeiten zwischen dem Eintreffen zweier Signale in einer
Empfängerstation, zufällige Lebensdauern, wie z.B. die Zeit bis zum Ausfall
eines technischen Gerätes, die Laufzeit eines Jobs im Computer oder die
Zeitdauer eines Telefongespräches. Eine exponentialverteilte Zufallsgröße
besitzt eine wichtige Eigenschaft, die sogenannte Vergessens- bzw.
Nichtalterungseigenschaft. Diese besagt, das die Wahrscheinlichkeit, ein
Zeitintervall der Länge t zu überleben unabhängig davon ist, ob die
Zufallsgröße X bereits die Zeit s überlebt hat oder ob die Lebensdauer soeben
beginnt. In Formeln ausgedrückt :
P(X>s+t/ X>s) = P(X>t)
Zufallsgrößen
- 35 -
Übungsaufgaben
2.16
Berechnen und skizzieren Sie die Verteilungsfunktion einer mit
dem Parameter λ exponentialverteilten Zufallsgröße!
2.17
Zeigen Sie, dass für eine exponentialverteilte Zufallsgröße X gilt:
P(X>s+t/ X>s) = P(X>t) für alle s,t ∈ R.
2.18
Die zufällige Zeit T (Stunden), die bis zum Abbau einer
bestimmten Droge (z.B. ein Glas Wein, 10 cl) im menschlichen
Blut vergeht, sei durch folgende Dichtefunktion charakterisiert:
 0
falls x < 0
x
f ( x) = 
−
2
falls x ≥ 0
0,5e
a) Berechnen Sie die Verteilungsfunktion von X!
b) In wieviel Prozent aller Fälle dauert der Abbau länger als 2
Stunden?
c) Welche Abbauzeit wird nur in 10 % aller Fälle überschritten?
Fertigen Sie alle Teilaufgaben zunächst Skizzen an!
Eine für die Theorie und Anwendungen sehr wichtige stetige Verteilung ist
die Normalverteilung. Normalverteilungen treten als Modelle für
Körpergrößen,
Geburtsgewichte,
Messfehler,
Niederschlagsmengen,
landwirtschaftliche Erträge usw. auf. In der Theorie erscheinen
Normalverteilungen als Näherungen für andere (auch diskrete) Verteilungen
(siehe dazu auch Kapitel 3.2).
Definition: Eine mit den Parametern µ und σ normalverteilte Zufallsgröße hat
die Dichtefunktion:
2
f ( x) =
1
2πσ
e
−
( x−µ )2
2σ 2
, -∞ < x < ∞, µ∈R, σ>0.
Wir schreiben: X~N(µ,σ2).
Das Bild der Dichtefunktion ist die sogenannte Gaußsche Glockenkurve. Sie hat
ihren Gipfel bei x=µ und ist umso flacher, je größer σ2 ist. Ihren Namen erhielt
Normalverteilung
mit den Parametern
2
µ und σ
- 36 –
Stochastik
sie nach C.F. Gauß, der sie bei der Berechnung von Beobachtungsfehlern
einführte.
Eine besondere Normalverteilung ist diejenige mit den Parametern µ=0 und
σ=1, d.h. N(0,1). Sie wird als Standardnormalverteilung bezeichnet. Als Symbol
für die Dichtefunktion verwendet man ϕ(x) und für die Verteilungsfunktion
Φ(x). Die Quantile der Standardnormalverteilung werden mit uα bezeichnet.
7a: Dichtefunktion der Normalverteilung für einige
Werte von µ und σ
Abbildung 7:
Standardnormalverteilung
7b: Dichtefunktion der
Standardnormalverteilung
Dichtefunktionen der Normalverteilung
Jede beliebige Normalverteilung lässt sich mit Hilfe der Verteilungsfunktion
der Standardnormalverteilung berechen, es gilt folgender Satz:
Satz: Ist X normalverteilt mit den Parametern µ und σ2, so ist X* =(X-µ)/σ
standardnormalverteilt.
Man bezeichnet die Zufallsgröße X* als standardisierte Zufallsgröße.
Aus diesem Satz folgt: F ( x) = P ( X ≤ x) = P ( X * ≤
x−µ
x−µ
) = Φ
 , d.h.
σ
 σ 
die Verteilungsfunktion F einer beliebigen Normalverteilung
Transformationsvorschrift:
erfüllt die
x−µ

 σ 
F(x) = Φ
2.19
Verdeutlichen Sie sich die folgenden Symmetrieeigenschaften
einer Standardnormalverteilung: Φ(-x)=1-Φ(x).
2.20
Sei X normalverteilt mit den Parametern µ= -3 und σ2=4.
Bestimmen Sie die standardisierte Zufallsgröße X*!
Zufallsgrößen
Die Verteilungsfunktion einer beliebigen Normalverteilung ist keine
elementare Funktion, die sich einfach als Integral der Dichte bestimmen lässt.
Glücklicherweise benötigt man aufgrund des Satzes zu ihrer Bestimmung
aber nur die Standardnormalverteilung und deren Verteilungsfunktion und
Quantile sind tabelliert, siehe Anhang A, Tabellen A1 und A2.
Beispiel: Bei der Herstellung von Kondensatoren sei die Kapazität X eine
normalverteilte Zufallsgröße mit den Parametern µ=5 µF und σ=0,02 µF. a)
Welcher Ausschussanteil ist zu erwarten, wenn die Kapazität innerhalb des
Toleranzbereiches vom Sollwert 5 µF nach oben maximal um 0,03 µF und
nach unten maximal um 0,02 µF abweichen darf?
b) In welchem
Toleranzbereich 5 µF ± c liegen mindestens 90% aller Kapazitätswerte?
Lösung:
Zu a) Die gesuchte Ausschussrate ist gleich der Wahrscheinlichkeit
Es gilt in Anwendung der Transforp=1- P (5 − 0,02 ≤ X ≤ 5 + 0,03) .
mationsregel für Verteilungsfunktionen einer Normalverteilung:
P(5 − 0,02 ≤ X ≤ 5 + 0,03) = F (5 + 0,03) − F (5 − 0,02)
 − 0,02 
 0,03 
= Φ
 = Φ(1,5) − Φ (−1)
 − Φ
 0,02 
 0,02 
Φ(1,5) und Φ(-1) lesen wir aus der Tabelle A1 ab. Es ist Φ(1,5) = 0,9332 und
Φ(-1) = 1 - Φ(1) = 1-0,8413 = 0,1587. Daraus ergibt sich die Lösung:
p = 1 – (0,9332 – 0,1587) = 0,2255. D.h., ca. 23% aller Kondensatoren sind
Ausschuss.
Zu b) Hier ist der Wert c gesucht, für den gilt P (| X − 5 |≤ c) ≥ 0,9. Wir lösen
dazu diese Ungleichung einfach nach c auf. Es gilt
P(| X − 5 |≤ c) ≥ 0,9 ⇔ P(5 − c ≤ X ≤ 5 + c) ≥ 0,9 ⇔ F (5 + c) − F (5 − c) ≥ 0,9
In Anwendung der Transformationsregel für F und unter Beachtung der
Symmetrie Φ(-x)=1-Φ(x) der Standardnormalverteilung erhalten wir weiter
 −c 
 c 
F (5 + c) − F (5 − c) ≥ 0,9 ⇔ Φ
 ≥ 0,9
 − Φ
 0,02 
 0,02 
 c 
 c 
⇔ 2 ⋅ Φ
 − 1 ≥ 0,9 ⇔ Φ
 ≥ 0,95
 0,02 
 0,02 
- 37 -
- 38 –
Stochastik
 c 
Φ
 = 0,95 folgt, dass c/0,02 gleich dem 0,95-Quantil der
 0,02 
c
Standardnormalverteilung ist, also
= u 0,95 . Wegen der Monotonie von
0,02
Aus
c
 c 
≥ u 0,95 . Demzufolge ist c ≥ 0,02 u 0,95 .
 ≥ 0,95 :
0,02
 0,02 
Φ folgt dann aus Φ
Das Quantil u 0 ,95 lesen wir aus Tabelle A2 ab und wir erhalten die Lösung:
c ≥ 0,02 u 0,95 = 0,02 ⋅ 1,645 = 0,0329.
D.h 5 µF ± 0,0329 µF ist der kleinste symmetrische Toleranzbereich um 5 µF,
in welchem 90% aller Kapazitätswerte liegen.
1-σ
σ-, 2-σ
σ- und 3-σ
σBereiche
Obwohl der Wertebereich einer normalverteilten Zufallsgröße ganz R ist, gibt
es ausgezeichnete Intervalle, in welche die Werte von X „normalerweise“
fallen, die sogenannten 1-σ-, 2-σ- und 3-σ-Bereiche. Unabhängig davon, wie
groß µ und σ sind gilt für jede Normalverteilung:
 −σ 
σ 
P ( µ − σ < X < µ + σ ) = Φ  − Φ
 = 2Φ (1) − 1 = 0,683 und analog
 σ 
σ 
P ( µ − 2σ < X < µ + 2σ ) = 0,955 und P ( µ − 3σ < X < µ + 3σ ) = 0,997 . Es
ist also höchst unwahrscheinlich, das bei einer normalverteilten Zufallsgröße
Werte außerhalb des 3-σ-Intervalls [ µ − 3σ , µ + 3σ ] liegen.
Übungsaufgaben
2.21
Die Tabelle der Standardnormalverteilung geht nur bis x=3,09.
Warum? Wie groß ist Φ(4) und Φ(-4) ?
Zufallsgrößen
2.22
- 39 -
Das Geburtsgewicht männlicher Neugeborener sei normalverteilt
mit µ=3400g und σ2 = (470 g)2.
a) Geben Sie das 3-σ-Intervall an! Mit welcher Wahrscheinlichkeit treten Geburtsgewichte außerhalb des 3-σ-Intervalls auf?
b) Mit welcher Wahrscheinlichkeit wiegt ein Neugeborener
zwischen 2500 g und 4000 g?
c) Geben Sie einen symmetrischen Bereich [3400g-c, 3400g+c] um
das mittlere Geburtsgewicht an, in dem 90 % aller Geburtsgewichte liegen!
2.4
Erwartungswert und Varianz von Zufallsgrößen
Erwartungswert und Varianz sind Kenngrößen, welche die Lage und die
Breite der Verteilung einer Zufallsgröße X beschreiben. So wird zum Beispiel
die Lage der Normalverteilung auf der reellen Achse durch den Parameter µ
gut beschrieben, während durch σ2 die Breite der Verteilung beschrieben
wird. Die Glocke ist umso enger um x=µ, je kleiner σ2 ist.
Bereits aus der Schule kennen Sie das Bestreben, eine Verteilung durch eine
Kenngröße zu beschreiben. Unter der Klassenarbeit standen der Notenspiegel
(die Verteilung) und die Durchschnittsnote als Kenngröße. Eine Kenngröße
für die Breite der Verteilung wurde leider nicht angegeben. So konnte die
Durchschnittsnote 3 erreicht werden, wenn alle Schüler eine 3 schrieben, aber
auch, wenn die Hälfte eine 1 und die andere Hälfte eine 5 schrieb.
Wir knüpfen an das vertraute Beispiel der Notenverteilung an, um die
Formeln für die einzuführenden Kenngrößen der Verteilung einer diskreten
Zufallsgröße zu motivieren. Der Notenspiegel sei
1
3
2
5
3
8
4
3
Die Durchschnittsnote berechnet man als
x=
1 ⋅ 3 + 2 ⋅ 5 + 3 ⋅ 8 + 4 ⋅ 3 + 5 ⋅1 + 6 ⋅ 0
=2,7
20
Die rechte Seite können wir umformen zu
5
1
6
0
- 40 –
Stochastik
0
1
3
8
5
3
+ 2⋅
+ 3⋅
+ 4⋅
+ 5⋅
+ 6⋅
20
20
20
20
20
20
= 1 ⋅ hn (1) + 2 ⋅ hn (2) + ... + 6 ⋅ hn (6)
x = 1⋅
Hinter den Noten stehen ihre Gewichte, die ihre jeweilige relative Häufigkeit
hn(i), das heißt, ihr Anteil am Ganzen. Jede Note wird mit ihrem Gewicht
multipliziert und die Produkte werden addiert. Die Durchschnittsnote ist
somit ein gewichtetes Mittel. Ersetzen wir die relativen Häufigkeiten durch
die Wahrscheinlichkeiten, so erhalten wir den Erwartungswert einer
diskreten Zufallsgröße.
Erwartungswert
einer diskreten
Zufallsgröße
Definition: Sei X eine diskrete Zufallsgröße mit der Verteilung
Wert ai
P(X=ai)
a1 a2 a3 a4
p1 p2 p3 p4
...
...
ak
pk
mit k ≤ ∞. Dann heißt die Zahl EX = a1 p1 + a 2 p 2 + ⋯ + a k p k
Erwartungswert von X.
Der
Erwartungswert
ist
das
theoretische
gewichtete
Beobachtungen von X. EX macht eine Vorhersage über x =
Mittel
der
n
1
∑ xi in einer
n 1
langen Reihe unabhängiger Beobachtungen x1,...,xn von X und umgekehrt:
x liefert einen Schätzwert für einen unbekannten Erwartungswert EX.
Varianz einer
diskreten
Zufallsgröße
Dasselbe gilt für die sogenannte Varianz Var(X) einer Zufallsgröße X, die ein
Maß für die Abweichungen vom Erwartungswert darstellt.
Definition: Als Varianz Var(X) einer diskreten Zufallsgröße X bezeichnet man
den Erwartungswert der quadratischen Abweichungen der Beobachtungen
von X vom Erwartungswert EX:
Var ( X ) = (a1 − EX ) 2 p1 + (a 2 − EX ) 2 p 2 + ⋯ + (a k − EX ) 2 p k
Die quadratischen Abweichungen werden mit den Wahrscheinlichkeiten
gewichtet, mit denen sie auftreten. Die Produkte werden addiert. Die Varianz
misst im Sinne dieses gewichteten Mittels die mittlere quadratische
Abweichung der Beobachtungen von X vom Erwartungswert EX.
Zufallsgrößen
- 41 -
Im Abschnitt 4 werden wir sehen, dass ein guter Schätzwert für die Varianz
auf der Basis von „ausreichend vielen“ Beobachtungen x1,...,xn durch die
sogenannte Stichprobenstreuung
s2 =
1 n
( xi − x ) 2
∑
n − 1 i =1
gegeben ist.
In den Definitionen für Erwartungswert und Varianz einer stetigen
Zufallsgröße tritt an die Stelle der Summe das Integral und an die Stelle der
„Gewichte“ pi die Dichtefunktion f(x).
Definition: Sei X eine stetige Zufallsgröße mit der Dichtefunktion f. Dann
heißt die Zahl
EX =
∞
∫ xf ( x)dx
Erwartungswert und
Varianz einer
stetigen
Zufallsgröße
−∞
Erwartungswert von X und die Zahl
Var ( X ) =
∞
∫ ( x − EX )
2
f ( x)dx
−∞
Varianz von X.
Für die in den vorigen Abschnitten eingeführten speziellen Verteilungen sind
die Kenngrößen EX und Var(X) in nachfolgender Tabelle 1 aufgelistet.
Definition: Die Wurzel aus der Varianz heißt Standardabweichung und wird i.A.
mit σ bezeichnet: σ =
Var(X) .
Standardabweichung
- 42 –
Stochastik
Verteilung von X
Zweipunktverteilung mit
Erfolgswahrscheinlichkeit p
Binomialverteilung mit den
Parametern n und p
Poissonverteilung mit
Parameter λ
Gleichverteilung auf [a,b]
Symbol
E(X)
p
Var(X)
p(1-p)
B(n,p)
np
np(1-p)
P(λ)
λ
λ
R([a,b])
a+b
(b − a) 2
2
12
2
a + b + c a + b 2 + c 2 − ab − ac − bc
3
18
Dreiecksverteilung auf [a,b] D([a,c,b])
mit Häufungspunkt c
Exponentialverteilung mit
Parameter λ
Normalverteilung mit den
Parametern µ und σ2
E(λ)
2
N(µ,σ )
1
1
λ
λ2
µ
σ2
Tabelle 1 Symbole, Erwartungswert und Varianz einiger Verteilungen
2
2.23
Verdeutlichen Sie sich, dass gilt Var(X) = E(X-EX) !
2.24
Verwenden Sie die Grundeigenschaften des Integrals, um
nachzuweisen, dass gilt: Var(X) = E(X2) – (E(X))2
Kommen wir nun zu einer sehr nützlichen Eigenschaft von EX und Var(X).
Kennt man den Erwartungswert und die Varianz einer Zufallsgröße X, so
kann man Wahrscheinlichkeiten von Abweichungen von X vom
Erwartungswert EX abschätzen, ohne die Verteilung von X genauer zu
kennen. Es gilt die folgende Ungleichung:
Ungleichung von
Tschebyscheff
Satz: (Ungleichung von Tschebyscheff). Es gilt:
P (| X − EX |< ε ) ≥ 1 −
Var ( X )
ε2
Setzen wir ε = 2σ bzw. ε=3σ (σ= σ = Var ( X ) ), so folgt aus diesem Satz zum
Beispiel für die 2-σ- und 3-σ-Bereiche einer beliebigen Verteilung:
P (| X − EX |< 2σ ) ≥ 0,75 bzw. P (| X − EX |< 3σ ) ≥ 0,89 .
Zufallsgrößen
- 43 -
Allerdings ist diese Abschätzung unter Umständen sehr grob und kann
wesentlich verbessert werden, wenn man die Verteilung von X kennt.
Übungsaufgaben
2.25
Eine Klausur besteht aus 12 MC-Aufgaben à 4 Antwortalternativen, von denen jeweils nur eine richtig ist. Geben Sie
unter Verwendung von Tabelle 1 die erwartete Anzahl der richtig
beantworteten Aufgaben an, wenn der Proband die Lösungen
aller 4 Aufgaben rät!
Unser Eisverkäufer erzielt bei schönem Wetter einen Tagesgewinn
von 200 Euro, bei Regen 100 Euro, bei Schneefall macht er 70
Euro Verlust. Die Wahrscheinlichkeit für schönes Wetter beträgt
0,5 für Regenwetter 0,3 und für Schnee 0,2. Wie hoch ist der
erwartete Tagesgewinn für den Eisverkäufer?
2.26
2.27
2.28
X sei stetig auf [a,b] gleichverteilt. Berechnen Sie E(X) und Var(X),
d.h. weisen Sie die Formeln für E(X) und Var(X) aus Tabelle 1
nach!
Für die zufälligen Zeiten, die ein Server zur Verarbeitung von
Jobs benötigt gilt EX=10ms und Var(X) = (2ms)2. Die Verteilung
von X sei unbekannt.
a) Ermitteln Sie unter Verwendung der Tschebyscheff-Ungleichung ein möglichst kleines Intervall der Form 10ms ± c , in
welchem mindestens 95% aller Bearbeitungszeiten liegen!
b) Ist die Verteilung von X bekannt, so lässt sich die Aussage
unter a) genauer treffen. Wie groß wäre das Intervall 10ms ±
c, indem 95% aller Bearbeitungszeiten liegen genau, wenn X
normalverteilt wäre?
- 44 –
Stochastik
3
Verteilungen von Funktionen von Zufallsgrößen
Häufig benötigt man bei der Modellierung des Zufalls die Verteilung von
Summen oder anderen Funktionen von stochastisch unabhängigen
Zufallsgrößen. Besteht zum Beispiel die Aufgabe darin, die zufällige GesamtÜbertragungszeit T eines Übertragungssystems aus zwei voneinander
unabhängig arbeitenden Teilsystemen durch eine Verteilung anzupassen
und ist die Verteilung der zufälligen Übertragungszeiten T1 und T2 der
Teilsysteme bekannt, so besteht die mathematische Aufgabe darin, die
Verteilungsfunktion von T=T1+T2 d.h., der Summe zweier stochastisch
unabhängiger Zufallsgrößen zu ermitteln. Die Verteilung der Summe von
Quadraten stochastisch unabhängiger normalverteilter Zufallsgrößen wird
auch als χ2- (Chi-Quadrat-) Verteilung bezeichnet. Mit ihrer Hilfe kann man
Hypothesen über den Typ einer unbekannten Verteilung prüfen. Das
werden wir dann im folgenden Kapitel 4 näher erläutern.
Nach Durcharbeiten dieses Kapitels können Sie
•
•
•
•
3.1
Erwartungswert und Varianz von Summen stochastisch unabhängiger
Zufallsgrößen berechnen,
Wahrscheinlichkeitsverteilungen
von
Summen
stochastisch
unabhängiger normal- oder poissonverteilter Zufallsgrößen
bestimmen und dazu praktische dazu Aufgaben lösen,
den Zentralen Grenzwertsatz zur Lösung praktischer Aufgaben
anwenden,
Quantile der χ2- (Chi-Quadrat-) Verteilung berechen.
Erwartungswert und Varianz von Summen und linearen
Transformationen von Zufallsgrößen
Wir führen zunächst den Begriff der stochastischen Unabhängigkeit von
Zufallsgrößen ein. In Analogie zur Unabhängigkeit von Ereignissen A und B
definieren wir:
Stochastische
Unabhängigkeit von
Zufallsgrößen
Definition: Zwei Zufallsgrößen X und Y heißen stochastisch unabhängig, falls
für alle a,b ∈ R gilt:
P (( X ≤ a ) ∩ (Y ≤ b)) = P ( X ≤ a ) ⋅ P (Y ≤ b)
Verteilungen von Funktionen von Zufallsgrößen
- 45 -
Diese Produktformel gilt entsprechend auch für n Zufallsgrößen.
Es gelten folgende Eigenschaften für Erwartungswert und Varianz von
Zufallsgrößen:
Satz: (Eigenschaften von Erwartungswert und Varianz) Es gilt:
1. E(aX+b) = aEX + b
2. E(X1 + X2 + ... + Xn) = EX1 + EX2 + ...+ EXn
3. Var (aX + b) = a 2Var ( X )
Eigenschaften von
Erwartungswert und
Varianz
4. Var ( X ) =E ( X − EX ) 2
5. Für stochastisch unabhängige Zufallsgrößen gilt darüber hinaus:
Var ( X 1 + X 2 + ... + X n ) = Var ( X 1 ) + Var ( X 2 ) + ... + Var ( X n )
3.1
Seien X1 und X2 zwei stochastisch unabhängige Zufallsgrößen
mit E(X1)=5, Var(X1)=1 und E(X2) = 10, Var(X2)=4.
a) Berechnen Sie Erwartungswert und Varianz von
Y=2X1+3X2.
b) Welche lineare Transformation aX1 +b muss man auf X1
anwenden, so dass Erwartungswert und Varianz dieser
Transformation mit E(X2) und Var(X2) übereinstimmt?
3.2
Verteilungen von Summen von Zufallsgrößen
In diesem Abschnitt geht es um die Bestimmung der Verteilung von linearen
Transformationen und von Summen von stochastisch unabhängigen
Zufallsgrößen. Manche Verteilungen, wie z.B. die Poisson- und die
Normalverteilung, besitzen die sogenannte Reproduktionseigenschaft. D.h.,
der Verteilungstyp von Summen derart verteilter unabhängiger
Zufallsgrößen bleibt erhalten, die Parameter der Summen berechnen sich
gemäß den Eigenschaften der Erwartungswerte von Summen von
Zufallsgrößen, wie sie in Abschnitt 3.1 dargestellt wurden.
Satz: (Reproduktionssatz)
a) Ist X normalverteilt mit den Parametern EX=µ und Var(X)=σ2, so ist auch
jede lineare Transformation Y= a⋅X + b von X normalverteilt mit den
Parametern EY = aµ+b und Var(Y)= (a σ)2.
Reproduktionssatz
- 46 –
Stochastik
b) Sind X1,...,Xn stochastisch unabhängige normalverteilte Zufallsgrößen mit
den Parametern EX i = µ i , Var ( X i ) = σ i2 , i=1,...,n, dann ist ihre Summe
n
n
X = ∑ X i ebenfalls normalverteilt mit den Parametern EX = ∑ µ i und
i =1
i =1
n
Var ( X ) = ∑ σ i2 .
i =1
c) Sind X1,...,Xn stochastisch unabhängige poissonverteilte Zufallsgrößen mit
dem Parametern
EX i = λi , i=1,...,n, dann ist ihre Summe
n
n
i =1
i =1
X = ∑ X i ebenfalls poissonverteilt mit dem Parameter EX = ∑ λi .
Wir bemerken, dass z.B. die Summe von n unabhängigen
exponentialverteilten Zufallsgrößen nicht mehr exponentialverteilt ist. Hier
erhält man eine neue theoretische Verteilung, die sogenannte ErlangVerteilung, auf die wir hier aber nicht weiter eingehen wollen, wir verweisen
auf die weiterführende Statistik-Literatur [Wa], [Lex].
Beispiel: Sei X die zufällige Gesamtzahl der an einer Kreuzung aus zwei
Richtungen eintreffenden Autor. Die Anzahlen X1 und X2 der aus beiden
Richtungen A und B eintreffenden Autos seien beide poissonverteilt, wobei
aus Richtung A im Schnitt 1 Auto pro Minute und aus Richtung B im Schnitt
2 Autos pro Minute eintreffen. Wie groß ist die Wahrscheinlichkeit dafür,
dass insgesamt mehr als 3 Autos pro Minute eintreffen?
Lösung: Nach Reproduktionssatz, Teil c), ist X poissonverteilt mit dem
Parameter λ=3 pro Minute. Dann ergibt sich die gesuchte Wahrscheinlichkeit
zu
P ( X > 3) = 1 − P ( X ≤ 3) = 1 − ( P ( X = 0) + P ( X = 1) + P ( X = 2) + P ( X = 3)
9
27 −3
e ) = 1 − 0,647 = 0,353.
= 1 − (e −3 + 3e −3 + e −3 +
2
6
Oft gelingt es nicht, die Verteilung einer Summe von unabhängigen
Zufallsgrößen exakt auszurechnen. Aber es lässt sich zeigen, dass man sie
immer, wenn n „hinreichend“ groß ist durch eine Normalverteilung gut
annähern kann. Es gilt der Zentrale Grenzwertsatz:
Verteilungen von Funktionen von Zufallsgrößen
- 47 -
Satz: (Zentraler Grenzwertsatz)
Seien X1,...,Xn n stochastisch unabhängige beliebig verteilte Zufallsgrößen
mit den Parametern EX i = µ i und Var ( X i ) = σ i2 , i=1,...,n. Sei
Zentraler
Grenzwertsatz
n
X = ∑ Xi .
Dann konvergiert die Verteilung der standardisierten
i =1
n
∑(X
Summe
Y=
i =1
i
− µi )
für
n
∑σ
i =1
n
gegen
∞
gegen
eine
2
i
Standardnormalverteilung.
n
∑(X
Wir können also für „große n“ die Zufallsgröße Y=
i
i =1
− µi )
als
n
∑σ
i =1
2
i
standardnormalverteilt betrachten. Man überzeugt sich leicht davon, dass
sich die
Summe X =
n
∑X
i =1
i
als lineare
Transformation X=aY+b von Y
darstellen lässt (siehe Übungsaufgabe 3.2).
Wenden wir den
Reproduktionssatz auf X an, so folgt aus dem Zentralen Grenzwertsatz
folgende wichtige Regel:
Seien X1,...,Xn n stochastisch unabhängige beliebig verteilte Zufallsgrößen mit
den Parametern EX i = µ i und Var ( X i ) = σ i2 , i=1,...,n. Dann ist für „große n“
n
die Summe
X = ∑ Xi
n
normalverteilt mit
i =1
EX = ∑ µ i
und
i =1
n
Var ( X ) = ∑ σ i2 .
i =1
Eine Faustregel besagt, dass n ≥ 150 groß genug ist.
Diese Regel liefert die Begründung dafür, dass so viele Phänomene
(Körpergewicht, Intelligenzquotient, Messfehler usw.) in der Praxis
normalverteilt erscheinen. Sie entstehen als Überlagerung sehr vieler
unabhängig voneinander wirkender stochastischer Einflüsse.
Normalverteilungsregel
- 48 –
Stochastik
3.2
a) Verdeutlichen Sie sich, dass gilt:
n
∑(X
Y=
i =1
i
− µi )
n
∑σ
i =1
X − EX
=
Var ( X )
2
i
, wobei X =
n
∑X
i =1
i
.
b) Wie lauten a und b in der linearen Transformation X=aY+b?
Ein wichtiger Spezialfall der Normalverteilungsregel ist der Fall, dass alle
Summanden X i identisch verteilt sind, also den gleichen Erwartungswert
und die gleiche Varianz besitzen: EX i = µ und Var ( X i ) = σ 2 , i=1,...,n. In
n
diesem
Fall
X = ∑ X i näherungsweise
ist
normalverteilt
mit
dem
i =1
Erwartungswert EX =
n
n
i =1
i =1
∑ µ = nµ und der Varianz Var ( X ) = ∑ σ 2 = nσ 2 .
Eine Anwendung dieses Spezialfalls besteht in der Approximation der
Binomialverteilung durch die Normalverteilung. Wie wir wissen, ist die Anzahl
X von Erfolgen bei n facher Wiederholung eines zweipunktverteilten
Versuchs mit Erfolgswahrscheinlichkeit p binomialverteilt mit den
Parametern n und p. Wir können die i.te Versuchswiederholung durch die
zweipunktverteilte Zufallsgröße charakterisieren
0 falls Misserfo lg
Xi = 
Erfo lg
1 falls
Dann ist X =
n
∑X
i =1
i
1− p
p
mit EX i = p und Var ( X i ) = p (1 − p ) und wir erhalten
als Spezialfall der Normalverteilungsregel den folgenden
Grenzwertsatz von Moivre und Laplace bezeichneten Satz:
Approximation der
Binomialverteilung
durch die
Normalverteilung
auch
als
Satz (von Moivre und Laplace):
Eine mit den Parametern n und p binomialverteilte Zufallsgröße X ist für
große n näherungsweise normalverteilt mit EX = n⋅p und Var(X) = n⋅p(1-p).
Beispiel: Eine Krankheit A tritt mit der Wahrscheinlichkeit von 1% in der
Bevölkerung auf. Wie groß ist die Wahrscheinlichkeit dafür, dass von 1000
Personen mehr als 15 erkranken?
Lösung: Die zufällige Anzahl der erkrankten Personen unter 1000 ist
binomialverteilt mit den Parametern n=1000 und p=0,01 (der
Verteilungen von Funktionen von Zufallsgrößen
zweipunktverteilte Versuch ist: i ist Xi =“Status der Person i“ mit Xi =
0(gesund), Xi =1(krank) mit Wahrscheinlichkeit p=0,01).
Für die gesuchte Wahrscheinlichkeit
ergibt sich gemäß den
Wahrscheinlichkeiten der Binomialverteilung:
15 1000


(0,01) i (0,99)1000−i
P( X > 15) = 1 − P( X ≤ 15) = 1 − ∑ 
i 
i =0 
Die Berechnung dieser Summe ist mit einigen numerischen Schwierigkeiten
verbunden. Aber glücklicherweise können wir aufgrund des Satzes von
Moivre und Laplace die gesuchte Wahrscheinlichkeit gut genug durch eine
Normalverteilung mit den Parametern µ=EX = np = 1000⋅0,01=10 und
σ2=Var(X)=np(1-p)=1000⋅0,01⋅0,99=9,9 approximieren . Es gilt näherungsweise:
 15 − 10 
 = 1 − Φ(1,59)
P( X > 15) = 1 − P( X ≤ 15) = 1 − F (15) = 1 − Φ

9
,
9


=1-0,9441=0,0559.
Übungsaufgaben
3.3
Ein Übertragungssystem besteht aus 3 hintereinander geschalteten voneinander unabhängig arbeitenden Teilsystemen. Die
zufällige Übertragungszeit Xi aller Teilsysteme sei normalverteilt
mit den Parametern EX1=100ms, EX2=60ms, EX3=40ms und
Var(X1)=(5ms)2, Var(X2)=(3ms)2, Var(X3)=(2ms)2. Wie groß ist die
Wahrscheinlichkeit dafür, dass die Gesamtübertragungszeit
innerhalb des Intervalls [190ms, 210ms] liegt?
´
3.4
Ein regelmäßiger Würfel wird n=600 mal geworfen. Wie groß ist
die Wahrscheinlichkeit dafür, dass die Anzahl der gewürfelten
Sechsen zwischen 90 und 110 liegt?
3.5
Die Sterblichkeitswahrscheinlichkeit von Personen, die mit einer
bestimmten Krankheit infiziert wurden, beträgt 0,8. Wie groß ist
die Wahrscheinlichkeit dafür, dass von 240 infizierten Personen
mehr als 180 sterben?
- 49 -
- 50 –
Stochastik
3.3
Verteilung von Funktionen von Zufallsgrößen
In der sogenannten schließenden Statistik geht es u.a. darum, von
Beobachtungen einer Zufallsgröße auf deren Verteilung zu schließen oder
wenigstens einige ihrer Parameter gut genug zu bestimmen. Dafür benötigt
man Wahrscheinlichkeitsverteilungen, die auch als Verteilungen von
Stichprobenfunktionen
bezeichnet
werden,
da
sie
als
Wahrscheinlichkeitsverteilungen von bestimmten Funktionen S( X1 , … , Xn )
einer sogenannten Stichprobe X1 , … , Xn hergeleitet werden. Typische
Vertreter sind die χ2 -Verteilung, die t-Verteilung und die F-Verteilung. Alle
drei sind stetige Verteilungen. Sie besitzen alle einen oder zwei Parameter,
die als Freiheitsgrade bezeichnet werden und die Form der Verteilungsdichten bestimmen. Die Freiheitsgrade hängen alle indirekt vom Stichprobenumfang n ab.
Im Rahmen dieses Lehrmaterials werden wir hier nur die χ2 -Verteilung
einführen, welche die Basis für den im nächsten Kapitel dargestellten
χ2-Test zur Verteilungsprüfung ist. Für die anderen beiden Verteilungen
verweisen wir auf die weiterführende Statistik-Literatur [Gr], [Lex].
χ -Verteilung
2
Satz: Seien X1 , … , Xn n stochastisch unabhängige standardnormalverteilte
Zufallsgrößen. Dann besitzt die Quadratsumme
n
∑(X
i =1
i
)2
eine χ2-Verteilung mit n Freiheitsgraden. Wir schreiben:
n
∑(X
i =1
i
) 2 ~ χ n2
Abbildung 8 gibt eine Vorstellung über die Gestalt der Dichtefunktion der χ2Verteilung in Abhängigkeit der Freiheitsgrade. Die χ2-Verteilung hängt von
2
einem Parameter, dem sogenannten Freiheitsgrad (FG), ab und wird mit χ FG
abgekürzt bezeichnet. Der FG ist eine natürliche Zahl und bestimmt die Form
2
der Dichtefunktion. Die Dichtefunktion ist nicht symmetrisch. Ist X ∼ χ FG
, so
gilt EX = FG und Var (X) = 2 FG.
Verteilungen von Funktionen von Zufallsgrößen
Abbildung 8:
Dichtefunktion der χ2 - Verteilung mit 2,4 und 8 FG
Wir benötigen nie die konkrete Formel für die Dichte, deshalb verzichten wir
hier auf die genaue Definition derselben. Wir benötigen im Weiteren lediglich
die Quantile xα der χ2-Verteilung. Diese Quantile sind in der Tabelle A4 im
Anhang A zusammengestellt. Die Einträge in dieser Tabelle sind die Werte xα
und α , so dass gilt:
P( X ≤ xα ) = α bzw. P( X > xα ) = 1 − α .
Beispiel:
Ist X χ2-verteilt mit 3 Freiheitsgraden, so können wir aus der Tabelle A4
ablesen: Der Wert x, für den gilt : P(X ≤ x ) = 0,9, ist x = 6,25. Für x = 7,81
erhalten
wir
P( X > x) = 0,05 .
3.6
Sei X ∼ χ FG . Vervollständigen Sie folgende Tabelle an den
durch – gekennzeichneten Stellen!
FG
3
7
35
α
0,025
0,9
xα
14,07
-
- 51 -
- 52 –
Stochastik
4
Schätzung von Wahrscheinlichkeiten und Identifizieren
von Verteilungen durch statistische Methoden
Das Verhalten von Computer- bzw. Informationssystemen unterliegt
vielfältigen zufallsbedingten Einflüssen. Häufig gehen zufällige Einflüsse
auch
als Zufallsgrößen in Simulationsmodelle ein, wie z.B.
Zwischenankunfts- und Bedienzeiten, in Lagerhaltungsmodellen die Art und
der
Umfang
von
Einund
Auslagerungsaufträgen
oder
in
Zuverlässigkeitsmodellen die Ausfallrate einer Systemkomponente. Sollen
Zufallsgrößen in Berechnungen und Modellen verwendet werden, müssen
ihre entsprechenden Wahrscheinlichkeitsverteilungen bestimmt werden.
Nach Durcharbeiten dieses Kapitels können Sie
•
•
•
•
4.1
Unbekannte Wahrscheinlichkeiten, unbekannte Parameter von
Verteilungen, sowie Erwartungswert und Varianz einer Zufallsgröße
auf der Basis einer Stichprobe schätzen,
Toleranzbereiche für eine unbekannte Wahrscheinlichkeit mit
vorgegebener Genauigkeit und Sicherheit berechnen und den dazu
notwendigen Stichprobenumfang bestimmen,
auf der Basis einer Stichprobe einer stetigen Zufallsgröße ein
Histogramm zeichnen und eine Hypothese über den Typ der
unbekannten Verteilung der Zufallsgröße aufstellen,
diese Hypothese mittels des sogenannten χ2 –Tests zu einer
vorgegebenen Irrtumswahrscheinlichkeit 1.Art überprüfen.
Schätzung einer unbekannten Wahrscheinlichkeit
Wir haben bisher in vielen Beispielen angenommen, dass wir bestimmte
Wahrscheinlichkeiten bereits kennen. So z.B. haben wir bei der Untersuchung
der Trennschärfe des Wortes „Viagra“ für einen SPAM-Filter angenommen,
dass wir bereits wissen, wie wahrscheinlich dieses Wort in Texten auftritt.
Woher bekommen wir aber die Information über die Wahrscheinlichkeit
P(A) eines Ereignisses A? Damit beschäftigen wir uns in diesem Abschnitt.
Sei X eine zweipunktverteilte Zufallsgröße
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 53 -
1 falls A beobachtet wird
X =
0 falls A nicht beobachtet wird
Einen Schätzwert für die Wahrscheinlichkeit P(X=1)=P(A) erhalten wir (siehe
auch Abschnitt 1.1.4) durch die relative Häufigkeit des Ereignisses A, die bei
n unabhängigen Beobachtungen (x1,...,xn) von X folgende Gestalt besitzt:
1 n
hn ( A) = ∑ xi
n i =1
Wir können jede Beobachtung xi von X auch als Realisierung einer
Zufallsgröße Xi auffassen, die dieselbe Verteilung wie X besitzt. Ersetzen
wir in der Formel für die relative Häufigkeit xi durch Xi, so erhalten wir eine
zufällige Funktion
hn ( A) =
Mathematische und
konkrete Stichprobe
1 n
∑ Xi
n i =1
von n unabhängigen wie X verteilten Zufallsgrößen. (X1,...,Xn) wird als
mathematische Stichprobe von X bezeichnet , (x1,...,xn) heißt konkrete Stichprobe
von X.
1 n
∑ X i , die jeder konkreten Stichprobe vom Umfang
n i =1
1 n
n einen Schätzwert hn ( A) = ∑ xi für die Wahrscheinlichkeit P(A) zuordnet,
n i =1
Die Funktion hn ( A) =
Schätzfunktion und
Schätzwert
heißt Schätzfunktion für P(A).
In der Statistik beurteilt man nicht die Güte eines Schätzwertes, sondern die
Güte von Schätzfunktionen. Die Güte wird dabei durch verschiedene
Kriterien definiert. Für unsere Schätzfunktion fordern wir:
•
hn ( A) =
1 n
∑ X i soll P(A) im Mittel „treffen“, d.h., es soll gelten:
n i =1
E hn ( A) = P(A). Eine Schätzfunktion mit dieser Eigenschaft nennt man
•
erwartungstreu.
.
Es soll gelten lim E (h n (A) − P(A)) 2 = 0
n →∞
D.h., die Schätzung wird mit wachsendem Stichprobenumfang n
immer genauer. Eine erwartungstreue Schätzfunktion mit dieser
Eigenschaft heißt konsistent.
Erwartungstreue
und Konsistenz
- 54 –
Stochastik
Welche der Eigenschaften besitzt nun die Schätzfunktion hn ( A) ?. Für unsere
zweipunktverteilte Zufallsgröße ist E(X)=P(A) und Var(X)=P(A)(1-P(A)) und,
weil alle Xi genauso wie X verteilt sind, gilt auch EXi=P(A) und
VAR(Xi)=P(A)(1-P(A)) für alle i=1,...,n. Unter Berücksichtigung der
Ausführungen zu den Eigenschaften von Erwartungswert und Varianz von
Summen stochastisch unabhängiger Zufallsgrößen in Abschnitt 3.1 erhalten
wir dann:
1 n
1 n
1 n
Ehn ( A) = E ( ∑ X i ) = ∑ E ( X i ) = ∑ P( A) = P( A) und
n i =1
n i =1
n i =1
1 n
 1 n
E (hn ( A) − P( A)) 2 = Var (hn ( A)) = Var  ∑ X i  = 2 ∑ Var ( X i )
 n i =1  n i =1
n
1
P( A)(1 − P( A)
=
→0
P( A)(1 − P( A) =
2 ∑
n→ ∞
n
n i =1
D.h., die relative Häufigkeit hn ( A) ist eine konsistente Schätzfunktion für die
unbekannte Wahrscheinlichkeit P(A).
Konfidenzintervall
für P(A)
•
Eine weitere Methode zur Beurteilung der Güte unserer
Schätzfunktion ist die Berechnung der Wahrscheinlichkeiten
P(| hn ( A) − P( A) |≤ ε ) der Abweichungen der Schätzfunktion hn ( A)
von P(A) bei einer vorgegebenen Genauigkeit ε.
Definition: Ein Intervall
[hn ( A) − ε , hn ( A) + ε ] in welchem P(A) mit einer
Mindestwahrscheinlichkeit α liegt, d.h., für welches gilt:
P(| hn ( A) − P( A) |≤ ε ) ≥ α
heißt Konfidenzintervall für P(A) mit der Genauigkeit ε und der Sicherheit α.
Die Aussage P (| hn ( A) − P ( A) |≤ ε ) ≥ 0,95 bedeutet, dass bei 100 maliger
Berechnung des Intervalls
[h n (A) − ε, h n (A) + ε] auf der Basis von 100
zufällig ausgewählten Stichproben jeweils vom gleichen Umfang n ca. 95
mal die unbekannte Wahrscheinlichkeit tatsächlich im berechneten Intervall
liegt.
Zur Ermittlung der Wahrscheinlichkeiten P (| hn ( A) − P ( A) |≤ ε ) bzw. des
Konfidenzintervalls zu einer vorgegebenen Sicherheit α benötigen wir die
Wahrscheinlichkeitsverteilung von hn ( A) .
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
Gemäß Zentralem Grenzwertsatz (siehe Abschnitt 3.2) ist für große n die
n
Summe
∑X
i =1
näherungsweise normalverteilt mit dem Erwartungswert
i
nP(A) und der Varianz nP(A)(1-P(A)).
Aus dem Reproduktionssatz folgt
1 n
∑ X i für große n
n i =1
ebenfalls als normalverteilt mit den Parametern Ehn ( A) = P ( A) und
P( A)(1 − P( A))
Var (hn ( A)) =
betrachtet werden kann.
n
dann, dass die mit 1/n multiplizierte Summe hn ( A) =
4.1
Skizzieren Sie die Verteilungsdichte der relativen Häufigkeit für
große n (n >150). Wie ändert sich das Bild der Verteilungsdichte
mit wachsendem n ?
4.2
Weisen Sie nach, dass für eine Funktion f(p)=p(1-p) gilt:
max f ( p ) = 1 / 4
p
.
Nun können wir Konfidenzintervalle für die unbekannte Wahrscheinlichkeit
P(A) berechnen. In Übungsaufgabe 4.2 haben Sie nachgewiesen, dass für eine
Funktion f(p)=p(1-p) gilt: max f ( p ) = 1 / 4 . Daraus folgt P(A)(1-P(A))≤ ¼ und
p
1
P( A)(1 − P( A))
≥ 2.
Wir erhalten wir dann unter zusätzlicher Berück-
sichtigung der Monotonie der Standardnormalverteilung (siehe Abbildung 9)
folgende Abschätzung:
P(| hn ( A) − P( A) |≤ ε )
= P( P( A) − ε ≤ hn ( A) ≤ P( A) + ε )
= F ( P ( A) + ε ) − F ( P( A) − ε )




ε n
−ε n
 − Φ

≈ Φ
 P ( A)(1 − P ( A)) 
 P( A)(1 − P( A)) 
Zentraler
GWS






ε n
 −1
= 2 ⋅ Φ
 P( A)(1 − P( A)) 


(
)
≥ 2 ⋅ Φ 2ε n − 1
- 55 -
- 56 –
Stochastik
Abbildung 9:
Monotonie der Standardnormalverteilung
Wir können also für große n (in der Regel wird n≥150 als ausreichend
betrachtet) mit folgender Ungleichung arbeiten:
(
)
(1)
P(| hn ( A) − P( A) |≤ ε ) ≥ 2 ⋅ Φ 2ε n − 1
Sei u (1+2α ) das
1+α
2
-Quantil der Standardnormalverteilung. Bei vorgegebenem
n und vorgegebenem α können wir als Konfidenzintervall das Intervall
[hn ( A) − ε , hn ( A) + ε ] mit ε =
(2)
u (1+2α )
2 n
wählen, denn dieses Intervall überdeckt mindestens mit der Wahrscheinlichkeit α die unbekannte Wahrscheinlichkeit P(A). Es gilt:
(
)
P(| hn ( A) − P( A) |≤ ε ) ≥ 2 ⋅ Φ 2ε n − 1 = 2 ⋅ Φ (u (1+2α )) − 1 = 2 ⋅ (1+2α ) − 1 = α .
Andererseits können wir bei vorgegebenem n und vorgegebenem ε aus der
Formel (1) die Sicherheitswahrscheinlichkeit α nach unten abschätzen.
Aufgrund der Überlegungen zu den 2- und 3-σ-Bereichen der
Standardnormalverteilung (siehe Kapitel 2.2) erhalten wir z.B., dass P(A)
(für ε =
3
2 n
(3)
und (für ε =
(4)
) mit mehr als 99,8%iger Wahrscheinlichkeit im Intervall

3 
3
, hn ( A) +

hn ( A) −
2 n
2 n

1
) mit mehr als 95,5%iger Wahrscheinlichkeit im Intervall
n

1
1 
, hn ( A) +

hn ( A) −
n
n

Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 57 -
liegt. D.h., von 1000 Berechnungen eines solchen Intervalls auf der Basis von
1000 verschiedenen Stichproben des selben Umfangs n überdecken ca. 998
Intervalle des Typs (3) und 995 Intervalle des Typs (4) die unbekannte
Wahrscheinlichkeit P(A).
Im Fall des Intervalltyps (4) beträgt außerdem die Abweichung ε der relativen
Häufigkeit von der Wahrscheinlichkeit mit mindestens 95,5%iger Sicherheit
höchstens 0,005, wenn für den Stichprobenumfang gilt:
1
n
≤ 0,005 bzw. n ≥ (200) 2 = 40000
Eine hohe Sicherheit und hohe Genauigkeit wird also mit einem hohen
Stichprobenumfang erkauft. Senken wir n, so verringert sich bei gleicher
Sicherheit die Genauigkeit und bei gleicher Genauigkeit die
Sicherheitswahrscheinlichkeit.
Die Überlegungen zum Stichprobenumfang n können wir verallgemeinern.
Wir können aus Formel (1) den Stichprobenumfang n berechnen, der
notwendig ist, eine vorgegebene Genauigkeit ε und eine vorgegebene
Sicherheitswahrscheinlichkeit α einzuhalten.
Stellen wir dazu die
(
)
Ungleichung 2 ⋅ Φ 2ε n − 1 ≥ α nach n um, so erhalten wir:
  1 + α 
 u
 
 2 

n≥
4ε 2
2
(5)
D.h., für alle n, welche die Ungleichung (5) erfüllen, gilt
P(| h n (A) − P(A) |≤ ε) ≥ α .
Beispiel: Nach dem Verlieren eines Würfelspiels behauptet der verlierende
Student, dass bei dem verwendeten Würfel die Wahrscheinlichkeit p, eine 1
zu würfeln, nicht 1/6 beträgt, sondern größer ist. Um seine Hypothese zu
prüfen, führt er n=300 Versuche durch und schätzt p durch die relative
Häufigkeit. Er bekommt heraus, dass diese 0,2 beträgt und damit um mehr
als 0,03 von der Wahrscheinlichkeit 1/6 abweicht. Da diese Abweichung
relativ groß ist, schlussfolgert er, dass der Würfel nicht gleichmäßig ist. Hat
unser Student richtig argumentiert?
Lösung: Offensichtlich muss man sich zunächst fragen, wie wahrscheinlich es
bei einem Stichprobenumfang von n=300 ist, dass auch bei einem
gleichmäßigen Würfel die relative Häufigkeit von der Wahrscheinlichkeit 1/6
um mehr als 0,03 abweicht. Dazu berechnen wir für n=300, A=“1 wird
gewürfelt“, P(A)=1/6 die Wahrscheinlichkeit P(| h n (A) − 1 / 6 |> ε) . Unter
- 58 –
Stochastik
unseren Voraussetzungen kann man
hn(A) als normalverteilt mit den
Parametern E(hn(A))=P(A)=1/6 und Var (h n (A )) =
P(A)(1 − P(A))
5
=
n
36 ⋅ 300
auffassen und wir erhalten :
P(| h n (A) − 1 / 6 |≤ ε)
= P(1 / 6 − ε ≤ h n (A) ≤ 1 / 6 + ε ) = F(1 / 6 + ε) − F(1 / 6 − ε)






−ε
ε
ε
 − Φ
 = 2 ⋅ Φ
 −1
 Var (h ( A)) 
 Var (h ( A)) 
 Var (h ( A)) 
n
n
n






= Φ
= 2Φ (ε ⋅ 6 60 ) − 1 = 2Φ (ε ⋅ 46,48) − 1
Daraus folgt :
P(| h n (A) − 1 / 6 |> ε) = 2(1 − Φ (ε ⋅ 46,48))
Damit hat eine Abweichung von mehr als ε=0,03 die Wahrscheinlichkeit
2(1 − Φ(1,2144)) = 2(1 − 0,8878) = 0,2244 . D.h., die Wahrscheinlichkeit dafür,
dass bei einem gleichmäßigen Würfel eine Abweichung der relativen
Häufigkeit für n=300 von 1/6 um mehr als 0,03 beobachtet wird, beträgt
22,44%. Diese Wahrscheinlichkeit ist zu hoch, um daraus zu schlussfolgern,
dass der Würfel nicht gleichmäßig ist. In der Praxis wird bei derartigen
Entscheidungen als Obergrenze eine Wahrscheinlichkeit von 0,05 zugrunde
gelegt.
Wir stellen uns nun die Frage, wie viele Beobachtungen der Student hätte
machen müssen, um die unbekannte Wahrscheinlichkeit P(A) mit mindestens
95%iger Sicherheit mit einer Abweichung von höchstens 0,03 zu schätzen.
Wir wollen also das n berechnen, für das gilt:
P(| h n (A) − P(A) |≤ 0,03) ≥ 0,95
Dazu wenden wir Formel (5) an. Das (1+α)/2-Quantil der
Standardnormalverteilung
entnehmen
wir
Tabelle
A2,
es
ist
u((1+α)/2)=u(0,975)=1,96 und wir erhalten in Anwendung von Formel (5):
2
 1 + α 
 u
 
(1,96) 2
 2 

n≥
=
= 1067,111 .
4ε 2
4 ⋅ (0,002) 2
D.h., der Student hätte bei seiner gewählten Genauigkeitsgrenze von 0,03
mindestens 1068 Würfelversuche durchführen müssen, um die unbekannte
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
Wahrscheinlichkeit mit genügend großer Wahrscheinlichkeit (hier 0,95) „zu
treffen“.
4.3
Übungsaufgaben
Um ein effektives Codierverfahren zu entwerfen, ist es notwendig, die
Wahrscheinlichkeit P(„E“) zu bestimmen, mit der das Zeichen E in
deutschen Texten vorkommt.
a) Wie viele Buchstaben muss man mindestens überprüfen, d.h.
wie groß muss n sein, um P(„E“) durch die relative Häufigkeit
mit mindestens 99%iger Sicherheit mit einer Abweichung von
höchstens ±0,01 genau zu schätzen?
b) Aus der Untersuchung eines Textes mit n = 500 Buchstaben
wurde hn(„E“) = 0,3 ermittelt. Geben Sie einen Toleranzbereich
hn(„E“) ± ε an, in welchem die unbekannte Wahrscheinlichkeit
P(„E“) mit mindestens 95 %iger Sicherheit liegt!
c) Angenommen wir untersuchen einen Text mit n=10000
Buchstaben und wollen P(„E“) durch hn(„E“) schätzen. Geben
Sie unter Verwendung der Abschätzung p(1-p)≤1/4
(p=P(„E“)) eine untere Schranke für die Wahrscheinlichkeit
P(| hn (" E" ) − P(" E" ) |≤ 0,01) dafür an, dass hn(„E“) von P(„E“)
um nicht mehr als 0,01 abweichen wird!
d) In der Literatur wird behauptet, dass P(„E“)=0,27 ist. Ein
Informatik-Student prüft das nach und berechnet bei einem
Text mit n = 200 Buchstaben eine relative Häufigkeit des
Auftretens von „E“ von 0,352. Aufgrund der Größe der
Differenz |hn(„E“) - P(„E“)|=0,082 argumentiert er, dass die
Angabe p=0,27 falsch sei. Berechnen Sie die Wahrscheinlichkeit dafür, dass unter der Annahme P(„E“)=0,27 für
n=200 die relative Häufigkeit hn(„E“) von P(„E“) um mehr als
0,08 abweicht. Sind die Schlussfolgerungen des Studenten zu
akzeptieren oder nicht?
- 59 -
- 60 –
Stochastik
4.2
Schätzung unbekannter Verteilungsparameter
Die bisher verwendeten Verteilungen einer Zufallsgröße X hängen stets von
einem oder mehreren Parametern ab. Zur Identifizierung der Verteilung von
X gehört daher auch die Bestimmung der Parameter. Die Parameter werden
aus den Beobachtungen x1 , … , xn von X geschätzt.
Im Kapitel 2 haben wir dargestellt, dass die Parameter aller hier eingeführten
Verteilungen von EX und Var(X) abhängen, siehe Tabelle 1. Hat man zum
Beispiel den Verteilungstyp der Normalverteilung aus einem Histogramm
identifiziert, so sind die beiden Parameter EX=µ und Var(X)=σ 2 zu schätzen;
im Falle der Exponentialverteilung ist der Parameter α = 1/EX zu schätzen.
Wir wollen deshalb zunächst den Erwartungswert µ=EX und die Varianz
σ 2 =Var(X) einer Zufallsgröße X mit beliebiger Verteilung von X schätzen
und uns anschließend überlegen, wie wir daraus Schätzungen für die
Verteilungsparameter ermitteln.
Seien X1 , … , Xn n zufällige Beobachtungen von X , die unabhängig
voneinander erhoben wurden; d.h. sei X1 , … , Xn eine mathematische
Stichprobe von X .
arithmetisches
Mittel
Als Schätzfunktion für den Erwartungswert EX verwendet man in der
mathematischen Statistik das arithmetisches Mittel x der Beobachtungen:
n
(6)
Streuung
X =
∑X
i =1
i
n
Für die Varianz Var(X) wird die mittlere quadratische Abweichung der Beobachtungen Xi vom Mittelwert X , die sogenannte Streuung S2, verwendet:
n
(7) 1
S2 =
∑(X
i =1
i
− X )2
n −1
Die Bezeichnungen X und S2 haben sich in der Literatur für die beiden Schätzungen durchgesetzt. Sie werden auch als Stichprobenmittel bzw. Stichpro-
1
Wird in (7) durch n statt n-1 geteilt, so erhält man eine nicht mehr erwartungstreue Schätzung.
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
benvarianz
bezeichnet.
Als
Schätzung
für
die
- 61 -
Standardabweichung
σ= Var ( X ) wird S verwendet.
Unter der Voraussetzung, dass die Beobachtungen X1 , … , Xn stochastisch
unabhängig voneinander sind, kann man zeigen, dass die Schätzfunktionen
X und S2 erwartungstreu sind, es gilt:
E( X ) = µ und E( S 2 ) = σ 2 .
Weiterhin kann man zeigen, dass ihre Varianz mit wachsendem n gegen 0
konvergiert:
2
Var( X ) = E( X -µ ) n
→ 0, Var( S2)= E ( S2 - σ2 ) 2 n
→ 0
→∞
→∞
Für hinreichend großes n liefern X und S2 also gute Näherungen für µ und σ2.
Wir wollen die beiden Eigenschaften für die Schätzfunktion X des
Erwartungswertes beweisen. Sind die Beobachtungen Xi identisch wie X
2
verteilt, d.h. gilt insbesondere E Xi =µ und Var( Xi )=σ für i = 1, … , n und sind
die Xi alle unabhängig voneinander, so folgt aus den Eigenschaften für den
Erwartungswert und die Varianz von Summen unabhängiger Zufallsgrößen
(siehe Abschnitt 3.1):
1 n
1 n
1 n
EX = E ( ∑ X i ) = ∑ E( X i ) = ∑ E( X) = µ
n i =1
n i =1
n i =1
Var ( X ) = Var (
1 n
1
Xi) = 2
∑
n i =1
n
n
∑Var ( X i ) =
i =1
1
n2
n
∑
i =1
Var ( X ) =
σ2
n
n
→ 0
→∞
Nicht immer sind die Parameter einer Verteilung identisch mit dem
Erwartungswert oder mit der Varianz der Zufallsgröße, wie z.B. bei der
Normalverteilung oder der Poissonverteilung. Bei der Exponentialverteilung
ist der Parameter die Intensität α , die ihrerseits das Reziproke des
Erwartungswertes ist. Ein in der mathematischen Statistik gebräuchliches
Verfahren zur Schätzung beliebiger Verteilungsparameter ist die sogenannte
Momentenmethode.
Schätzung von
Verteilungsparametern
Die Momentenmethode ist sehr einleuchtend. Sind die unbekannten
Verteilungsparameter Funktionen von Erwartungswert und/oder Varianz
von X, so ersetzt man in diesen Funktionen den Erwartungswert und die
2
Varianz durch ihre Schätzungen x und s und löst die so erhaltenen
Gleichungen nach den unbekannten Parametern auf. Wollen wir
Momentenmethode
- 62 –
Stochastik
beispielsweise den Parameter α der Exponentialverteilung schätzen, so
ergibt sich wegen der Beziehung EX=1/ α die Gleichung x =1/α. Wir erhal1
ten also αɵ = . Wir weisen darauf hin, dass die Momentenmethode nicht
x
immer erwartungstreue Schätzungen liefert!
Maximum-Likelihood-Methode
Eine andere Methode zur Schätzung unbekannter Verteilungsparameter ist
die sogenannte Maximum-Likelihood-Schätzmethode. Bei der MaximumLikelihood-Methode nimmt man als Schätzung den Wert, für den die
Beobachtungen, die man macht, am wahrscheinlichsten sind. Die Maximum-Likelihood-Methode löst eine Extremwertaufgabe, in der das Maximum einer
Funktion i.allg. mehrerer Veränderlicher bestimmt werden muss. Auf die
genaue Beschreibung dieses Verfahrens kann im Rahmen dieses
Lehrmaterials nicht eingegangen werden. Wir verweisen den interessierten
Leser auf die im Literaturverzeichnis angegebene statistische weiterführende
Fachliteratur, z.B. [Lex].
In der Tabelle 2 sind die nach der Momentenmethode berechneten
Schätzungen für Parameter häufig verwendeter Verteilungen angegeben.
Verteilung
Poissonverteilung
Parameter
λ
Setige Gleichverteilung
auf [a,b]
Exponentialverteilung
a, b
Normalverteilung
µ , σ2
α
Momentenschätzungen
λɵ = x
aˆ = x − 3 ⋅ s , bˆ = x + 3 ⋅ s
1
x
µɵ = x
αɵ =
σˆ 2 = s 2
Tabelle 2: Momentenschätzungen für die Parameter verwendeter Verteilungen
2
Bemerkung: Für die praktische Berechnung s2 hat sich als Alternative zu (7)
folgende Formel als nützlich erwiesen. Es gilt:
(8)
s2 =
1  n
1 n

2
−
=
(
)
x
x
 ∑ ( x i ) 2 − n( x ) 2 
∑
i
n − 1 i =1
n − 1  i =1

2 Manche praktische Verteilungen haben mehr als 2 Parameter, wie die Dreiecksverteilung.
Hier reichen Erwartungswert und Varianz zur Schätzung nicht aus. Man nimmt hier weitere
Schätzungen, sogenannte Momente dazu.
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
Man kann auch Konfidenzintervalle für EX und Var(X) und für einige
Verteilungsparameter berechnen. Allerdings übersteigt das nötige Wissen
dazu die in dieser Kurseinheit vermittelten Grundkenntnisse zur Stochastik.
Wir verweisen auf [Gr] und [Krey].
4.4
Leiten Sie die in Tabelle 2 angegebenen Schätzungen für a und
b einer stetigen auf [a,b] gleichverteilten Zufallsgröße unter
Anwendung der Momentenmethode her!
4.5
Von einer auf [a,b] stetig gleichverteilten Zufallsgröße X sind
folgende Beobachtungen erhoben worden:
3,1; 4,2; 4,5; 3,8; 3,2; 4,4; 3,9; 5,1; 4,9; 5,3
Geben Sie eine Schätzung für a und b nach der
Momentenmetode an.
4.6
Die Anzahl der eintreffenden Nachrichten pro ms in einer
Empfängerstation sei poissonverteilt mit dem Parameter λ. Es
sind folgende Beobachtungen von X erhoben worden:
20, 18, 17, 18, 12, 15, 15, 14, 16, 10
Geben Sie eine Schätzung für λ an! Interpretieren Sie λ!
4.3
Identifizieren von Verteilungen
Bei diskreten Zufallsgrößen kann man auf den Typ der zugrundeliegenden
Verteilung in der Regel aus der Art des Versuchsaufbaus schließen oder man
schätzt die Einzelwahrscheinlichkeiten durch die relativen Häufigkeiten wie
in Abschnitt 4.1 beschrieben. Bei stetigen Zufallsgrößen ist das i.A. nicht mehr
möglich. Hier kann man Hypothesen über die Verteilung anhand von
Auswertungen von Beobachtungen der Zufallsgröße in Histogrammen
aufstellen.
- 63 -
- 64 –
Stochastik
4.3.1
Modellierung stetiger Verteilungen durch Histogramme
Liegen beobachtete Daten x1 , … , xn , d.h. eine Stichprobe einer stetigen
Einflußgrößen X vor, so kann man eine Vorstellung vom Typ der Verteilung
von X bekommen, wenn man ein sogenanntes Histogramme erstellt.
Histogramme,
Klasseneinteilung
für stetige Daten
Ein Histogramm ist eine grafische Annäherung an den Graphen der
zugrunde
liegenden
Dichtefunktion.
Da
die
Dichtefunktionen
verteilungstypische Verläufe haben, gibt das Aussehen des Histogramms
häufig deutliche Hinweise auf die Art der Verteilung.
Seien x1 , … , xn n Beobachtungen einer stetigen Zufallsgröße X . Ein Histogramm wird wie folgt konstruiert.
• Zerlegung des Bereichs, in dem die Daten liegen, in (in der Regel
gleich große) disjunkte Intervalle (Klassen) K1 ,..., K k
• Bestimmung der absoluten Klassenhäufigkeiten
H n ( K i ) = Anzahl der x j ∈ K i , j = 1,...,n.
• Grafische Darstellung im Koordinatensystem; die x-Achse wird in die
k Intervalle zerlegt, auf der y-Achse werden die absoluten Häufigkeiten abgetragen.
Die Gestalt des Histogramms hängt von der Klassenzahl bzw. Klassenbreite
ab. Wählt man die Klassenbreite zu klein, so sind Häufungen der Daten
schwer zu erkennen. Wählt man sie zu groß, so gehen Details in der Verteilung optisch verloren. In beiden Fällen ist es nahezu unmöglich, einen
adäquaten Verteilungstyp zu erkennen. Das wird in der Abbildung 10 illustriert. Für die Wahl der Klassenbreite bzw. Klassenzahl gibt es nur heuristische Regeln, welche die Klassenzahl in Abhängigkeit der Anzahl der
Beobachtungen festlegen. Im allgemeinen reicht eine Klassenzahl von k ≈ n
aus, wobei k ≥ 5 sein sollte (also n ≥ 25), und eine Klassenzahl von maximal
20 Klassen nicht überschritten werden muss. Diese Regel werden wir im
folgenden verwenden.
Beispiel :
Es soll durch Simulation ermittelt werden, ob die Einführung neuer Dienste
in Vermittlungsstellensoftware zur Blockierung des normalen Telefonierens
führt oder nicht. Dazu ist es nötig, die Abläufe in der Vermittlungsstelle zu
modellieren. Eine Teilaufgabe besteht in der Erstellung eines Modells
(Wahrscheinlichkeitsverteilung)
für
die
zufällige
Dauer
von
Telefongesprächen. Es wurden dazu die Längen von 40 Telefongesprächen
erfasst. Es ergaben sich folgende Werte (in Sekunden):
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 65 -
82, 136, 162, 110, 172, 101, 210, 200, 230, 211, 155, 168, 188, 240,
280, 200, 188, 300, 175, 178, 150, 203, 282, 209, 182, 219, 225, 220,
148, 160, 230, 190, 180, 190, 200, 260, 175, 192, 255, 235.
Ermittlung der Klassenzahl k:
Es gilt n = 40 = 6,35 ; durch Runden erhalten wir: k = 6.
(k erfüllt unsere Nebenbedingungen 5 ≤ k ≤ 20)
Ermittlung der Klassenbreite B:
Wir zerlegen den Datenbereich in k=6 rechts offene Teilintervalle.
Der Datenbereich ist der Bereich zwischen dem kleinsten Beobachtungswert
xmin = 82 und dem größten Beobachtungswert xmax = 300.
Wir erhalten zunächst:
B=
x max − x min 300 − 82
=
= 36, 7
k
6
Wir runden B auf unsere Genauigkeit von 1 Sekunde auf und erhalten
B=37 sec. (Ein Abrunden kommt hier nicht in Frage, da der ganze Datenbereich von 82 bis 300 Sekunden durch 6 Intervalle der Breite B überdeckt
werden muss).
Ermittlung der Klassen und der Klassenhäufigkeiten
Mit der berechneten Klassenzahl k=6 und der Intervallbreite B= 37 sec ergibt
sich das in Tabelle 3 und Abbildung 8 dargestellte Histogramm:
i
1
2
3
4
5
6
Ki
bis 118 [82, 119)
von 119 bis 155 [119, 156)
von 156 bis 192 [156, 193)
von 193 bis 229 [193, 230)
von 230 bis 266 [230, 267)
ab 267 [ 267, 304)
Hn (Ki )
3
4
14
10
6
3
Tabelle 3: Absolute Klassenhäufigkeiten der Gesprächsdauern von Telefonaten
- 66 –
Stochastik
H n ( Ki )
15
10
5
K1
K2
K3
K4
K5
K6
x
0
0
100
Abbildung 10:
200
300
Histogramm der Telefongesprächsdauern
Das Histogramm hat eine nahezu symmetrische Gestalt mit einer Häufung in
der 3. und 4. Klasse. Es könnte eine Normalverteilung vorliegen.
Als Schätzung für die beiden Parameter der Normalverteilung erhalten wir
gemäß Tabelle 2:
µɵ = x
σɵ = s
2
= 194,775
2
= ( 46,9563)
≈ 195
2
≈ ( 47 ) 2
Im Schnitt dauert ein Telefonat 195 Sekunden (bzw. 3 Minuten). Unter
Berücksichtigung der Erkenntnisse über die 1-, 2-, 3σ-Bereiche der Normalverteilung (siehe Kapitel 2) kann man folgende allgemeine Schlussfolgerungen über die Dauer von Telefonaten treffen:
68,8% aller Telefonate liegen zwischen 195-s und 195+s Sekunden, also
zwischen 148 und 242 Sekunden, 95,5% der Telefonate liegen zwischen 101
und 289 Sekunden und 99,8% (fast alle) liegen im Bereich von 54 und 336
Sekunden.
Bei der Aufstellung von Histogrammen sollte man sich an o.g. Regeln zur
Wahl der Klassenzahl und Klassenbreite halten. Wählt man die Klassenzahl
z.B. zu gering oder zu groß, so kann man den adäquaten Verteilungstyp nicht
mehr erkennen. Folgende Abbildungen zeigen die Klasseneinteilung für
unser Beispiel bei zu geringer und zu großer Klassenzahl.
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
H n ( Ki )
- 67 -
H n ( Ki )
25
20
15
10
5
5
x
0
0
100
Abbildung 11:
200
0
300
x
0
100
200
300
Histogramme der Telefondaten mit a) k=3 Klassen (B=73) und b) k =
20 Klassen (B=11)
Übungsaufgaben
4.7
Zur Simulation eines Lagerhaltungssystems wird die Verteilung
der Zeit benötigt, die ein Arbeiter zum Kommisionieren braucht.
Es liegen 80 beobachtete Werte für diese Zeit vor (in Minuten).
1,91
2,68
3,42
3,40
3,20
3,40
3,50
3,80
2,42
2,70
1,85
3,42
3,80
3,90
4,20
3,66
3,01
3,20
2,00
3,00
3,52
3,75
4,50
5,00
3,25
3,41
2,50
3,00
3,10
4,45
3,50
3,85
2,85
3,10
3,30
3,05
3,10
4,30
4,00
5,40
1,72
3,33
3,35
3,05
3,90
3,45
4,20
3,85
2,95
3,98
2,50
3,77
2,96
3,54
3,62
3,95
3,43
4,00
3,40
3,45
3,90
3,15
3,65
4,50
1,50
3,10
2,90
3,35
2,98
4,00
3,90
4,80
3,42
4,50
2,83
4,30
3,60
3,16
3,70
3,83
Erstellen Sie ein Histogramm und treffen Sie eine Hypothese über
die zugrundeliegende Verteilung!
4.3.2
Der χ2-Test zur Verteilungsprüfung
Anhand der Gestalt der Histogramme können wir eine Annahme
(Hypothese) über den Typ der zugrundeliegenden Verteilung der
Zufallsgröße X aufstellen. Diese Annahme kann natürlich falsch sein, da
unsere Hypothese insbesondere von den speziellen zufälligen Beobachtungen
von
X
abhängt.
Die
Stochastik
stellt
sogenannte statistische
Hypothesentestverfahren zur Verfügung, mit deren Hilfe man Hypothesen über
- 68 –
Stochastik
den Typ einer unbekannten Verteilung oder über ihre Parameter prüfen kann.
Die Güte von Hypothesentestverfahren wird u.a. durch Irrtumswahrscheinlichkeiten beschrieben. Die Testtheorie ist ein sehr großes Teilgebiet der
Stochastik. Ausführliche Darstellungen zu diesem Gebiet übersteigen den
Rahmen dieser Lehreinheit, wir verweisen z.B. auf [Gr], [Lex], [Krey]. Wir
geben im Folgenden eine Einführung in die Grundprinzipien der Testtheorie
anhand eines Tests zur Verteilungsprüfung.
Zum Prüfen des Typs einer Verteilung hat sich der sogenannte χ2- Test
durchgesetzt. Wir beschreiben das Testverfahren zunächst für die diskrete
Verteilungsprüfung.
Gehen wir von einem Beispiel aus. Angenommen, wir wollen testen, ob unser
Würfel gleichmäßig ist oder nicht. Die zu prüfende Hypothese lautet:
Ho: Die Augenzahlen sind gleichverteilt, d.h. es gilt
P( X = i ) = 1/6, i =1,...,6
wobei X die zufällige beim Würfeln erzielte Augenzahl ist. Um die Hypothese
zu prüfen, würden wir zunächst einige Male würfeln und die für jede
Augenzahl beobachtete Häufigkeit derjenigen gegenüberstellen, die wir bei
einem gleichmäßigen Würfel erwarten würden. Angenommen wir machen
folgende n=60 Beobachtungen des Würfels:
1, 2, 4, 4, 3, 4, 3, 2, 4, 5, 2, 3, 6, 3, 3, 6, 2, 1, 2, 4, 2, 4, 5, 3, 2, 4, 6, 3, 2, 5,
3, 1, 4, 5, 2, 3, 6, 1, 5, 2, 3, 3, 5, 1, 6 , 2, 1, 5, 3, 4, 3, 5, 6, 1, 1, 4, 5, 2, 1, 6
Die folgende Tabelle enthält die entsprechenden Häufigkeiten:
ai = i
H n B (ai )
H nE (ai ) = n⋅(1/6)
1
2
3
4
5
6
9
12
13
10
9
7
10
10
10
10
10
10
Tabelle 4: Beobachtete und erwartete Häufigkeiten bei 60 Würfen
Die Anzahl der Würfe, in denen die Augenzahl ai = i gewürfelt wurde, heißt
beobachtete Häufigkeit und wird mit H n B ( a i ) bezeichnet. Ist der Würfel
gleichmäßig, so würden wir bei 60 Würfen für jede Augenzahl i jeweils eine
Häufigkeit von 10 erwarten. Diese Zahl heißt erwartete Häufigkeit und wird
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 69 -
mit H nE (ai ) bezeichnet. Offensichtlich ist H nE (ai ) =n/6 bzw. allgemein
H nE (ai ) =n⋅Po(X=ai), wobei Po die für X angenommene zu prüfende
hypothetische Verteilung ist. Wir würden die Hypothese Ho offenbar dann
nicht ablehnen, wenn die Abweichungen der beobachteten von den
erwarteten Häufigkeiten gering sind.
Wir verallgemeinern nun dieses Vorgehen. Ist X eine diskrete Zufallsgröße
mit den möglichen Werten a1,....,ak, und ist P0 die angenommene
hypothetische diskrete Verteilung von X , dann lautet die zu prüfende
Hypothese
H0 : X ∼ P0
Wir haben also ein Entscheidungsproblem zu lösen; in der Statistik schreibt
man
H0 : X ∼ P0 gegen H1 : X ∼ P , P ≠ P0
(9)
H0 heißt Nullhypothese, H1 heißt Alternativhypothese.
Um dieses Entscheidungsproblem zu lösen, beobachten wir X n mal und
stellen die beobachteten Häufigkeiten H n B ( a i ) den Häufigkeiten
H n E ( a i ) = nP0 ( X = a i ) gegenüber, die man bei Gültigkeit der Hypothese Ho
erwarten würde:
ai
H n B (ai )
a1
H n (a1 )
H n E ( a i ) = nP0 ( X = a i )
B
⋮
⋮
ak
H n (ak )
E
H n (a1 )
⋮
B
E
H n (ak )
Manchmal kann man die erwarteten Häufigkeiten
( a i ) = nP0 ( X = a i ) nicht direkt berechnen, da die Wahrscheinlichkeits-
Bemerkung:
Hn
E
verteilung Po von unbekannten Parametern abhängt.
Lautet die
Nullhypothese z.B. Ho: X ~ P(λ) (d.h. X besitzt eine Poissonverteilung), so ist
ai = i und
H n ( a i ) = nP0 ( X = a i ) = n ⋅
E
λi
i!
e −λ . In diesem Fall wird der
unbekannte Parameter aus den Beobachtungen von X geschätzt und in Po
eingesetzt.
Im Falle der Poissonverteilung schätzen wir
verwenden H n (a i ) = nPˆ0 ( X = a i ) = n ⋅
E
λˆi
i!
e −λ .
ˆ
λ̂ = x und
- 70 –
Stochastik
Die Abweichungen der beobachteten von den erwarteten Häufigkeiten
könnte man dann mathematisch durch folgende Größe messen:
(10)
T = ∑ ( H n (ai ) − H n (ai ))
E
B
Ist ε eine „hinreichend“ kleine positive Zahl, so könnten wir dann unsere
Entscheidung wie folgt treffen:
(11)
Teststatistik,
kritischer Wert
Fehler 1. Art
Fehler 2. Art
T < ε Entscheidung für H0 ( X ∼ P0)
T ≥ ε Entscheidung gegen H0
T nennt man Testgröße, oder Teststatistik, ε heißt kritischer Wert .
Bei diesem Entscheidungsverfahren können 2 Fehlerarten auftreten: Wir
entscheiden uns gegen Ho, obwohl Ho stimmt, oder, wir entscheiden uns für
Ho, obwohl Ho nicht stimmt. Diese Fehler treten mit bestimmten
Wahrscheinlichkeiten auf. Die Wahrscheinlichkeit
α = P( T ≥ ε / X ∼ P0 )
sich gegen P0 zu entscheiden, obwohl P0 vorliegt, wird als Fehler 1. Art und
die Wahrscheinlichkeit
β(F) = P(T < ε / X ∼ P, P ≠ P0 )
sich für P0 zu entscheiden, obwohl X eine Verteilung P ≠ P0 wird als
Fehler 2. Art bezeichnet. Dieser hängt offensichtlich von der vorliegenden
Verteilung P ab.
Ziel ist es, den kritischen Wert ε so festzulegen, dass beide Fehler möglichst
klein sind. Allerdings ist es mathematisch unmöglich, beide Fehler
gleichzeitig zu minimieren, zumal β auch noch von P abhängt. In der Regel
bewirkt eine Verringerung des Fehlers 1. Art eine Vergrößerung des Fehlers
2. Art und umgekehrt. Mit der Konstruktion optimaler Tests beschäftigt sich
die theoretische Statistik. Es gibt verschiedene Optimalitätskriterien. Ein
gebräuchliches Vorgehen besteht darin, zunächst alle Tests zu finden, für die
der Fehler 1. Art α einen vorgegebenen kleinen Wert (z.B. 0,01, 0,05) nicht
überschreitet, und unter diesen denjenigen auszuwählen, für den der Fehler
2. Art gleichmäßig für alle P minimiert wird. Ein solcher Test heißt
gleichmäßig bester α -Test. Einen solchen Test zu finden, ist ein großes
theoretisches Problem und nicht immer möglich, denn man benötigt zur
Berechnung des Fehlers 1. Art die Verteilung der Teststatistik T unter der
Annahme, dass X ∼ P0 gilt; und zur Berechnung und Optimierung des Fehlers
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 71 -
2. Art benötigt man die Verteilung von T unter der Annahme X ∼ P, für
beliebige P ≠ P0.
Häufig lässt sich ein wenigstens ein Test konstruieren, für den zumindest die
Verteilung der Teststatistik unter der Annahme, dass X ∼ P0 gilt, hergeleitet
werden kann. Damit kann dann der kritische Wert ε so gewählt werden, dass
der Fehler 1. Art gleich einem vorgegebenen Wert α ist; ε ist das 1-αQuantil der Verteilung der Teststatistik. Ein solcher Test wird als α -Test
bezeichnet.
Wir geben nun einen α-Test für unser Entscheidungsproblem an. Die
Verteilung unserer Teststatistik (10) kann leider nicht berechnet werden. Aber
es ist möglich, die Verteilung der leicht abgewandelten, aber dennoch
plausiblen, Teststatistik
( H nE (ai ) − H nB (ai )) 2
T = ∑(
)
H nE (ai )
i =1
k
(12)
zumindest für große n (n∞) herzuleiten und so zu gewährleisten, dass der
Fehler erster Art wenigstens approximativ für große n einen vorgegebenen
(kleinen) Wert α einhält. Diese Verteilung ist eine χ2-Verteilung, woraus der
Name „χ2-Test“ des Tests resultiert.
Satz 1:
Sei X eine stetige Zufallsgröße mit dem Wertebereich {a1,....,ak}. Sei
weiterhin P0 eine hypothetisch angenommene diskrete Verteilung von X
mit m unbekannten Parametern θ i .Seien x1 , … , xn n unabhängige
Beobachtungen von X auf deren Basis konsistente Schätzungen θɵ i für
θ i, i=1,...,m, berechnet werden und sei P̂o die Verteilung, die man erhält,
durch θɵ i, i=1,...,m, ersetzt. Seien
wenn man in Po
alle θ i
B
E
schließlich H n ( a i ) und H n (ai ) =n⋅ P̂o (X=ai) die beobachteten und
erwarteten Häufigkeiten, i=1,...,k.
Unter der Annahme, dass die Nullhypothese H0 : X ∼ P0 gilt, besitzt dann
die Teststatistik
( H nE (ai ) − H nB (ai )) 2
)
T = ∑(
H nE (ai )
i =1
k
asymptotisch für n →∞ eine χ2 - Verteilung mit k-m-1 Freiheitsgraden, d.h.
es gilt unter H0 asymptotisch für n →∞: T ∼ χ k2− m−1 .
α-Test
- 72 –
χ -Test für diskrete
Verteilungen
2
Stochastik
Auf der Basis dieses Satzes führen wir folgendes als χ2-Anpassungstest
bezeichnetes Entscheidungsverfahren zum Prüfen von
H0 : X ∼ P0 gegen H1 : X ∼ P , P ≠ P0
2
durch. Sei ε = χ k2− m−1 ( 1 − α ) das 1-α -Quantil der χ -Verteilung mit k-m-1
Freiheitsgraden.
( H nE (ai ) − H nB (ai )) 2
T = ∑(
) ≥ ε →
H nE (ai )
i =1
k
Entscheidung gegen H0
(13)
k
T = ∑(
i =1
( H nE (ai ) − H nB (ai )) 2
) <ε
H nE (ai )
→
Entscheidung für H0
Aus Satz 1 folgt für den Fehler 1. Art dieses Tests:
lim P(T> ε / H 0 ) = Fχ 2
n →∞
k − m−1
(T ≥ ε )
= 1 - Fχ 2
(T < ε )
= 1 - Fχ 2
(T < χ k2− m−1 (1 − α ))
k − m−1
k − m −1
= 1 - (1-α))
= α.
D.h., dass der Fehler 1. Art zumindest approximativ für große n
vorgegebenen Wert α nicht überschreitet.
einen
Inhaltlich bedeutet die Einhaltung eines Fehlers 1. Art folgendes: Wählen wir
α =0,05, so heißt das, dass bei 100-maliger Anwendung des Testverfahrens
nur in fünf Fällen die Hypothese Ho abgelehnt wird, obwohl sie in Wirklichkeit gilt; bei α =0,01 sogar nur in einem Fall.
In folgender Abbildung ist die Dichtfunktion der Teststatistik T in (12), die
sich unter der Annahme, das Ho gilt, ergibt, dargestellt. Anhand dieser
Dichtefunktion kann der Annahme- und Ablehnungsbereich des Tests (13)
veranschaulicht werden.
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 73 -
D ichte der χ k2− m− 1 - Verteilung
1− α
α
Annahmebereich von H 0
A b le h n u n g s -
T
b e re ich v o n H 0
ε= χ
Abbildung 12:
2
k− m− 1
(1 − α )
Grafische Veranschaulichung der Teststrategie (13)
Bemerkung :Um das Testkriterium (13) anwenden zu können, muss n
hinreichend groß sein. Aufgrund praktischer Erfahrungen wird üblicherweise
für H nE ( a i ) gefordert:
H nE ( a i ) ≥ 5, für alle i =1,...,k
Zurück zu unserem Beispiel:
Wir wollen testen, ob unser Würfel gleichmäßig ist oder nicht. Dabei soll eine
Irrtumswahrscheinlichkeit 1.Art α=0,05 eingehalten werden.
Lösung:
Um diese Hypothese zu prüfen, muss die Bedingung H nE ( a i ) =n/6 ≥ 5 erfüllt
sein. Hierzu benötigt man also mindestens n=30 Beobachtungen! Wir gehen
von den n=60 oben aufgelisteten Beobachtungen des Würfels und den in
Tabelle 4 dargestellten beobachteten und erwarteten Häufigkeiten aus.
Das Entscheidungskriterium lautet:
n
( H nB (i ) − ) 2 
für Ho
< χ 62− m−1 (1 − α )
6
T =∑

2
n
i =1
≥ χ 6− m−1 (1 − α ) gegen Ho
6
6
Für die Teststatistik T erhalten wir:
6
T = ∑(
i =1
( H nB ( i ) − n / 6) 2
(9 − 10) 2 (12 − 10) 2 (13 − 10) 2
) =
+
+
+
n/6
10
10
10
(10 − 10) 2 (9 − 10) 2 ( 7 − 10) 2
+
+
+
10
10
10
= 2,4
Test auf Vorliegen
einer diskreten
Gleichverteilung
- 74 –
Stochastik
Die hypothetische Verteilung ist vollständig bekannt, d.h. es sind keine unbekannten Parameter zu schätzen. Es gilt also m = 0. Der kritische Wert des
Tests ist also wegen k=6 und m=0
ε = χ k2− m−1 (1- α)= χ 52 (1 − 0,05) .
Aus der Tabelle A4 der χ2-Verteilung im Anhang A liest man für α =0,05 und
FG= 5 den kritischen Wert ab:
χ 52 (1 − 0,05) = 11,07
Da T = 2,4 < 11,07 ist, kann die Nullhypothese nicht abgelehnt werden, der
Würfel ist also als gleichmäßig zu betrachten; die Schwankungen in den
Beobachtungen sind rein zufällig und nicht durch systematische Fehler des
Würfels bedingt.
Der χ2-Test wird auf analoge Weise auch für die Prüfung stetiger
Verteilungen angewendet.
Seien x1 , … , xn n Beobachtungen einer Zufallsgröße X, deren Verteilung zu
bestimmen ist. Das Verfahren beginnt mit der Erstellung des Histogramms
der Daten wie im Abschnitt 4.3.1 beschrieben. D.h., wir zerlegen den
Datenbereich
in
k
Intervalle
und
berechnen
die
absoluten
B
Klassenhäufigkeiten, die wir hier mit H n ( K i ) bezeichnen. Der Index „B“
steht wieder für „beobachtet“. Anhand des Histogramms wird eine
Hypothese über die Art der Verteilung von X aufgestellt. Sei die
angenommenen Verteilung F0, so haben wir das Entscheidungsproblem
(14)
H0 : X ∼ F0 gegen H1 : X ∼ F , F ≠ F0
zu lösen. Analog zum diskreten Fall stellen wir im stetigen Falle die
beobachteten Klassenhäufigkeiten H nB ( K i ) denen gegenüber, die man
erhalten würde, wenn die Verteilung F0 vorliegen würde; man bezeichnet sie
als „erwartete“ absolute Klassenhäufigkeiten und verwendet das Symbol
H nE ( K i ) . H nE ( K i ) berechnet man wie folgt: Sei f0 die Dichtefunktion der
hypothetischen Verteilung F0. Die Wahrscheinlichkeit dafür, dass X in die
Klasse K i = [a i , bi ) fällt, ist bei Vorliegen der Verteilung F0, , d.h. bei Gültigkeit der Nullhypothese
Po ( X ∈ K i ) =
bi
∫f
ai
o
( x)dx = F0 (bi ) − F0 (ai ) .
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 75 -
Die erwarteten absoluten Klassenhäufigkeiten bei n Beobachtungen unter der
Annahme, dass die Nullhypothese gilt, berechnet man folglich gemäß
H nE ( K i ) = nPo ( X ∈ K i ) = n( F0 (bi ) − F0 (ai )), K i = [ai , bi ), i = 1,…, k
(15)
In Abbildung 13 sind diese Häufigkeiten grafisch gegenübergestellt. Wir skalieren die y-Achse so, dass die Fläche des Balkens über der Klasse Ki gerade
gleich der relativen beobachteten Häufigkeit hnB ( K i ) = H nB ( K i ) /n ist . D.h.
auf der y-Achse wird die sogenannte relative Häufigkeitsdichte
hnB ( K i )
~B
hn ( K i ) =
,
∆K i
abgetragen.
∆K i = ( bi − a i ) ,
~B
h n ( Ki )
f0
P( X ∈ Ki )
~B
h n ( Ki )
ai
Abbildung 13:
Ki
x
bi
Gegenüberstellung der beobachteten und erwarteten relativen
Klassenhäufigkeiten
Die Fläche unter der Dichte f0 über Ki ist gleich der Wahrscheinlichkeit
P ( X ∈ K ) und damit gleich der erwarteten relativen Häufigkeit. Wir
o
i
werden Ho nicht ablehnen, wenn sich für alle Klassen diese (schraffierten)
Flächen sich nicht wesentlich von den (dunklen) Balken unterscheiden, d.h.
wenn die beobachteten und erwarteten relativen, oder mit n multipliziert, die
entsprechenden absoluten Häufigkeiten H nB ( K i ) und H nE ( K i ) in etwa gleich
sind.
Bemerkung: Wie im diskreten Fall kann es auch hier vorkommen, dass man
die erwarteten Häufigkeiten nicht direkt berechnen kann, weil die zu
prüfende Verteilung Fo bzw. Po von unbekannten Parametern abhängt. Diese
müssen wir zunächst aus den Beobachtungen von X schätzen, z. B. mit der
Momentenmethode. Prüfen wir z.B., ob X eine Normalverteilung besitzt, so
müssen wir erst Erwartungswert µ und Varianz σ2 schätzen. Prüfen wir, ob
- 76 –
Stochastik
eine Exponentialverteilung vorliegt, so muss erst ihr Parameter α geschätzt
werden.
Die Grundlage für unser Entscheidungskriterium bildet folgender zu Satz 1
analoger Satz für den stetigen Fall.
Satz 2: Sei X eine stetige Zufallsgröße, x1 , … , xn n unabhängige Beobachtungen von X und K1,...,Kk (Ki=[ai,bi), i=1,...,k) eine Klasseneinteilung auf
der Basis dieser Beobachtungen. Seien weiterhin F0 eine Verteilung mit m
unbekannten Parametern θ i und θɵ i konsistente Schätzungen für θ i,
i=1,...,m. Sei F̂o die Verteilung, die man erhält, wenn man in Fo alle θ
θɵ
durch
B
i
, i=1,...,m, ersetzt. Seien schließlich H n ( K i )
i
und
H nE ( K i ) = n( Fˆ0 (bi ) − Fˆ0 (ai )) die beobachteten und erwarteten absoluten
Klassenhäufigkeiten, i=1,...,k.
Unter der Annahme, dass die Nullhypothese H0 : X ∼ F0 gilt, besitzt die
Teststatistik T mit
( H nE ( K i ) − H nB ( K i )) 2
)
T = ∑(
H nE ( K i )
i =1
k
asymptotisch für n →∞ eine χ2 - Verteilung mit k-m-1 Freiheitsgraden, d.h.
es gilt unter H0 asymptotisch für n →∞:
T ∼ χ k2− m−1
χ -Anpassungstest
für stetige Verteilungen
2
Unser Entscheidungsverfahren zum Prüfen von
H0 : X ∼ F0 gegen H1 : X ∼ F , F ≠ F0
lautet dann wie folgt:
Sei ε = χ k2− m−1 ( 1− α )
das 1-α -Quantil der χ2 -
Verteilung mit k-m-1 Freiheitsgraden.
k
T = ∑(
i =1
( H nE ( K i ) − H nB ( K i )) 2
) ≥ε
H nE ( K i )
→ Entscheidung gegen H0
(16)
k
T = ∑(
i =1
( H nE ( K i ) − H nB ( K i )) 2
) <ε
H nE ( K i )
→ Entscheidung für H0
Aus Satz 2 folgt für den Fehler 1. Art dieses Tests:
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
- 77 -
lim P(T> ε / H 0 ) = α.
n→∞
Bemerkung 2:
Um das Testkriterium (16) anwenden zu können, muss n
hinreichend groß sein. Aufgrund praktischer Erfahrungen wird analog zum
diskreten Fall für H nE ( K i ) gefordert:
H nE ( K i ) ≥ 5 für alle i =1,...,k
Um das zu erreichen muss man gegebenenfalls mehrere Klassen der
Klasseneinteilung zusammenzufassen. Allerdings sollte die resultierende
Klassenzahl den Wert 5 nicht unterschreiten.
Beispiel:
Wir betrachten unser Beispiel aus Abschnitt 4.3.1. Hier wurden 40
Gesprächsdauern von Telefonaten gemessen und die beobachteten
Klassenhäufigkeiten ermittelt, siehe Tabelle 9. Aufgrund der Gestalt des
Histogramms haben wir vermutet, dass die zufällige Gesprächsdauer X eines
Telefonates normalverteilt ist. Das wollen wir nun unter Einhaltung eines
Fehlers 1. Art von α =0,05 mit dem χ2-Test prüfen.
Lösung:
Unser Entscheidungsproblem lautet:
H0 : X~N(µ, σ2) gegen H1: X nicht N(µ, σ2)-verteilt
mit einem vorgegebenen Fehler 1. Art α =0,05.
Für die Normalverteilung sind m=2 unbekannte Parameter zu schätzen; es
ergibt sich auf der Basis der n=40 Beobachtungen von X: µ̂ = x =195 Sekunden
und σˆ 2 = s = (47) .
2
2
Zur
Berechnung der erwarteten Klassen-Häufigkeiten ermittelt man
zunächst, unter Benutzung der Tabelle A1 für die Standardnormalverteilung,
2
die Werte der Verteilungsfunktion der Normalverteilung N( x , s ) an der
Stelle der oberen Klassengrenzen bi der Klassen Ki=[ai, b i), i = 1,...,6:
F̂o (bi) = φ((bi - x )/s)
Der Einfachheit halber lassen wir im folgenden das Zeichen ∧ weg und
schreiben nur Fo anstatt F̂o . Wir haben die Werte von Fo(bi) in Tabelle 5
Test auf Vorliegen
einer
Normalverteilung
- 78 –
Stochastik
zusammengefasst. Die Wahrscheinlichkeiten, in eine Klasse zu fallen, ergeben
sich dann aus der Differenz dieser Werte:
Po(X∈Ki) = Fo(bi) - Fo(ai) = Fo(bi) - Fo(bi-1),
Fo(b0) := 0.
In Tabelle 6 sind die beobachteten und erwarteten absoluten Klassenhäufigkeiten gegenübergestellt. Da die erwartete Klassenhäufigkeit für Klasse 1 und
6 kleiner 5 ist, fassen wir Klasse 1 und 2, sowie 5 und 6 zusammen und wir
erhalten schließlich die Werte in Tabelle 7, die die Grundlage der Berechnung
der Teststatistik T bilden.
Klasse i
1
2
3
4
5
6
Obere Klassengrenze Fo(bi)= φ((bi - x )/s)
bi
118
0,0506
155
0,1974
192
0,4746
229
0,7653
266
0,9346
1,0000
∞
Tabelle 5: Werte der erwarteten Verteilungsfunktion
Klasse i
Klassengrenzen
1
2
3
4
5
6
bis 118
119 - 155
156 - 192
192 - 229
229 - 266
> 266
Po(X∈Ki)
erw. Häufgkt.
E
n
H (K i )
0,0506
0,1468
0,3772
0,2907
0,1693
0,0654
beobachtete
Häufigkeiten
H nB ( K i )
=40 Po(X∈ Ki)
2,024
5,872
15,088
11,628
6,772
2,616
3
4
14
10
6
3
Tabelle 6: Beobachtete und erwartete Klassenhäufigkeiten
Klasse i
1
2
3
4
Klassen
grenzen
erw. Häufgkt.
H (K i )
H nB ( K i )
bis 155
156 - 192
192 - 229
> 229
7,896
15,088
11,628
9,388
7
14
10
9
E
n
beob. Häufkt.
Tabelle 7: Beobachtete und erwartete absolute Klassenhäufigkeiten nach Zusammenlegung
Schätzung von Wahrscheinlichkeiten und Identifizieren von Verteilungen
Für die Teststatistik T in (16) ergibt sich dann auf der Basis der Werte von
Tabelle 7:
T=
(7 − 7,896) 2 (14 − 15,088) 2 (10 − 11,628) 2 (9 − 9,388) 2
+
+
+
= 0,5235
7,896
15,088
11,628
9,388
Mit α =0,05, k=4 und m=2 erhalten wir für den kritischen Wert aus
Tabelle A4
χ k2− m−1 (1- α) = χ2 1(0,95) = 3,841
Wegen T < 3,841 kann H0 nicht abgelehnt werden. Die Dauer von Telefongesprächen darf also als normalverteilt angesehen werden.
Bemerkung: Für Histogramme, aber auch für den χ2-Test wird aufgrund
praktischer Erfahrungen eine Klassenzahl k ≥ 5 gefordert. In unserem Beispiel
erhalten wir aber nach der Zusammenlegung nur noch k=4 Klassen. Die
Analyse sollte hier also mit zusätzlichen Beobachtungen wiederholt werden!
Übungsaufgaben
4.8
Überprüfen Sie mit dem χ2 -Test zu einem Fehler 1. Art von 5%, ob
Ihr Würfel gleichmäßig ist. Würfeln Sie dazu zunächst 50 Mal.
- 79 -
- 80 –
Stochastik
4.9
Um die Abläufe in einer Service-Station zu optimieren, soll ein
Modell für die Verteilung der zufälligen Anzahl X der pro Tag
eintreffenden Aufträge aufgestellt werden. Beobachtungen an 50
Tagen ergaben folgende Werte für X:
Anzahl der Aufträge pro Tag
ai
0
1
2
3
4
5
6 und mehr
Beobachtete Häufigkeiten
B
H n (ai )
3
6
10
17
7
7
0
Prüfen Sie zu einem Fehler 1.Art von α= 0,05, ob die Anzahl X
der eintreffenden Aufträge poissonverteilt ist!
4.10
In Aufgabe 4.7 haben Sie anhand von 80 Beobachtungsdaten ein
Histogramm erstellt und eine Hypothese über die Verteilung der
zufälligen Zeit X, die ein Arbeiter in einem Lagerhaltungssystem
zum Kommissionieren benötigt aufgestellt. Prüfen Sie Ihre
Hypothese mittels χ2-Test bei Einhaltung eines Fehlers 1. Art von
α= 0,05!
Erzeugung von Zufallszahlen
5
- 81 -
Erzeugung von Zufallszahlen
Nach Durcharbeiten dieses Kapitels können Sie
•
mit einem Algorithmus (Pseudozufalls-) Zahlen erzeugen, die sich so
verhalten, als wären sie Beobachtungen einer Zufallsgröße mit der
Verteilungsfunktion F.
Schon die Frage : "Wie realisiert man auf einem Computer zufällige Größen?"
ruft manchmal Erstaunen hervor, denn alles, was eine solche Anlage tut,
muss ja vorher programmiert werden. Wie kann sich da eine Zufälligkeit
ergeben?
Eine Möglichkeit, zur Laufzeit reproduzierbare Zufallszahlen zu generieren,
bieten rekursive Gleichungen, die auf der Basis vorangegangener Zufallszahlen eine neue Zufallszahl erzeugen. Da das Ergebnis eine deterministisch
erzeugbare Zahlenfolge ist, sind die Zahlen nicht im eigentlichen Sinne
zufällig. Zahlen, welche nach einer bestimmten Formel gewonnen werden
und Werte einer Zufallsgröße nachbilden, werden deshalb auch Pseudozufallszahlen genannt.
Die Erzeugung derartiger Zufallszahlen erfolgt in 2 Schritten :
• 1. Schritt: Erzeugung von zufälligen Zahlen, die sich so verhalten, als
wären es Beobachtungen einer stetig auf dem Intervall [0,1] gleichverteilten Zufallsgröße (gleichverteilte Zufallszahlen)
• 2. Schritt: Transformation der im 1. Schritt erzeugten Zahlen so, dass sie als
Beobachtungen einer Zufallsgröße mit der Verteilungsfunktion F gelten
können.
Wir beschränken uns im folgenden auf die Darstellung des 2. Schritts, da in
jeder höheren Programmiersprache RANDOM-Funktionen enthalten sind,
die auf dem Intervall [0,1] gleichverteilte Zufallszahlen liefern. Diese
RANDOM-Funktionen basieren i.A. auf einem Algorithmus, der als
Kongruenzmethode bezeichnet wird, wir werden hier nicht weiter darauf
eingehen und verweisen auf [Gr]. Die Güte der RANDOM-Funktionen ist
sehr unterschiedlich. Ob tatsächlich gleichverteilte Zahlen erzeugt werden,
kann man mit entsprechenden statistischen Methoden, z.B. dem χ2-Test,
zumindest aber optisch mit Hilfe von Histogrammen für eine ausreichende
Zahl von erzeugten Zufallszahlen, überprüfen.
Pseudozufallszahlen
- 82 –
Stochastik
5.1
Erzeugung diskret
verteilter Zufallszahlen
Erzeugung von Zufallszahlen diskreter Verteilungen
In der Regel sind in jeder Software Zufallszahlengeneratoren enthalten, die
auf [0,1] gleichverteilte Zufallszahlen erzeugen. Dahinter steckt eine
Implementation eines bestimmten Pseudozufallszahlengenerators. Wir
verwenden im folgenden stellvertretend für eine solche Built-in-Funktion die
Funktion random(0,1).
Wir benötigen nun eine Methode, die uns aus den zwischen 0 und 1 gleichverteilten Zufallszahlen solche erzeugt, die sich so verhalten, als wären sie
Beobachtungen einer Zufallsgröße X mit einer beliebigen Verteilungsfunktion
F.
Erzeugung einer
zweipunktverteilten
Zufallszahl
Wir betrachten zunächst die Simulation des Münzwurfs.
Sei X das zufällige Ergebnis „Kopf“ oder „Zahl“ beim Münzwurf. X besitzt
dann folgende Verteilung :
1

X=
0
Kopf
1
Zahl
1
2
2
Wir simulieren nun den Münzwurf, indem wir eine Realisierung von X
erzeugen. Das geschieht wie folgt:
1.
2.
Wir erzeugen eine zwischen 0 und 1 gleichverteilte Zufallszahl y, z.B.
mittels random(0,1).
Wir definieren dann :
1
Kopf, falls
y < 12

x=
Zahl, falls
y ≥ 12
0
Kopf
0
Zahl
0.5
y
1
y
Beide Werte 0 und 1 sind offenbar gleich wahrscheinlich!
5.1
Verallgemeinern Sie dieses Vorgehen auf die Erzeugung einer
Beobachtung eine zweipunktverteilten Zufallsgröße X mit der
p
a
Verteilung X =  1
1− p
 a2
Erzeugung von Zufallszahlen
- 83 -
Sei X eine Zufallsgröße mit dem Wertebereich M ={ a1 , a2 ,..., a k } und der
diskreten Wahrscheinlichkeitsverteilung pi =P( X = ai ) ,i=1,...,k.
a1
p1
x
pi
a2
p2
a3 ...
p3 ...
... a k
... pk
Eine Realisierung x von X erzeugen wir wie folgt:
1. Wir erzeugen eine zwischen 0 und 1 gleichverteilte Zufallszahl y, z.B.
mittels random(0,1). Wir zerlegen das Intervall [0,1] in disjunkte
Teilabschnitte der Länge pi. Die Wahrscheinlichkeit des Hineinfallens von
y in ein solches Teilintervall ist gerade gleich pi .
2. Wir definieren unseren Zufallszahlengenerator wie folgt:
x = ai
falls
hi−1 ≤ y < hi
i=1,...,k,
wobei die hi die kumulierten Wahrscheinlichkeiten sind:
h0 = 0,
x = a1 x = a 2
0
i
hi = ∑ p j
i = 1,..., k .
j =1
x = a3
p1
p2
p3
⋯⋯
x = ak
⋯⋯
pk
1
Übungsaufgaben
5.2
Ein gleichmäßiger Würfel habe statt Augenzahlen die Buchstaben
A,O,O,O,T,T auf seinen 6 Seiten. Es wird solange gewürfelt, bis
bei drei aufeinanderfolgenden Würfen eines der beiden Worte
‘OTO’ oder ‘TOT’ erscheint. Im 1. Fall hat Spieler A im 2. Fall
Spieler B gewonnen. Ermitteln Sie durch fünf (Papier-undBleistift-)Simulationen dieses Spiels einen Schätzwert
a) für die Gewinnwahrscheinlichkeit von A,
b) für die mittlere Spieldauer (mittlere Anzahl der Würfe bis
Spielende).
Benutzen Sie für die auf [0,1] gleichverteilten Zufallszahlen die
Zufallszahlentabelle A3 im Anhang A.
Erzeugung einer
beliebigen diskret
verteilten
Zufallszahl
- 84 –
Stochastik
5.2
Erzeugung von Realisierungen stetig verteilter Zufallsgrößen die inverse Transformationsmethode
Erzeugung stetig
verteilter Zufallszahlen,
Ist X eine stetige Zufallsgröße mit der Verteilungsfunktion F, so erzeugen wir
eine Realisierungen x von X wie folgt :
die inverse
Transformationsmethode
1. Erzeuge eine stetig im Intervall [0,1] gleichverteilte Zufallszahl y, z.B.
mittels random(0,1).
2. Setze x = F -1 (y) d.h. löse die Gleichung y = F(x) nach x auf .
Diese Methode wird Methode der Umkehrfunktion oder inverse Transformation genannt und ist die in der Praxis gebräuchlichste Methode.
F( x )
1
y
−1
x
x = F ( y)
Abbildung 14:
Erzeugung einer stetig verteilten Zufallszahl durch Bildung der
Umkehrfunktion
Diese Methode basiert auf der Tatsache, dass für eine auf [0,1] stetig
gleichverteilte Zufallsvariable Y gilt:
P(Y ≤ y ) = y für y ∈ [0,1]
Wählen wir dann X=F-1(Y), so gilt:
P( X ≤ x) = P( F −1 (Y ) ≤ x) = P( F ( F −1 (Y ) ≤ F ( x)) = P(Y ≤ F ( x)) = F ( x)
D.h., X=F-1(Y) besitzt die Verteilungsfunktion F oder anders gesagt, die aus
den Realisierungen y von Y abgeleiteten Werte x= F-1(y) verhalten sich so, als
wären es Beobachtungen einer Zufallsgröße mit Verteilungsfunktion F.
5.3
Berechnen Sie für eine auf [0,1] stetig gleichverteilte
Zufallsvariable Y die Wahrscheinlichkeit P (Y ≤ y ) für y∈[0,1]!
Zeigen Sie, dass für diese gilt: P (Y ≤ y ) = y .
Erzeugung von Zufallszahlen
- 85 -
Im folgenden demonstrieren wir die Methode der inversen Transformation
an 2 Beispielen.
Beispiel 1: Es soll ein Algorithmus zur Erzeugung exponentialverteilter
Zufallszahlen angegeben werden.
Lösung: Die Verteilungsfunktion F(x) einer exponentialverteilten Zufallsgröße
X mit dem Erwartungswert EX hat die Gestalt:
F ( x ) = 1 − e − λx
für
Erzeugung
exponentialverteilter
Zufallszahlen
x≥0
wobei λ =1/EX ist. Die Auflösung der Gleichung
y = F ( x ) = 1 − e − λx
nach x erfolgt durch äquivalente Umformungen:
y = 1 − e −λx ⇔ e − λx = 1 − y ⇔ −λx = ln(1 − y ) ⇔ x = −
1
λ
ln(1 − y )
Die Gleichung
1
x = − ln(1 − y )
λ
ist der Zufallszahlengenerator für die Exponentialverteilung, wobei y eine auf
[0,1] gleichverteilte Zufallszahl ist.
Folgendes
Beispiel
zeigt
das
Vorgehen
bei
der
inversen
Transformationsmethode, wenn die Dichtefunktion stückweise definiert ist.
Beispiel 2: Erzeugung von Realisierungen einer dreiecksverteilten
Zufallsgröße X ∼ D(a,m,b). Die Verteilungsfunktion F(x) einer auf [a,b]
dreiecksverteilten Zufallsgröße X mit dem Häufungspunkt m hat die Gestalt
0

2
 ( x − a)
 ( m − a)(b − a)
F( x) = 
( x − a) 2

1
 ( m − a)(b − a)

1
für x < a
für a ≤ x ≤ m
für m < x ≤ b
für x ≥ 1
Erzeugung von
Realisierungen
einer
dreiecksverteilten
Zufallsgröße
- 86 –
Stochastik
Da F(x) aus verschiedenen Formeln für die beiden Teilbereiche [a,m] und
[m,b] gegeben ist, muss hier die Invertierung von F für beide Bereiche getrennt erfolgen.
Wir erhalten für den Fall a ≤ x ≤ m bzw. 0 ≤ F ( x ) ≤
y = F ( x) =
m−a
:
b−a
( x − a) 2
⇔ ( x − a ) 2 = y (m − a)(b − a)
(m − a)(b − a)
⇒ x = a + y (m − a)(b − a)
und für den Fall m ≤ x ≤ b bzw.
m− a
≤ F ( x ) ≤ 1:
b−a
( x − b) 2
y = F ( x) = 1 −
⇔ ( x − b) 2 = (1 − y )(b − m)(b − a)
(b − m)(b − a)
⇒ x = b − (1 − y )(b − m)(b − a)
Die Vorschrift zur Erzeugung einer auf [a,b] mit dem Häufungspunkt m
dreiecksverteilten Zufallszahl lautet also :

 a +
x= 
b −

m− a
b− a
y( m − a)(b − a)
falls
0≤ y≤
(1− y )(b − m)(b − a)
falls
m− a
≤ y≤ 1
b− a
wobei y eine im Intervall [0,1] gleichverteilte Zufallszahl ist.
Übungsaufgaben
5.4
Sei X eine auf dem Intervall [a,b] stetig gleichverteilte
Zufallsgröße. Geben Sie einen Algorithmus zur Erzeugung
zufälliger Realisierungen von X an!
Geben Sie einen Algorithmus zur Erzeugung zufälliger
Realisierungen von X an, wenn X folgende Dichtefunktion besitzt:
5.5
0,75

f ( x) = 0,5
0

für
−0,5 ≤ x ≤ 0,5
für
0,5 < x ≤ 1
sonst
Erzeugung von Zufallszahlen
5.3
- 87 -
Erzeugung von
Zufallsgröße
Realisierungen
einer
normalverteilten
Die Verteilungsfunktion einer Standardnormalverteilung ist das Integral über
die Gauß’sche Dichtefunktion:
F( x) =
1
2π
x
∫
−
e
x2
2
dx
−∞
Wenden wir die Inversionsmethode wie üblich an, so müssten wir die
Gleichung
y = F(x) nach x auflösen, bzw. die Umkehrfunktion x = F− 1 ( y ) berechnen.
Das ist leider analytisch nicht möglich.
Man kann hier numerische Verfahren einsetzen oder die Tabelle der
Standardnormalverteilung im Anhang benutzen, um zu vorgegebenem
Funktionswert y das Argument x abzulesen. Das sind allerdings wenig
gebräuchliche Methoden.
Für die Erzeugung standardnormalverteilter Zufallsgrößen hat sich die
sogenannte Methode von Box und Müller durchgesetzt. Box und Müller
haben 1958 folgenden Satz bewiesen:
Satz :
Seien Y1 und Y2 zwei auf [0,1] gleichverteilte voneinander unabhängige Zufallsvariablen.
Dann gilt : Die transformierten Zufallsgrößen
X 1 = − 2 ln(Y1 ) cos(2πY2 ) und X 2 = − 2 ln(Y1 ) sin( 2πY2 )
sind zwei unabhängige standardnormalverteilte Zufallsgrößen.
Um standardnormalverteilte Zufallszahlen zu erhalten, erzeugt man also
zunächst zwei auf [0,1] gleichverteilte Zufallszahlen y1 und y2 und transformiert sie anschließend nach o.g. Vorschrift.
Je zwei gleichverteilte
Zufallszahlen y1 und y2 liefern zwei standardnormalverteilte Zufallszahlen x1
und x2.
Zur Erzeugung einer Zufallszahl x, die einer Normalverteilung mit
beliebigem Erwartungswert µ und beliebiger Varianz σ2 entspricht, nutzt man
die Linearität der Normalverteilung aus, (siehe Reproduktionssatz, Teil a),
Kap. 3.2). Diese lässt sich wie folgt formulieren:
Methode von Box
und Müller zur
Erzeugung
standardnormalverteilter Zufallszahlen
- 88 –
Stochastik
Satz : Es gilt Z ~ N (0,1) genau dann, wenn X = σ ⋅ Z + µ ~ N ( µ , σ 2 ) .
Daraus ergibt sich die folgende Methode zur Erzeugung einer Zufallszahl, die
sich wie eine Beobachtung einer mit dem Erwartungswert µ und der Varianz
σ2 normalverteilten Zufallsgröße verhält:
1. Erzeuge eine Realisierung z einer standardnormalverteilten Zufallsgröße
gemäß der Methode von Box und Müller .
2. Berechne x aus der Vorschrift x = σ ⋅ z + µ .
Übungsaufgaben
5.6
a) Erzeugen Sie unter Verwendung der Tabelle A3 im Anhang A
der gleichverteilten Zufallszahlen 30 Realsierungen einer
N(4,1)-verteilten Zufallsgröße!
b) Stellen Sie für Ihre 30 Werte ein Histogramm auf und
vergleichen Sie es mit der Verteilungsdichte der N(4,1)Verteilung!
Tabellen
- 89 -
Literaturverzeichnis
Standard-Literatur
Diese Literatur ist für einen breiten Leserkreis gedacht, der eine mathematische Grundausbildung (als Nichtmathematiker) besitzt.
[Grei] M.Greiner und G.Tinhofer: Stochastik für Studienanfänger der
Informatik, Carl-Hanser-Verlag München, 1996.
[Krey] D.Kreyszig: Statistische Methodenlehre. Teubner, Stuttgart, 1995.
[Preu] W.Preuß und G. Wenisch: Lineare Algebra und Stochastik,
Fachbuchverlag Leipzig , 2001.
[Stin] Peter Stingl: Mathematik für Fachhochschulen – Technik und
Informatik, Carl Hanser Verlag München Wien, 1996.
Weiterführende Literatur
Diese Literatur ist für einen Leserkreis gedacht, der auf der Basis dieser
Kurseinheit sein Grundwissen zur Stochastik ergänzen möchte.
[Gr] B.Grabowski: Mathematische Methoden in der Simulation dynamischer
Systeme (SIM3), Hrg. ZFH Koblenz, Fernstudium Allg. Informatik, 1997.
[Lex] G.Walz (Hrg.), B.Grabowski: Lexikon der Statistik, Elsevier–Spektrum
Akademischer Verlag, 2004.
[Wa] E.Wahrmuth: Mathematische Modelle diskreter stochastischer Systeme
(SIM2), Hrg. ZFH Koblenz, Fernstudium Allgemeine Informatik, 1997.
Wissenschaftliche Literatur
Diese Literatur ist nicht für einen breiten Leserkreis gedacht, sonder eher für
Fachleute, die auf dem Gebiet der Anwendung stochastischer Verfahren
angewandte Forschung und Entwicklung betreiben.
[Fish] G. S. Fishman: Monte Carlo, Concepts, Algorithms, and Applications,
Springer Verlag New York, 1996.
[Math] R. Mathar; D. Pfeifer: Stochastik für Informatiker. Teubner, Stuttgart,
1990.
[Rip] B. D. Ripley: Stochastic Simulation. John Wiley & Sons, Inc., 1987.
- 90 –
Stochastik
Tabellen und Diagramme
A1. Tabelle der Verteilungsfunktion Φ (u) der Standardnormalverteilung für
u=0,00 (0,01)3,09
Es gilt: Φ(-u) = 1-Φ(u) und Φ(u)≈1 für u ≥ 3,1
Die Funktion Φ(u) ist für u=0,00 bis u=3,09 mit der Schrittweite 0,01 tabelliert.
Dabei setzt sich u aus den Zahlen der linken Spalte und der Kopfzeile
zusammen. Die Zahlen in der Kopfzeile stellen die zweite Nachkommastelle
von u dar.
Ablesebeispiele:
Φ(1,27)=0,898, Φ(-2,1) = 1- Φ(2,1) = 1–0,9821=0,0179, Φ(-3,12)=1-Φ(3,12)=0.
Tabellen
- 91 -
Die Quantile der Standardnormalverteilung erhält man aus Tabelle A1 durch
lineare Interpolation.
Quantile: Φ (u ) = 0,5 ⇒ u = 0 , Φ (u ) = 0,9 ⇒ u = 1,282
α
0,900
0,950
0,975
0,990
0,995
0,999
uα
1,282
1,645
1,960
2,326
2,576
3,090
α
0,100
0,050
0,025
0,010
0,005
0,001
uα
-1,282
-1,645
-1,960
-2,326
-2,576
-3,090
A2. Tabelle der Quantile der Standardnormalverteilung
- 92 –
Stochastik
A3 Zufallszahlen zur Gleichverteilung
Die einzelnen Ziffern bilden eine Zufallszahlenfolge zur Gleichverteilung auf
der Menge der Ziffern 0 bis 9. Die Fünfergruppen, als Dezimalzahl gelesen
und durch 100000=105 geteilt, sind eine Zufallszahlenfolge zur
Gleichverteilung auf dem Intervall [0,1].
Tabellen
- 93 -
m\α 0,005
0,01
0,025
0,05
0,1
0,9
0,95
0,975
0,99
0,995
1
2
3
4
5
0,000 0,000 0,000
0,004 0,016 2,706 3,841 5,023 6,635 7,879
0,010 0,020 0,051
0,103 0,211 4,605 5,991 7,378 9,210 10,60
0,072 0,115 0,216
0,352 0,584 6,251 7,815 9,348 11,34 12,94
0,207 0,297 0,484
0,711 1,064 7,779 9,422 11,14 13,28 14,86
0,412 0,554 0,831
1,145 1,610 9,236 11,07 12,83 15,09 16,75
6
7
8
9
10
0,676 0,872 1,237
1,635 2,204 10,64 12,59 14,45 16,81 18,55
0,989 1,239 1,690
2,167 2,833 12,02 14,07 16,01 18,48 20,28
1,344 1,647 2,180
2,733 3,490 13,36 15,51 17,53 20,09 21,96
1,735 2,088 2,700
3,325 4,168 14,68 16,92 19,02 21,67 23,59
2,156 2,558 3,247
3,940 4,865 15,99 18,31 20,48 23,21 25,19
11
12
13
14
15
2,603 3,053 3,816
4,575 5,578 17,28 19,68 21,92 24,72 26,76
3,074 3,571 4,404
5,226 6,304 18,55 21,03 23,34 26,22 28,30
3,565 4,107 5,009
5,892 7,042 19,81 22,36 24,74 27,69 29,32
4,075 4,660 5,629
6,571 7,790 21,06 23,68 26,12 29,14 31,32
4,601 5,229 6,262
7,261 8,547 22,31 25,00 27,49 30,58 32,80
16
17
18
19
20
5,142 5,812 6,908
7,962 9,312 23,54 26,30 28,85 32,00 34,27
5,697 6,408 7,564
8,672 10,09 24,77 27,59 30,19 33,41 35,72
6,265 7,015 8,321
9,390 10,86 25,99 28,87 31,53 34,81 37,16
6,844 7,633 8,907
10,12 11,65 27,20 30,14 32,85 36,19 38,58
7,434 8,260 9,491
10,85 12,44 28,41 31,41 34,17 37,57 40,00
25
30
35
40
45
10,52 11,52 13,12
14,61 16,47 34,38 37,65 40,65 44,31 46,93
13,79 14,95 16,79
18,49 20,60 40,26 43,98 46,98 50,89 53,67
17,19 18,51 20,57
22,46 24,80 46,06 49,20 53,20 57,34 60,27
20,71 22,16 24,43
26,51 29,05 51,81 55,34 59,34 63,69 66,77
24,31 25,90 28,37
30,61 33,35 57,51 61,41 65,41 69,96 73,17
50
60
70
80
90
100
27,99 29,71 32,36
34,76 37,69 63,17 67,42 71,42 76,15 79,49
35,53 37,48 40,48
43,19 46,46 74,40 79,30 83,30 88,38 91,95
43,28 45,44 58,76
51,74 55,33 85,53 90,02 95,02 100,4 104,2
51,17 53,54 67,15
60,39 64,28 96,58 101,9 106,6 112,3 116,3
59,20 61,75 65,65
69,13 73,29 107,6 113,1 118,1 124,1 128,3
67,33 70,07 74,22
77,93 82,36 118,5 124,3 129,6 135,8 140,2
A4: Quantile χm (α
α) der χ -Verteilung mit m Freiheitsgraden
2
2
α)) = α
P(X < χm (α
2
- 94 –
Stochastik
Lösungshinweise zu den Aufgaben
Aufgabe 1.1
A ∩ B = {2,4,6} ,
B\A=∅,
C\A={20,40}, B ∪ C = C ,
B A = {1,3,5,7,8,9} ,
℘(B)={∅, {2}, {4}, {6}, {2,4}, {2,6}, {4,6}, B}, |℘(B)|=8
Aufgabe 1.2
a) zu 6, b) zu 5, c) zu 2, d) zu 3, e) zu 1, f) zu 4
Aufgabe 1.3
_________
Es gilt: ( A ∪ B) M = AM ∩ BM
Aufgabe 1.4
Die linke und rechte Seite des ersten Teils der Behauptung 2 des Satzes
verdeutlichen wir uns in folgendem Venn-Diagramm:
Beide Seiten sind offensichtlich gleich. Analog verdeutlicht man sich die
anderen Behauptungen des Satzes.
Aufgabe 1.5
a) A={t∈R|t ≥ 3}, B={t∈R|t ≤ 5}, C={t∈R|t > 7}, D={t∈R|3 ≤ t ≤ 5}.
b) C⊂A c) D=A∩B d) A\C ={ t∈R|3 ≤ t ≤ 7} e) B,C und C,D.
Aufgabe 1.6
a) z.B ℑ={∅, {1,2}, {3,4}, {5,6}, {1,2,3,4}, {1,2,5,6}, {3,4,5,6},Ω} und
ℑ={∅, {1}, {2,3,4,5,6}, Ω}.
b) u.a. weil {2}∪{4}∉{∅,{2}, {4}, {1,3,5,6}, Ω} .
c) 2|Ω| .
Aufgabe 1.7
a) Ω = {(K,Z), (Z,K), (Z,Z), (K,K)}
Lösungshinweise zu den Aufgaben
b) ℑ = ℘(Ω) = { ∅, {(K,Z)}, {(Z,K)}, {(Z,Z)}, {(K,K)},
{(K,Z), (Z,K)},{(K,Z), (Z,Z)}, {(K,Z), (K,K)},
{(Z,K), (Z,Z)}, {(Z,K), (K,K)}, {(Z,Z), (K,K)},
{(K,Z), (Z,K), (Z,Z)}, {(K,Z), (Z,K), (K,K)},
{(Z,K), (Z,Z), (K,K)}, {(K,Z)}, {(Z,Z), (K,K)}, Ω}
c) A={(K,K),(Z,K)} – beim 2. Mal K(opf) geworfen, B={(K,K),(Z,Z)} – 2 mal
das gleiche geworfen, C={(K,K), (Z,K), (K,Z)} – nicht 2 mal Z(ahl)
geworfen.
d) Z.B. {∅, Ω, {(K,Z), (Z,K)}, {(Z,Z), (K,K)}} und
{∅, Ω, {(K,Z), (Z,K), (Z,Z)}, {(K,K)}} .
Aufgabe 1.8
Man überzeugt sich leicht mit Hilfe von Venn-Diagrammen, dass die beiden
Eigenschaften eines Vollständigen Ereignissystems erfüllt sind:
1) (A∪B) ∪ ( A ∩B) ∪ ( A ∩ B ) ∪ ( A ∩ B ) = Ω
2) (A∪B) ∩ ( A ∩B) =∅, (A∪B) ∩ ( A ∩ B ) = ∅, (A∪B) ∩ ( A ∩ B ) = ∅,
( A ∩B) ∩ ( A ∩ B ) =∅, ( A ∩B) ∩( A ∩ B ) = ∅, ( A ∩ B ) ∩ ( A ∩ B ) = ∅.
Aufgabe 1.9
Es gilt A= (A\B) ∪ (A∩B) mit (A\B) ∩(A∩B) =∅. Aus Axiom 3 der Wahrscheinlichkeit
ergibt
sich
daraus
P(A)=P(A\B)+P(A∩B)
bzw.
P(A\B)=P(A)-P(A∩B). Weiterhin ist A∪B=B∪(A\B) und B∩(A\B)=∅. Aus
Axiom 3 der Wahrscheinlichkeit ergibt sich dann die Behauptung
P(A∪B)=P(B)+P(A\B)=P(B)+P(A)-P(A∩B).
Aufgabe 1.10
Gegeben ist P( „Viagra“ ∪ „Rolex“)=0,025. Wir definieren das Ereignis
S=„E-Mail ist spamverdächtig“. Dann gilt für die gesuchte
Wahrscheinlichkeit:
_________
_________
P( S ) = P("Viagra"∩ " Rolex") = 1 − P(„Viagra“ ∪ " Rolex" )
= 1 – 0,025 = 0,075.
Aufgabe 1.11
Wir definieren das Ereignis K = Das Produkt ist verkäuflich. Es gilt:
P(K) = P ( F1 ∩ F2 ) = 1 − P( F1 ∪ F2 ) = 1 – ( P( F1 ) + P( F2 ) − P( F1 ∩ F2 ) )
= 1 – (0,01 + 0,02 – 0,005) = 0,075.
- 95 -
- 96 –
Stochastik
Aufgabe 1.12
Sei A={ ωi1 ,..., ωik } eine Menge, die aus k Elementarereignissen besteht.
Dann ist A als Vereinigung A= {ωi1 } ∪ ⋯{ωik } von k disjunkten Mengen
darstellbar. Aus Axiom 3 der Wahrscheinlichkeit und Teil 1 des Satzes folgt
dann die Behauptung wegen
P(A)=P( {ωi1 } ∪ ⋯{ωik } )=P( {ωi1 }) + ⋯ + P( {ωik } ) = 1/m+…+1/m=k/m.
Aufgabe 1.13
Wir überlegen uns zunächst, wie die Elementarereignisse aussehen. Einen
Versuchsausgang kann man offensichtlich durch ein 5 – Tupel (i1,i2,i3,i4,i5)
mit ij∈{1,2,3,4,5,6} beschreiben, ij ist die Augenzahl des j-ten Würfels. Ω ist
die Anzahl aller 5-Tupel. Da jeder Würfel 6 Möglichkeiten besitzt und alle 5Tupel durch eine Kombination der 6 Möglichkeiten aller 5 Würfel entstehen,
gilt: |Ω|= 6 ⋅ 6 ⋅ 6 ⋅ 6 ⋅ 6 =65.
Zu a) Das Ereignis A ist die Menge aller 5-Tupel aus Ω, die aus den Zahlen
1,2,3,4,5 bestehen. Es gibt genau 5! verschiedene Möglichkeiten, diese 5
Zahlen anzuordnen, also ist |A|=5! Und wir erhalten für die gesuchte
Wahrscheinlichkeit: P(A) =
| A | 5!
= ..
| Ω | 65
Zu b) Das Ereignis A ist die Menge aller 5-Tupel, in denen 2 mal eine 4 und 3
mal eine 6 vorkommt. Würden wir alle diese 5 Tupel auflisten wollen,
müssten wir aus den 5 Würfeln immer 2 auswählen, denen wir die 4
 5
 2
zuordnen, der Rest bekommt die Zahl 6. Es gibt genau | A |=   =
derartige Möglichkeiten. Folglich ist P(A)=
5!
= 10
2!3!
| A | 10
=
= 0,001 . Die Chance, 2
| Ω | 65
mal eine 4 und 3 mal eine 6 zu würfeln, ist 1 zu 1000.
Zu c) Das Ereignis A ist die Menge aller 5-Tupel, die nur verschiedene Zahlen
6
enthalten. Es gibt genau   Möglichkeiten, 5 verschiedene Zahlen aus 6
5
möglichen auszuwählen und nocheinmal 5! Möglichkeiten, diese im 5 Tupel
6
5
zu vertauschen. Demzufolge ist | A |=   ⋅ 5!= 6! und wir erhalten für die
gesuchte Wahrscheinlichkeit:
| A | 6!
= .
| Ω | 65
Lösungshinweise zu den Aufgaben
Aufgabe 1.14
Wir überlegen uns zunächst, wie die Elementarereignisse aussehen. Einen
Versuchsausgang kann man offensichtlich durch ein Tripel (i1,i2,i3) mit
ij∈{1,2,3,4,5,6} beschreiben, ij ist die Augenzahl des j-ten Würfels. Ω ist die
Anzahl aller Tripel. Da jeder Würfel 6 Möglichkeiten besitzt, gilt:
|Ω|= 6 ⋅ 6 ⋅ 6 = 6 3 .
Das Ereignis A= „mindestens 2 mal eine „6“ würfeln“ zerlegen wir in die
beiden Teilereignisse: A2 = „genau 2 Sechsen gewürfelt“ und A3 = „genau 3
Sechsen gewürfelt“. Offensichtlich ist |A| = |A2| + |A3|.
Es gibt nur eine Möglichkeit, genau 3 Sechsen zu würfeln – jeder der 3 Würfel
muss die Augenzahl 6 aufweisen. D.h., |A3| = 1.
 3
Weiterhin gibt es genau   ⋅ 5 = 15 Möglichkeiten dafür, dass genau 2 der 3
 2
Würfel die Augenzahl 6 besitzen und der dritte eine beliebige andere
Augenzahl von 1 bis 5. D.h., |A2| = 15.
Folglich ist P(A)=
| A | 15 + 1
= 3 = 0,074 .
|Ω|
6
Aufgabe 1.15
Es gilt B = ( A ∩ B) ∪ ( A ∩ B) und ( A ∩ B) ∩ ( A ∩ B) = ∅. Aus Axiom 3 der
Wahrscheinlichkeit folgt dann P( B) = P ( A ∩ B) + P( A ∩ B) und wir erhalten
P( A | B) =
P( A ∩ B) P( B ) − P ( A ∩ B)
P( A ∩ B)
=
= 1−
= 1 − P( A / B) .
P ( B)
P( B)
P( B)
Aufgabe 1.16
Es ist (siehe Lösung zu Aufgabe 1.15) P( A ∩ B) = P( B) − P( A ∩ B). Daraus
folgt wegen P ( A ∩ B ) = P ( A) ⋅ P ( B ) sofort
P( A ∩ B) = P( B ) − P ( A) ⋅ P( B) = (1 − P( A)) P( B) = P( A) ⋅ P( B).
Die anderen Beziehungen beweist man analog.
Aufgabe 1.17
Die Wahrscheinlichkeit dafür, aus den 11 Buchstaben zuerst ein „m“ zu
ziehen ist P( „m“) = 1/11. Es verbleiben noch 10 Buchstaben, darunter 4 mal
der Buchstabe „i“. Die Wahrscheinlichkeit dafür, als nächstes ein „i“ zu
ziehen, ist demzufolge P(„i“/„m“)= 4/10. Analog berechnet man alle anderen
Ziehungswahrscheinlichkeiten. In Anwendung des Multiplikationssatzes
erhalten wir die gesuchte Wahrscheinlichkeit:
- 97 -
- 98 –
Stochastik
P(„mississippi“)
=P(„m“)⋅P(„i“/„m“)⋅P(„s”/„mi”)⋅P( „s”/ „mis”)⋅ …. ⋅P(„i” /„mississippi”)
=
1 4 4 3 3 2 1 2 2 1 1 4!⋅4!⋅2
1
=
⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ ⋅ =
.
11 10 9 8 7 6 5 4 3 2 1
11!
34650
Aufgabe 1.18
Wir definieren das Ereignis Si=„ Sudent i findet die richtige Lösung“.
Gegeben ist P(S1)=P(S2)=0,6, gesucht ist P( S1 ∪ S 2 ). S1 und S2 sind
stochastisch unabhängig, folglich sind es auch S 1 und S 2 und für die
gesuchte Wahrscheinlichkeit ergibt sich:
P( S1 ∪ S 2) = 1 − P( S 1 ∩ S 2)
=
1 − P( S 1) ⋅ P( S 2) =1-0,4⋅0,4=0,86.
Unabhängig keit
Aufgabe 1.19
Wir definieren folgende Ereignisse: S= „Das System funktioniert“, Ei=
„Element Ei funktioniert“, R1 = „Reihe 1 funktioniert“.
a) Offensichtlich gilt:
P( S ) = P( R1 ∩ E 3 ∩ E 4)
=
Unabhängig keit
P( R1) ⋅ P( E 3) ⋅ P( E 4)
Weiterhin ist:
P( R1) = 1 − P( R1) = 1 − P( E1 ∩ E 2)
und
wir
erhalten
=
Unabhängigkeit
1 − P( E1) ⋅ P( E 2) =1-0,9⋅0,9=0,19,
P( S ) =0,19⋅0,1⋅0,1=0,0019.
Für
die
gesuchte
Wahrscheinlichkeit ergibt sich demzufolge: P(S)=1-0,0019=0,9981.
b) Wenn E3 funktioniert, so funktioniert auch das System. D.h., es gilt
P(S/E3) = 1. Gemäß dem Satz von Bayes erhalten wir dann für die gesuchte
Wahrscheinlichkeit:
P( E 3 / S ) =
0,9
P( S / E 3) P( E 3) P( E 3)
=
=
≈0,902
P( S )
P( S ) 0,9981
c) E3 und S sind nicht stochastisch unabhängig, denn es ist P(E3/S)≠P(E3).
Aufgabe 1.20
Wir definieren die Ereignisse B = „das Wort ‚Viagra’ kommt vor“ und S =
„Text ist ein Spam“. Gegeben sind folgende Wahrscheinlichkeiten: P(S)=0,2
und P(B/S)=0,9 und P(B/ S )=0,01. Gesucht sind a) P(S/B) und b) P(S/ B ).
a) Gemäß der Formel von Bayes ist P( S / B) =
P( B / S ) P( S )
. Aus der Formel
P( B)
der
totalen
Wahrscheinlichkeit
ergibt
sich
P(B)=P(B/S)P(S)+P(B/ S )P( S )=0,9⋅0,2+0,01⋅0,8=0,188 und
für
P(B):
wir erhalten:
Lösungshinweise zu den Aufgaben
P( S / B) =
- 99 -
0,9 ⋅ 0,1
= 0,957 . In 95,7% aller Fälle ist ein Text, der als Spam
0,188
eingestuft wurde, tatsächlich ein Spam.
b) Es ist: P ( S / B ) =
P ( B / S ) P ( S ) (1 − P ( B / S )) ⋅ P ( S ) 0,1 ⋅ 0,2
=
≈ 0,02 , d.h.
=
1 − P( B)
0,912
P( B )
dass 2% aller Texte, die nicht als Spam eingestuft wurden, Spams sind.
Aufgabe 1.21
Gegeben sind folgende Wahrscheinlichkeiten: P(Z1)=0,3, P(Z2)=0,2,
P(Z3)=0,5, P(A/Z1)=0,01, P(A/Z2)=0,02, P(A/Z3)=0,005.
a) Gemäß der Formel der totalen Wahrscheinlichkeit erhalten wir für die
gesuchte Wahrscheinlichkeit:
P(A) =P(A/Z1)⋅P(Z1)+P(A/Z2)⋅P(Z2)+P(A/Z3)⋅P(Z3)
=0,01⋅0,3+0,02⋅0,2+0,005⋅0,5 =0,0095
b) Die gesuchte Wahrscheinlichkeit ist nach Satz von Bayes:
P( Z1 / A) =
P( A / Z1) P( Z1) 0,01 ⋅ 0,3
=
≈ 0,316
P( A)
0,0095
Aufgabe 2.1
Der Wertebereich von X ist die Menge {0,1,2,3}. Im Abschnitt 2.2.1 wurden
bereits
die
Wahrscheinlichkeiten
p3 = P ( X = 3) =
p 2 = P ( X = 2) =
15
63
und
1
berechnet. Analog berechnen wir p 0 = P( X = 0) und
63
p1 = P( X = 1) . Wir erhalten
125
und
63
P( X = 1) = P (( X 1 = 1 ∩ X 2 = 0 ∩ X 3 = 1) ∪ ( X 1 = 0 ∩ X 2 = 1 ∩ X 3 = 0)
P(X=0)=P(X1=0∩X2=0∩X3=0)=P(X1=0)⋅P(X2=0)⋅P(X3=0) =
∪ ( X 1 = 0 ∩ X 2 = 0 ∩ X 3 = 1))
= P ( X 1 = 1) P( X 2 = 0) P( X 3 = 1) + P( X 1 = 0) P( X 2 = 1) P( X 3 = 0)
+ P( X 1 = 0) P( X 2 = 0) P( X 3 = 1)
=3⋅
1 5 5 75
⋅ ⋅ =
.
6 6 6 63
Die Wahrscheinlichkeitsverteilung von X ist also:
X=i
pi
0
1
2
3
125
63
75
63
15
63
1
63
- 100 –
Stochastik
Aufgabe 2.2
Ein elementarer Versuchsausgang des Versuchs „Würfeln mit zwei Würfeln“
lässt sich als Paar (W1,W2) beschreiben, wobei Wi die Augenzahl des i.ten
Würfels ist. Die Anzahl aller möglichen Versuchsausgänge ist |Ω|=6⋅6=36.
Sei X die zufällige Summe der Augenzahlen beim Würfeln mit zwei Würfeln.
Offensichtlich ist X durch die Abibldung X : (W1,W2) → W1+W2 definiert
und es ist P(X=k) = P({ (W1,W2)|W1+W2 =k}). Wir erhalten
P(X=6)=P({(1,5),(2,4),(3,3),(4,2),(5,1)}) = 5/36
P(X=7)=P({ (1,6),(2,5),(3,4),(4,3),(5,2),(6,1)}) = 6/36 und
P(X=8)=P({(2,6),(3,5),(4,4),(5,3),(6,2)}) = 5/36. Daraus folgt für die gesuchte
Wahrscheinlichkeit:
P(S=6 ∪ S=7 ∪ S=8) =P(S=6)+P(S=7) +P(S=8) = (5+6+5)/36 = 4/9.
Aufgabe 2.3
P(Kein Verlust)=P(Schön ∪ Regen) =P(Schön) + P(Regen) =0,5+0,25=0,75.
Aufgabe 2.4
Sei X die zufällige Anzahl der defekten CD-RW’s, die sich in einem Paket von
10 Stück befinden. Wir definieren die zweipunktverteilte Zufallsgröße
CD ist defekt
p
1
Xi = 
0 CD ist nicht defekt 1 − p
die den Status der i.ten CD beschreibt. Es ist p=P(Xi=1)=0,01 gegeben.
Offensichtlich gilt X~B(n=10, p=0,01) und wir erhalten für die gesuchte
Wahrscheinlichkeit:
P( X > 1) = 1 − P( X ≤ 1) = 1 − P( X = 0) − P( X = 1)
10 
10 
= 1 −  (0,01) 0 (0,99)10 −  (0,01)1 (0,99) 9
1
0
≈ 0,004
Aufgabe 2.5
3 i −3
e
i =0
i = 0 i!
= 1 − e −3 (1 − 3 − 9 / 2 − 9 / 2 − 27 / 8 − 27 ⋅ 3 / 40)
P(X>5)=1-P(X ≤ 5) =1 -
= 0,183
5
5
∑ P( X = i) = 1 − ∑
Lösungshinweise zu den Aufgaben
Aufgabe 2.6
Aufgabe 2.7
Aufgabe 2.8
Aufgabe 2.9
a) Fläche unter der Funktion ist nicht gleich 1.
b) Funktion ist nicht
monoton wachsend c) Funktion hat negative Funktionswerte.
Aufgabe 2.10
a) Aus der Grafik können wir für die Dichtefunktion entnehmen:
2
2
x + . Für die Verteilungsfunktion ergibt sich damit:
9
3

0
für
x<0
x
 x 2
2
F(x)= ∫ f (u ) du = ∫ (− x + )du für 0 ≤ x ≤ 3
3
−∞
0 9

1
für
x>3
0
für
x<0

 x2 2
= −
+ x für 0 ≤ x ≤ 3
 9 3
1
für
x>3

f(x)= −
b) P(X>1)=1-F(1)= 4/9.
- 101 -
- 102 –
Stochastik
c) P(X>2/X ≥ 1) =
P( X ≥ 1 ∩ X > 2) 1 − F (2)
=
= 1 /4.
P( X ≥ 2)
1 − F (1)
d) Wir lösen die Gleichung F(x)=0,5 nach x auf und erhalten zunächst 2
x = 3 ± 3/ 2 .
Da x0,5 ≤ 3 ist, ist die Lösung
= 3 − 3 / 2 ≈ 0,879 . D.h., 50% aller Verspätungen sind geringer als 0,879
Lösungen:
x0,5
Minuten.
Aufgabe 2.11
Aufgabe 2.12
Sei I=[u, u+d] ein beliebiges Intervall der Länge d. Dann gilt für jedes u∈[a,b]
u+d
P(X∈I) =
1
u+d
u
∫ f ( x)dx = b − a [ x]
u
=
d
.
b−a
Aufgabe 2.13
F(x)=0 für x ≤ a, F(x)=(x-a)/(b-a) für a ≤ x ≤ b, F(x)=1 für x >b.
Grafik: siehe Aufgabe 2.11.
Aufgabe 2.14
Aufgabe 2.15
Die Fläche unter der Dichte ist [(c-a)h+(b-c)h]/2=1. Daraus folgt: h=2/(b-a). c
muss kleiner werden, wenn [a,b] länger wird, weil die Fläche unter der
Dichte gleich 1 sein muss.
Aufgabe 2.16
Lösungshinweise zu den Aufgaben
- 103 -
Aufgabe 2.17
P( X > s + t / X > s) =
P( X > s + t ∩ X > s) P( X > s + t ) 1 − F (s + t )
=
=
1 − F (s)
P( X > s)
P( X > s)
e −λ ( s +t )
= −λs = e −λt = 1 − F (t ) = P ( X > t )
e
Aufgabe 2.18
0
falls x < 0

 0
x
=
a) F ( x ) = ∫ f ( x )dx = 
−u / 2
−x / 2
e
du
x
≥
0
,
5
falls
0
1 − e
−∞
∫0
x
falls x < 0
falls x ≥ 0
b) P(X>2) = 1 - F(2)=e-1 ≈ 0,368. D.h., in 36,8% aller Fälle dauert der Abbau
eines Glases Wein länger als 2 h.
c) Wir lösen die Gleichung P(X > t) = 0,1 nach t auf. D.h., t ist das 0,9-Quantil
der Exponentialverteilung. Es gilt:
P( X > t ) = 0,1 ⇔ 1 − F (t ) = 0,1 ⇔ e − t / 2 = 0,1 ⇔ t = −2 ln(0,1) = 4,6 . In 10%
aller Fälle wird eine Abbauzeit von 4,6 h überschritten.
Aufgabe 2.19
Aufgabe 2.20
X*=(X+3)/2.
Aufgabe 2.21
Die Verteilungsfunktion ist symmetrisch, d.h. es genügt, alle Werte für x≥0 zu
tabellieren. Alle Werte > 3,09 liegen außerhalb des 3-σ-Bereiches.
Φ(4) ≈1, Φ(-4)=1-Φ(4)≈0.
Aufgabe 2.22
a) 3-σ-Bereich: 3400 ± 3⋅470 g = [1990 g , 4810 g]. Außerhalb dieses Intervalls
liegen (100 - 99,7)% = 0,3 % aller Geburtsgewichte.
- 104 –
Stochastik
b) P(2500 ≤ X ≤ 4000) = F(4000)-F(2500) =
2500 − 3400
 900 
 600 
 4000 − 3400 
) = Φ
Φ
 = Φ (1,277) − Φ (−1,915).
 − Φ −
 − Φ(
470
470
 470 
 470 


Aus Tabelle A1 im Anhang A entnehmen wir:
Φ(1,277)=0,898 und Φ(-1,915)=1-Φ(1,915)=1- 0,9723=0,0277.
Damit erhalten wir das Ergebnis: P(2500 ≤ X ≤ 4000) = 0,898 – 0,0277 = 0,8703.
c) c ist die Lösung der Gleichung P(3400 –c ≤ X ≤ 3400 +c)=0,9. Es gilt:
P(3400 –c ≤ X ≤ 3400 +c) =0,9 ⇔ F(3400+c)-F(3400-c)=0,9
⇔ Φ(c/470) - Φ(c/470) = 0,9 ⇔ 2Φ(c/470)-1=0,9 ⇔ Φ(c/470) = 0,95
⇔ c/470 = u0,95 ⇔c = 470⋅ u0,95
Aus Tabelle A2 im Anhang entnehmen wir u0,95 = 1,645 und folglich ist
c = 470 ⋅ 1,645 = 773,15. D.h., im Intervall
[2626,85 g, 4173,15 g] liegen 90% aller Geburtsgewichte.
Aufgabe 2.23
Sei Y=(X-EX)2.
Y besitzt die gleiche Dichtefunktion wie X, denn es gilt:
∞
∫
Y=(x-EX) ⇔ X=x. Wir erhalten damit EY= ( x − EX ) 2 f ( x ) dx =Var(X).
2
−∞
Aufgabe 2.24
∞
∫
Var(X)= ( x − EX ) f ( x ) dx =
2
∫x
∫x
−∞
−∞
∞
=
∞
2
2
f ( x)dx + ( EX )
2
∞
∞
−∞
−∞
∫ f ( x)dx − 2 EX ∫ xf ( x)dx
f ( x)dx + ( EX ) 2 − 2( EX ) 2 = E ( X 2 ) − ( EX ) 2 .
−∞
Aufgabe 2.25
Sei X die Anzahl der richtig geratenen Aufgaben (von 12). X ist
binomialverteilt: X ~ B(n=12, p=1/4). Demzufolge ist gemäß Tabelle 1:
EX = np = 12/4 = 3.
Aufgabe 2.26
Sei X der zufällige an einem Tag erzielte Gewinn des Eisverkäufers. Dann ist
gemäß Definition des Erwartungswertes für diskrete Zufallsgrößen
EX = (0,5⋅200 + 0,3⋅100 – 0,2⋅70) Euro = 116 Euro.
Lösungshinweise zu den Aufgaben
- 105 -
Aufgabe 2.27
b
∞
b
1
1  x2 
b 2 − a 2 (b − a )(b + a ) a + b
EX = ∫ xf ( x)dx =
xdx
=
=
=
=
.
 
2(b − a )
2
b − a ∫a
b − a  2  a 2(b − a )
−∞
∞
Var ( X ) = ∫ ( x − EX ) 2 f ( x)dx =
−∞
b
1
( x 2 − 2 xEX + ( EX ) 2 )dx
∫
b−a a
b
(b − a ) 2
1  x3
2
2
=
−
+
=
(
)
x
EX
x
EX


12
b−a  3
a
Aufgabe 2.28
a) Wir wenden die Tschebyscheff-Ungleichung für ε=c an und unterstellen,
dass X eine stetige Zufallsgröße ist. Dann gilt:
P (| X − 10 |≤ c) = P (| X − 10 |< c) ≥ 1 −
4
.
c2
Wir bestimmen jetzt das gesuchte c als kleinste Lösung der Ungleichung
1−
4
≥ 0,95. Es ist c = 8,94.
c2
b) Unter Annahme der Normalverteilung gilt:
P (| X − 10 |≤ c) = P (10 − c ≤ X ≤ 10 + c) = F (10 + c) − F (10 − c)
= Φ ( c / 2) − Φ ( − c / 2) = 2Φ ( c / 2) − 1.
Wir lösen die Gleichung 2Φ (c / 2) − 1 = 0,95 nach c auf und erhalten
c = 1,96⋅2 = 3,92.
Aufgabe 3.1
a) EY=2E(X1)+3E(X2)=40. Var(Y)=4var(X1)+9Var(X2)=40.
b) Wir lösen das Gleichungssystem E(aX1+b)=EX2, Var(aX1+b)=Var(X2)
nach a und b. Das Gleichungssystem ist aufgrund der Eigenschaften von
Erwartungswert und Varianz äquivalent zu aE(X1)+b = a⋅5+b=10 ,
a2Var(X1)=a2⋅1=4. Daraus ergibt sich a=2, b=0 oder a=-2, b=20.
Aufgabe 3.2
a) Folgt aus den Linearitätseigenschaften des Erwartungswertes und der
Varianz.
b) a=
Var ( X ) , b= EX.
- 106 –
Stochastik
Aufgabe 3.3
Sei X = X1 + X2 + X3 die zufällige Gesamtübertragungszeit. Aus den
Eigenschaften von Erwartungswert und Varianz und aus dem
Reproduktionssatz folgt dann:
X=EX1+EX2+EX3=200, Var(X) = Var(X1)+ Var(X2)+ Var(X3) = 38 ms2
und X~N(200ms, 38 ms2 ). Für die gesuchte Wahrscheinlichkeit erhalten wir
somit :
 190 − 200 
 210 − 200 

 − Φ
P(190 ≤ X ≤ 210) = F (210) − F (190) = Φ
38 
38 


 10 
 − 1 = 2 ⋅Φ(1,62) - 1 = 2⋅ 0,9474 – 1 = 0,8948.
= 2 ⋅ Φ
 38 
Aufgabe 3.4
Sei X die Anzahl der Sechsen beim 600maligen Würfeln. Dann ist
X~B(n=600,p=1/6). Gemäß Grenzwertsatz von Moivre und Laplace ist X
dann auch näherungsweise normalverteilt: X~N(np, np(1-p)) = N(100, 500/6).
Für die gesuchte Wahrscheinlichkeit erhalten wir somit:
 90 − 100 
 110 − 100 

 − Φ
P(90 ≤ X ≤ 110) = F (110) − F (90) = Φ
 500 / 6 
 500 / 6 
 10 
 − 1 = 2 ⋅Φ(1,095)-1 = 2⋅ 0,864 – 1 = 0,728.
= 2 ⋅ Φ
 500 / 6 
Aufgabe 3.5
Sei X die Anzahl der infizierten Personen (unter 240), die sterben. Dann gilt:
X~B(n=240, p=0,8). Gemäß dem Satz von Moivre und Laplace ist X
näherungsweise auch normalverteilt: X ~N(np, np(1-p)) = N(192, 38,4). Für
die gesuchte Wahrscheinlichkeit erhalten wir somit :
 180 − 192 
 =1-Φ(-1,936) = Φ(1,936) = 0,9735.
P ( X > 180) = 1 − F (180) = 1 − Φ

 38,4 
Aufgabe 3.6
FG
3
7
35
α
0,025
0,95
0,9
xα
0,216
14,07
46,06
Lösungshinweise zu den Aufgaben
- 107 -
Aufgabe 4.1
Je größer n, desto kleiner die Varianz der relativen Häufigkeit, desto spitzer
die Dichtefunktion, desto kleiner (genauer) der 3-σ-Bereich um P(A) herum,
in welchem hn(A) mit 99,8%iger Wahrscheinlichkeit liegt. D.h., mit größer
werdendem n wird P(A) immer genauer durch hn(A) geschätzt.
Aufgabe 4.2
Wir wenden die üblichen Methoden der Analysis an. Wir berechne die 1.
Ableitung von f(p) und setzen sie gleich 0. Es ist f’(p)=1-2p =0 für p=1/2.
Folglich ist p=1/2 ein extremwertverdächtiger Punkt. Wir berechnen nun die
2. Ableitung von f(p). Es ist f’’(p)=-2<0. Folglich ist p=1/2 ein Maximum. Es
ist f(1/2)=1/2(1-1/2)=1/4.
Aufgabe 4.3
a) Gegeben sind α=0,99 und ε=0,01. Gemäß Formel (5) ist dann n wie folgt zu
wählen:
2
 1+ α 
 u 
 
(u (0,995) 2 (2,576) 2
 2 

=
=
= 16589,44 . D.h., der Text muss
n≥
0,0004
0,0004
4ε 2
aus mindestens n=16590 Buchstaben bestehen.
b) ε muss die Gleichung P(| hn (" E" ) − P(" E" ) |≤ ε ) ≥ 0,95 erfüllen. Wir können die Wahrscheinlichkeit
P(| hn (" E" ) − P(" E" ) |≤ ε ) nicht direkt berech-
nen, sondern nur nach unten abschätzen. Gemäß Formel (1) gilt:
P(| hn (" E" ) − P(" E" ) |≤ ε ) ≥ 2Φ (2ε n ) − 1 .
Um das gewünschte ε zu erhalten, lösen wir nun die Gleichung
2Φ (2ε / n ) − 1 ≥ α nach ε auf. Wir erhalten gemäß Formel (2):
2Φ (2ε n ) − 1 ≥ α ⇔ Φ(2ε n ) ≥ (1 + α ) / 2 ⇔ ε ≥
u (1+2α )
2 n
.
- 108 –
Stochastik
Für α=0,95 lesen wir u((1+α)/2)=u(0,975)=1,96 aus Tabelle A2 im Anhang A
ab und erhalten als kleinstes ε:
ε =1,96/(2 500 )=0,0438.
D.h., die unbekannte Wahrscheinlichkeit P(„E“) liegt mit mindestens 95 %iger
Sicherheit im Intervall [0,2562, 0,3438].
c) Gemäß Formel (1) gilt:
P(| hn (" E" ) − P(" E" ) |≤ 0,01) ≥ 2Φ(2 ⋅ 0,01 10000 ) − 1
= 2Φ(2) -1 = 2⋅ 0,9772 – 1 = 0,9544
(D.h., erhöhen wir den Stichprobenumfang n von n=500 (b)) auf n=10000 (c)),
so erhöht sich die Genauigkeit von 0,0438 auf ε=0,01.)
d) hn(„E“) ist näherungsweise normalverteilt mit den Parametern µ=P(„E“)
2
und σ = P(„E“)(1-P(„E“))/n. Unter der Annahme P(„E“)=0,27 gilt also:
2
hn(„E“) ~ N(0,27, (0,031) ). Für die gesuchte Wahrscheinlichkeit erhalten wir
dann:
P(|hn(„E“) – 0,27| > 0,08) = 1- (F(0,27+0,08)-F(0,27-0,08))
= 1- (Φ(0,08/0,031) - Φ(-0,08/0,031))
= 2(1- Φ(0,08/0,031)) = 2(1 - Φ(2,58)) = 2(1 – 0,9951) = 0,0098
Diese Wahrscheinlichkeit ist sehr gering. D.h., da der Student eine Differenz
> 0,8 beobachtet hat, die unter der Annahme P(„E“)=0,27 sehr gering
wahrscheinlich ist, ist seine Schlussfolgerung, dass die Angabe P(„E“)=0,27
falsch ist, durchaus gerechtfertigt.
Aufgabe 4.4
Wir erhalten für Erwartungswert und Varianz einer stetigen auf [a,b]
gleichverteilten Zufallsgröße EX=
a+b
(b − a) 2
(siehe Tabelle
und Var(X)=
2
12
1). Wir lösen die beiden Gleichungen nach a und b auf. Aus der 1. Gleichung
erhalten wir a=2⋅EX-b. Nach Einsetzen von a in die 2. Gleichung ergibt sich:
1
Var ( X )= (b − EX ) 2
3
bzw.
3Var ( X ) = b − EX .
Stellen wir diesen Ausdruck nach b um, so erhalten wir den gesuchten
funktionalen Zusammenhang b=EX+ 3Var ( X ) . Setzen wir b nun wieder in
die Beziehung a=2⋅EX-b ein, so ergibt sich für a die Beziehung
a=EX - 3Var ( X ) .
Lösungshinweise zu den Aufgaben
- 109 -
Aufgabe 4.5
In Anwendung von Formel (6) und (8) auf die gegebenen Beobachtungen
10
erhalten wir
∑x
i =1
i
= 42,2 ,
10
∑ (x
i =1
2
i
) = 184,86 und damit x = 4,24, s 2 = 0,5649.
und s ≈ 0,752. Daraus ergibt sich gemäß Momentenschätzungen (Tabelle 2):
aˆ = x − 3 ⋅ s = 2,9375 und bˆ = x + 3 ⋅ s = 5,5425.
Aufgabe 4.6
In Anwendung von Formel (6) auf die gegebenen Beobachtungen erhalten
wir x = 15,5. Daraus ergibt sich gemäß Momentenschätzungen (Tabelle 2):
λɵ = x = 15,5. λ ist die durchschnittliche Anzahl eintreffender Nachrichten pro
ms.
Aufgabe 4.7
Klasseneinteilung: Klassenzahl: k= 80 =8,7 -> k=9
Klassenbreite: xmin=1,5 xmax=5,4 B=( 5,4-1,5)/9=0,433
-> B=0,44 (wir runden B auf die Genauigkeit 0,01 auf !)
Häufigkeitsverteilung:
i
Ki
Hn(Ki)
1
[1,50, 1,94)
4
2
[1,94, 2,38)
1
3
[2,38, 2,82)
5
4
[2,82, 3,26)
19
5
[3,26, 3,70)
22
6
[3,70, 4,14)
18
7
[4,14, 4,58)
8
8
[4,58, 5,02)
2
9
> 5,02
1
Die Hypothese lautet: Die Kommissionszeit ist normalverteilt.
Aufgabe 4.8
Die Lösung erfolgt analog zum Beispiel „Test auf Vorliegen einer diskreten
Gleichverteilung“ im Kapitel 4.3.2.
Aufgabe 4.9
Die Nullhypothese lautet: H0: X ist poissonverteilt .
Wir haben den Parameter λ der Poissonverteilung zu schätzen, es ist somit
m=1. Wir erhalten λɵ = x =2,8. Mit Hilfe der Wahrscheinlichkeitsverteilung
- 110 –
Stochastik
der Poissonverteilung lassen sich mit λɵ = x =2,8 die erwarteten absoluten
Häufigkeiten berechnen:
ne − λ λˆi
ˆ
H (i ) = nPo ( X = i ) =
, i=1,...,n
i!
E
n
Die Ergebnisse sind folgender Tabelle zusammengefasst :
Klasse i
Erwartete
Anzahl
Beobachtete ˆ
e − λ λˆi
Po ( X = i ) =
Häufigkeiten
i der
Häufigkeiten
i!
Aufträge
H nB ( i )
H nE (i ) == nPˆo ( X = i )
1
2
3
4
5
6
7
0
1
2
3
4
5
6 und mehr
∑
3
6
10
17
7
7
0
50
0,061
0,170
0,238
0,223
0,116
0,087
0,065
1,000
3,040
8,515
11,920
11,125
7,785
4,360
3,255
50,000
Tabelle: Häufigkeitstabelle der Aufträge
Da hier erwartete Häufigkeiten auftreten, die kleiner als 5 sind, werden
benachbarte Zeilen (1 und 2, 6 und 7) zusammengefasst und wir erhalten
folgende Häufigkeitstabelle:
Klasse
i
1
2
3
4
5
Anzahl i der
Aufträge
bis 1
2
3
4
5 und mehr
∑
Absolute
Häufigkeiten
beobachtet
9
10
17
7
7
50
erwartet
11.555
11,920
11,125
7,785
7,615
50,000
Tabelle: Häufigkeitstabelle der Aufträge mit zusammengefassten Klassen
Für die Teststatistik erhalten wir :
T=
(9 − 11,555) 2 (10 − 11,920) 2 (17 − 11,125) 2
+
+
+
11,555
11,920
11,125
+
(7 − 7,785) 2 (7 − 7,615) 2
+
= 4,106
7,785
7,615
Lösungshinweise zu den Aufgaben
- 111 -
Für den kritischen Wert ergibt sich aus der Tabelle A4 im Anhang für
α =0,01, k=5 und m=1:
χ k2− m−1 (1- α) = χ2 3 (0,99) = 11,345.
Da hier T < 11,345 gilt, kann man davon ausgehen, dass die Anzahl der
Aufträge pro Tag poissonverteilt mit dem Parameter λ=2,8 sind.
Aufgabe 4.10
Die Klassen-Häufigkeitstabelle der beobachteten Klassenhäufigkeiten haben
wir bereits als Lösung von Aufgabe 4.7 erhalten. Die Null-Hypothese lautet:
H0: Die Kommissionszeit ist normalverteilt.
Um den χ2-Test anzuwenden, sind die zwei Parameter der Normalverteilung
zu schätzen; wir erhalten x = 3,436 , s 2 = 0,502, s=0,709.
Die weitere Anwendung des χ2-Tests erfolgt wie in Kapitel 4.3.2 beschrieben
mit α=0,05, m=2, n=80, x = 3,436 und s=0,709 .
Die Nullhypothese wird angenommen.
Aufgabe 5.1
y=random(0,1); x=a1, falls y <p; x=a2, falls y ≥p.
Aufgabe 5.2
Simulation der Würfelergebnisse mit Hilfe der Tabelle A3 (Ablesen von links
nach rechts, von oben nach unten). Wir treffen folgende Zuordnung:
Wenn 0 ≤ x ≤ 0,33→ A, 0,33 < x ≤ 0,66 → O, 0,66< x ≤ 1,00→ T.
Simulationsergebnisse:
Simula- Folge von Würfelergebnissen
tionslauf
1
TAOATAOOTTATTTTAOAAATOOOTO
2
OOAOATAOAATTTOT
3
AOTAAOOOATOAAOAAOTO
4
AOOTTTOOOOOAOAOOOAA-
Spieldauer
Gewinner
26
15
19
42
A
B
A
B
4
A
TTTATTAAAOAOAAOOOOTATOT
5
OOTO
- 112 –
Stochastik
a) Als Schätzwert für die Gewinnwahrscheinlichkeit wird die relative
Gewinnhäufigkeit von A verwendet:
(Anzahl der Gewinne von A) / ( Anzahl der Spiele)=3/5=0,6 .
A hat eine 60 %ige Gewinnwahrscheinlichkeit.
5
∑ Anzahl der Würfe in Spiel i
b) Mittlere Spieldauer =
=
i =1
5
26 + 15 + 19 + 42 + 4
= 106 / 5 = 21, 2 .
5
Im Mittel sind 21,2 Würfe pro Spiel nötig.
Aufgabe 5.3
y
P(Y≤y)= 1 ⋅ du = [u ]0 = y
∫
y
0
Aufgabe 5.4
1. y sei eine auf [0,1] gleichverteilte Zufallszahl, z. B. mittels
random(0,1) erzeugt.
2. x = a + b⋅y
Aufgabe 5.5
x
Es gilt mit F ( x ) =
∫ f (u)du :
−∞
3
3

−0.5 ≤ x ≤ 0.5
 4 x + 8 für
F ( x) = 
 und
1
1
 x+
für
. 
0.5 ≤ x ≤ 10
2
2

für
x < −0.5
0
F ( x) = 

für
x > 100
. 
1
Lösungshinweise zu den Aufgaben
- 113 -
Demzufolge lautet der Algorithmus zur Erzeugung einer gemäß dieser
Verteilung verteilten Zufallszahl:
4
1

x= y−
3
2
 x = 2 y − 1
F(x)=y ⇔ 
falls
falls

0 ≤ y ≤ 6 / 8
,
6 / 8 ≤ y ≤ 1 
wobei y eine in [0,1] gleichverteilte Zufallszahl ist.
Aufgabe 5.6
a)
1. y1 und y2 sind zwei Zufallszahlen aus Tabelle A3 im Anhang A, z.B. die
ersten beiden in der 1. Zeile von A3: y1=0,94737 und y2=0,08225.
2.
z1 = − 2 ln( y1) cos(2πy 2) , z 2 = − 2 ln( y1) sin(2πy 2) sind zwei
standardnormalverteilte Zufallszahlen.
3. X1=z1+4 und x2=z2+4 sind zwei N(4,1)-verteilte Zufallszahlen.
Das Vorgehen wird 15mal wiederholt.
b) Die Aufstellung des Histogramms erfolgt analog zum Beispiel im Kapitel
4.3.1.
Glossar
- 115 -
Glossar
χ2 - Verteilung
Seien
X1 , … , Xn
n
stochastisch
unabhängige
standardnormalverteilte
Zufallsgrößen. Dann besitzt die Quadratsumme
n
X=
∑(X
i =1
i
)2
eine χ2-Verteilung mit n Freiheitsgraden. Bezeichnung: X ~ χ n2 .
Die χ2-Verteilung hängt von einem Parameter, dem sogenannten Freiheits2
abgekürzt bezeichnet. Der FG ist eine natürgrad (FG), ab und wird mit χ FG
liche Zahl und bestimmt die Form der Dichtefunktion. Die Dichtefunktion ist
2
nicht symmetrisch. Ist X ∼ χ FG
, so gilt EX = FG und Var (X) = 2 FG. Die χ2Verteilung wird für den χ2 - Anpassungstest benötigt.
χ2 - Anpassungstest
Der χ2-Anpassungstest ist ein Testverfahren zum Prüfen der Adäquatheit einer
Verteilungsfunktion F0 für X. Die Nullhypothese lautet:
H0: X besitzt die Wahrscheinlichkeitsverteilung Po bzw.
H0: X besitzt die Verteilungsfunktion F0 .
F0 muss dabei nicht vollständig bekannt sein; sie kann noch m unbekannte
Parameter θ 1 , … , θ m enthalten.
Die Teststatistik T des χ2-Anpassungstest basiert auf der Differenz zwischen
den beobachteten und erwarteten Häufigkeiten H nB (ai ) und H nE (ai ) bzw.
Klassenhäufigkeiten HnB ( Ki ) und HnE ( Ki ) :
k
T =∑
i =1
k
T=
( H nE (ai ) − H nB (ai )) 2
für diskrete Zufallsgrößen
H nE (ai )
∑ (H
i= 1
E
B
2
n ( Ki ) − Hn ( Ki ))
E
Hn ( Ki )
für stetige Zufallsgrößen.
T besitzt eine χ2-Verteilung mit k-m-1 Freiheitsgraden, wobei k die Anzal der
möglichen Werte für X bzw. die Klassenzahl der Häufigkeitsverteilung von
X und m die Anzahl der zu schätzenden Parameter von Po bzw. F0 sind. Die
Teststatistik T wird mit dem ( 1− α )-Quantil der χ2-Verteilung als dem
- 116 –
Stochastik
kritischen Wert verglichen: ε =χ2k-m-1(1-α). Ist T< ε , so wird die Entscheidung für
H0 getroffen, andernfalls wird H0 abgelehnt. Der χ2-Test ist ein α-Test.
Arithmetisches Mittel, Streuung
Das arithmetische Mittel x ist eine Punktschätzung für den Erwartungswert
EX und die Streuung s2 ist eine Punktschätzung für die Varianz Var(X) einer
Zufallsgröße X .
Aufgrund der Definition von EX und Var(X) sind folgende Schätzwerte
plausibel:
x=
s2 =
1 n
∑x ,
n i =1 i
1 n
∑ ( x − x )2
n − 1 i=1 i
Beide Schätzfunktionen sind erwartungstreue und konsistente Schätzfunktionen für EX bzw. Var(X), siehe Punktschätzungen.
Bayes’sche Formel, Formel der totalen Wahrscheinlichkeit
Sind A1, A2,..., An ein vollständiges System von Ereignissen und B ein
weiteres Ereignis, so gilt die Bayes’sche Formel:
P ( A j | B) =
P ( A j ∩ B)
P( B )
=
P( A j ) P( B / A j )
n
.
∑ P ( A ) P( B / A )
i =1
i
i
n
Die Beziehung P ( B ) = ∑ P ( Ai ) P( B / Ai ) wird als Formel der Totalen Wahri =1
scheinlichkeit bezeichnet.
Bedingte Wahrscheinlichkeit
Die Information über das Eintreten eines Ereignisses B kann die Chancen für
das Eintreten von A verändern. Die Bewertung dieser Chance erfolgt über die
bedingte Wahrscheinlichkeit von A unter der Bedingung B:
P( A / B) =
P( A ∩ B)
(Hier ist P(B)≠0 vorausgesetzt).
P( B )
Glossar
- 117 -
Binomialverteilung
Eine diskrete Zufallsgröße X mit dem Wertebereich {0,1,...,n} heißt
binomialverteilt mit den Parametern n und p, falls sie folgende Wahrscheinlichkeitsverteilung besitzt:
 n
p i = P( X = i) =   p i (1 − p ) n −i ,
i
i=0,1,...,n.
Bezeichnung X~B(n,p), EX=np, Var(X)=np(1-p).
Aus dem Zentralen Grenzwertsatz folgt, dass man eine B(n,p)-Verteilung für
große n und kleine p durch eine Normalverteilung N(np,np(1-p)) annähern
kann.
Diskrete Zufallsgrößen
Die Verteilung einer diskreten Zufallsgröße kann als Tabelle angegeben
werden:
Wert ai
a1 a2 … ak
P(X=ai)
p1 p2 … pk
Die Summe der Einzelwahrscheinlichkeiten pi muss 1 ergeben.
Die Zahl
k
EX = ∑ ai pi
i =1
heißt Erwartungswert von X.
k
Var ( X ) = ∑ (ai − EX ) 2 pi
i =1
heißt Varianz von X. σ = Var ( X ) bezeichnet man als Standardabweichung.
Exponentialverteilung mit dem Parameter λ
Eine exponentialverteilte Zufallsgröße nimmt Werte im Intervall [0,∞) an. Die
Dichte einer Exponentialverteilung mit dem Parameter λ>0 hat die Gestalt:
λe − λx
f ( x) = 
0
für x ≥ 0
für x < 0
Bezeichnung: X~E(λ). EX=1/λ, Var(X)=1/λ2.
Fehler 1. Art, Fehler 2. Art
Da die Entscheidung in einem Hypothesentest auf einer Stichprobe beruht,
können Fehlentscheidungen vorkommen, die als Fehler 1. und 2. Art
- 118 –
Stochastik
bezeichnet werden. Man begeht einen Fehler 1. Art, wenn man sich für H1
entscheidet, obwohl H0 richtig ist. Entscheidet man sich für H0, obwohl H1
richtig ist, handelt es sich um den Fehler 2. Art.
Entscheidung für H0
Entscheidung für H1
H0 richtig
kein Fehler
Fehler 1.Art
H1 richtig
Fehler 2.Art
kein Fehler
Die Güte eines Testverfahrens wird durch die Wahrscheinlichkeiten für das
Auftreten eines Fehlers 1. Art und 2. Art beschrieben:
P(Entscheidung für H0 | H1 ist richtig )
und
P(Entscheidung für H1 | H0 ist richtig ).
Gleichverteilung auf [a,b]
Eine stetige Zufallsgröße X heißt gleichverteilt auf [a,b], wenn ihre Dichte die
Gestalt besitzt:
 1

f ( x) =  b − a

0
a≤ x≤b
für
sonst
Wir schreiben: X~R([a,b]). EX =
a+b
(b − a) 2
.
, Var(X)=
2
12
Histogramm
Ein Histogramm veranschaulicht eine Häufigkeitsverteilung von Beobachtungen x1 , … , xn einer stetigen Zufallsgröße, der eine Klasseneinteilung
zugrunde liegt.
Hypothesentest
Ein Hypothesentest liegt vor, wenn man aufgrund einer beobachteten Stichprobe über einen Parameter θ oder eine Verteilungsfunktion F entscheiden
soll. Die Entscheidungsmöglichkeiten werden als Hypothesen formuliert.
Man unterscheidet zwischen der Nullhypothese H0 und der Alternative H1.
Typische Hypothesentestprobleme betreffen a) die Entscheidung darüber, ob
eine Zufallsgröße X die Verteilungsfunktion F=F0 besitzt, bzw. b)-c) die Entscheidung über den Wert θ 0 eines unbekannten Parameters θ der Verteilungsfunktion von X :
a) H0: F=F0
b) H0: θ = θ 0
gegen
gegen
H1: F≠F0
H1: θ ≠ θ 0
Glossar
- 119 -
c) H0: θ < θ 0
d) H0: θ > θ 0
gegen
gegen
H1: θ ≥ θ 0
H1: θ ≤ θ 0
a) und b) werden als zweiseitige Probleme und c) und d) als einseitige
Probleme bezeichnet. In der mathematischen Statistik werden Testverfahren
zur Verfügung gestellt, mit denen man zwischen den beiden jeweiligen
Hypothesen mit möglichst geringen Fehlerwahrscheinlichkeiten für den
Fehler 1.Art und den Fehler 2.Art entscheiden kann.
Inverse Transformationsmethode
Die inverse Transformationsmethode wird benutzt, um Zufallszahlen
x1 , … , xn zu erzeugen, die sich so verhalten, als wären es Beobachtungen
einer Zufallsgröße X mit der Verteilungsfunktion F.
Dabei wird folgender Satz ausgenutzt: „Y ist gleichverteilt auf [0,1] genau
dann, wenn X=F-1(Y) die Verteilungsfunktion F besitzt“.
In der inversen Transformationsmethode werden 2 Schritte durchgeführt:
1. Erzeugung einer auf [0,1] gleichverteilten Pseudo-Zufallszahl y.
2. Auflösung der Gleichung: y=F(x) nach x.
Normalverteilte Zufallszahlen werden nach der Methode von Box und Müller
erzeugt.
Klassische Wahrscheinlichkeit, Laplace-Versuche
Als klassische Wahrscheinlichkeit bezeichnet man die Wahrscheinlichkeit
von Ereignissen in Laplace-Versuchen. Bei einem Laplace-Versuch ist die
Menge Ω aller möglichen Versuchsergebnisse endlich und alle Ergebnisse
sind gleichwahrscheinlich. Die Wahrscheinlichkeit für ein Ereignis A ist
dann P(A) = |A|/|Ω|, wobei |A| bzw. |Ω| die Anzahl der in A bzw. Ω
enthaltenen Versuchsergebnisse ist.
Konfidenzintervall, Genauigkeit, Sicherheit, Irrtumswahrscheinlichkeit
Um die Güte eines Schätzverfahrens θɵ =S( X1 , … , Xn ) für endliches n zu
beurteilen, betrachtet man die Abweichung
θɵ − θ < ε
- 120 –
Stochastik
Die positive Zahl ε gibt die Genauigkeit des Schätzwertes θɵ an. Da θɵ eine
Zufallsgröße ist, kann man diese Genauigkeit nur mit einer gewissen Sicherheit (Überdeckungswahrscheinlichkeit) erhalten; diese Sicherheit ist gleich
P( θɵ − θ < ε )
Das Intervall [θɵ − ε , θɵ + ε ] um θɵ mit der Genauigkeit ε , für welches die
Genauigkeit mit einer Sicherheit 1− α eingehalten wird, d.h., für welches gilt
P(θ ∈ [θˆ − ε ,θˆ + ε ]) = P( θˆ − θ < ε ) = α ,
wird als Konfidenzintervall (Bereichsschätzung für θ zum Niveau α
bezeichnet.
α
heißt
Sicherheitswahrscheinlichkeit
und
(1- α )
ɵ
ɵ
Irrtumswahrscheinlichkeit der Bereichsschätzung [θ − ε , θ + ε ]
Maximum-Likelihood-Methode
Die Maximum-Likelihood-Methode ist eine Methode zur Schätzung eines
unbekannten Parameters θ einer Verteilungsfunktion F einer Zufallsgröße
X . Sie liefert als Schätzung den Wert, für den die vorliegenden Beobachtungen x1 , … , xn am wahrscheinlichsten sind. Sei f(x/ θ ) die Dichtefunktion
von X unter der Annahme, daß der unbekannte Parameter θ ist. Die Maximum-Likelihood-Schätzung ergibt sich als Lösung des Extremwertproblems:
n
θɵ = max ∏ f ( xi / θ ) .
θ∈ℜ
i= 1
Methode von Box und Müller zur Erzeugung normalverteilter
Zufallszahlen
N(µ, σ2)-verteilte Zufallszahlen werden nach dieser Methode wie folgt
erzeugt:
4. Man erzeugt zwei auf [0,1] gleichverteilte Zufallszahlen y1, y2.
5. Zwei standard-normalverteilte Zufallszahlen ergeben sich aus:
x1 = − 2 ln( y1 ) cos(2πy 2 ) und
3)
x2 = − 2 ln( y1 ) sin(2πy 2 )
Zwei N(µ, σ )-verteilte Zufallszahlen ergeben sich gemäß:
z1 = σ ⋅ x1 + µ und z 2 = σ ⋅ x2 + µ
2
Nicht normalverteilte Zufallszahlen
Transformationsmethode erzeugt.
werden
nach
der
inversen
Glossar
- 121 -
Momentenmethode
Die Momentenmethode ist eine Methode zur Schätzung eines unbekanten
Parameters θ einer Verteilungsfunktion F einer Zufallsgrößen X . Bei dieser
Methode wird θ als Funktion von EX und Var(X) (und evtl. weiteren
Größen), der sogenannten Momente, dargestellt:
θ =g(EX,Var(X)).
Die Momentenschätzung erhält man, indem man in dieser Funktion EX und
Var(X) durch ihre Schätzungen, d.h. das arithmetische Mittel und die
Streuung, ersetzt:
θɵ = g( x , s2 ) .
Multiplikationssatz
Für beliebige Ereignisse A und B mit P(B)>0 gilt:
P( A ∩ B) = P( A | B) ⋅ P( B)
Diese Formel lässt sich auf n Ereignisse A1, ..., An verallgemeinern. Es gilt:
P( A1 ∩ A2 ∩ ⋯ ∩ An )
= P ( A1 ) P( A2 | A1 ) P( A3 | A1 ∩ A2 ) ⋅ ⋯ ⋅ P( An | A1 ∩ ⋯ ∩ An −1 )
Normalverteilung
normalverteilung
mit
den
Parametern
µ und
σ2,
Standard-
Eine Zufallsgröße X heißt normalverteilt mit den Parametern µ und σ2 , falls
sie die Dichtefunktion:
f ( x) =
1
2πσ
e
−
( x−µ )2
2σ 2
, -∞ < x < ∞, µ∈R, σ>0.
besitzt. Wir schreiben: X~N(µ,σ2). EX = µ, Var(X)=σ2. Die Normalverteilung
mit µ=0 und σ2=1 heißt Standardnormalverteilung. Diese ist tabelliert.
Wahrscheinlichkeiten normalverteilter Zufallsgrößen führt man durch
Standardisierung
auf
Wahrscheinlichkeiten
standardnormalverteilter
Zufallsgrößen zurück. Diese liest man dann aus der Tabelle der
Verteilungsfunktion der Standardnormalverteilung ab. Die kσ-Bereiche
geben eine gute Orientierung, wo die Werte einer normalverteilten
Zufallsgröße liegen. Es gilt immer:
P(µ-σ<X<µ+σ) = 0,683, P(µ-2σ<X<µ+2σ) = 0,955, P(µ-3σ<X<µ+3σ) = 0,977.
Es ist höchst unwahrscheinlich, dass eine normalverteilte Zufallsgröße Werte
außerhalb des 3σ–Bereiches annimmt.
- 122 –
Stochastik
Poissonverteilung mit dem Parameter λ
Eine diskrete Zufallsgröße X mit dem Wertebereich {0,1,2...} heißt
poissonverteilt
mit
dem
Parameter
λ,
falls
sie
folgende
Wahrscheinlichkeitsverteilung besitzt:
pi = P ( X = i ) =
λi −λ
e ,
i!
i=0,1,2....
Bezeichnung X~P(λ), EX=λ, Var(X)=λ.
Pseudozufallszahlen, lineare Kongruenzmethode, Periode
Eine Folge von Pseudozufallszahlen ist eine deterministische (von einem
Algorithmus erzeugte) Folge von Zahlen, die sich so verhalten, als wären es
stochastisch unabhängige Beobachtungen einer Zufallsgröße mit einer
Verteilungsfunktion F.
Ein typischer Algorithmus für die Erzeugung von ganzzahligen Zufallszahlen
aus der Menge {0,1,...,m} ist die lineare Kongruenzmethode 1. Ordnung. Die
Zahlen werden nach der Vorschrift:
X i = (aX i −1 + b) mod m
erzeugt. Die so erzeugte Zahlenfolge wiederholt sich spätestens nach einer
Folge von m erzeugten Zahlen. Die Anzahl der Zahlen bis zur ersten Wiederholung einer Zahl heißt Periode p des Zufallszahlengenerators; es gilt immer
p≤m. Die Koeffizienten a,b, der Wert m und der Startwert x0 müssen so
gewählt werden, dass die Periode p möglichst groß ist. Auf dem Intervall
[0,1] stetig gleichverteilte Zufallszahlen erhält man durch yi = xi/(m-1). Aus yi
erhält man dann Zufallszahlen, die sich so verhalten, als wären es
Beobachtungen einer Zufallsgröße mit Verteilungsfunktion F , indem man die
inverse Transformationsmethode oder die Methode von Box und Müller anwendet.
Produktformel für unabhängige Ereignisse
Sind Ereignisse A1 , A2 , ⋯ , An stochastisch unabhängig, so folgt aus dem
Multiplikationssatz für jede beliebige Teilauswahl A1* , A2* , ⋯ , Ak *
Ereignissen aus diesen n die Produktformel:
P ( A1* ∩ A2* ∩ ⋯ ∩ Ak * ) = P( A1* ) P ( A2* ) ⋅ ⋯ ⋅ P( Ak * )
von k
Glossar
- 123 -
Punktschätzung, Erwartungstreue, Konsistenz
Als Punktschätzung für einen unbekannten Parameter θ einer Verteilungsfunktion F bezeichnet man eine Funktion, die jeder konkreten Stichprobe
( x1 , … , xn ) einen Wert θɵ als Schätzwert für θ zuordnet: S( x1 , … , xn )= θɵ . S
heißt (Punkt-)Schätzfunktion bzw. Punktschätzung und wird durch die
Zufallsgröße θɵ =S( X1 , … , Xn ) bezeichnet. Die Güte der Punktschätzung θɵ
wird durch ihren Erwartungswert E( θɵ )= θ und ihre Varianz Var( θɵ )
beschrieben.
Gilt E( θɵ )= θ , so nennt man θɵ erwartungstreu. D.h., im Mittel (bei häufiger
Anwendung) wird mit der Vorschrift S( X , … , X )= θɵ der unbekannte Para1
n
meter θ „getroffen“.
Gilt darüber hinaus, dass die quadratische Abweichung
2
Var( θɵ )=E( θ - θɵ )
für wachsenden Stichprobenumfang n gegen 0 konvergiert, so heißt die
Punktschätzfunktion θɵ konsistent für θ ( θɵ trifft θ mit wachsendem n
immer genauer).
Quantil
Sei X eine stetige Zufallsgröße mit der Dichte f(x) und der Verteilungsfunktion F(x). Die Zahl x α , für die gilt:
+∞
P(X< x α )=F( x α )=
∫ f ( x )dx = α
−∞
heißt unteres α -Quantil der Verteilungsfunktion F. Ist f(x) symmetrisch, so
gilt:
x α =-x(1- x α ).
Reproduktionseigenschaft von Verteilungen
Die Reproduktionseigenschaft besagt, dass der Verteilungstyp sich nicht
ändert, wenn zwei stochastisch unabhängige Zufallsgrößen, die den gleichen
Verteilungstyp besitzen, addiert werden. Die Reproduktionseigenschaft wird
in der Simulation häufig für normalverteilte und poissonverteilte Zufallsgrößen angewendet; die Summe S zweier poisson- bzw. normalverteilter
Zufallsgrößen X und Y ist wieder poisson- bzw. normalverteilt; der Erwartungswert bzw. die Varianz der Summe S ergibt sich aus der Summe der
Erwartungswerte bzw. der Varianzen von X und Y.
- 124 –
Stochastik
Signifikanzniveau, α -Test
Das Signifikanzniveau α für einen Hypothesentest ist eine vorgegebene obere
Schranke für die Wahrscheinlichkeit des Fehlers 1. Art. Häufig wählt man für
α die Werte 0,1, 0,05 oder 0,01. Ein Test heißt α - Test, falls der Fehler
1.Art= α ist.
Statistische Inferenz
Schluss von einer Stichprobe x1 , … , xn von X auf die Verteilungsfunktion F
bzw. auf Parameter θ von F.
Stetige Zufallsgröße
Die Verteilung einer stetigen Zufallsgröße X ist durch ihre Dichtefunktion f
bestimmt. Für Intervallwahrscheinlichkeiten gilt:
b
P(a < X ≤ b) = ∫ f ( x)dx für alle a,b∈R.
a
Für die Verteilungsfunktion F gilt
x
F ( x) = P( X ≤ x) =
∫ f (u )du
bzw. F’(x) = f(x).
−∞
Mit Hilfe der Verteilungsfunktion kann man Intervallwahrscheinlichkeiten
berechnen:
P(a < X ≤ b) = F (b) − F (a ) .
Die Zahl
∞
E ( X ) = ∫ xf ( x)dx
−∞
heißt Erwartungswert von X und die Zahl
Var ( X ) =
∞
∫ ( x − EX )
2
f ( x)dx
−∞
heißt Varianz von X. σ = Var ( X ) bezeichnet man als Standardabweichung.
Stichprobe, zufällige Stichprobe, mathematische und konkrete
Stichprobe
Als zufällige oder mathematische
Stichprobe einer Zufallsgröße X
bezeichnet man n unabhängige identisch wie X verteilte Zufallsgrößen
X1 , … , Xn . Das Tupel ( X1 , … , Xn ) wird als Folge wiederholter
Beobachtungsvorgänge von X aufgefasst, wobei die Beobachtungsvorgänge
unabhängig voneinander und unter identischen Versuchsbedingungen
durchgeführt werden. Die Zahl n wird als Stichprobenumfang bezeichnet. Im
Unterschied zur zufälligen Stichprobe bezeichnet man eine Folge von n
Glossar
- 125 -
konkreten Beobachtungswerten x1 , … , xn von X , die voneinander unabhängig und unter identischen Versuchsbedingungen erhoben wurden, als konkrete Stichprobe.
Stichprobenumfangsbestimmung
Bei Konfidenzintervallen besteht das Ziel im erreichen einer hohen Genauigkeit
(kleinem ε ) und einer hohen Sicherheit α . Das kann man immer mit
genügend großem Stichprobenumfang n erreichen. Dazu gibt man sich ein
gewünschtes ε und α vor und löst die Gleichung
P( θˆ − θ < ε ) = α
nach n auf. Je kleiner ε bzw. größer α , desto größer wird das erforderliche
n.
Bei Hypothesentests besteht das Ziel darin, zu vorgegebenem Fehler 1. Art
einen möglichst kleinen Fehler 2.Art zu einzuhalten. Auch das kann man
durch genügend großem Stichprobenumfang erreichen.
Testverfahren, Teststatistik, Kritischer Wert
Ein Testverfahren ist eine Vorschrift, die für jede mögliche Stichprobe
x1 , … , xn eindeutig festlegt, für welche der beiden Hypothesen Ho oder H1 in
einem Hypothesentest man sich entscheidet.
Ein typisches Entscheidungskriterium ist das folgende. Sei T( x1 , … , xn ) eine
auf den Beobachtungen basierende Größe, durch die plausibel die
Abweichung von der Nullhypothese Ho beschrieben wird. Ist
T < ε, so entscheidet man sich für Ho, ist T ≥ ε, so entscheidet man sich gegen
Ho. T wird als Teststatistik und ε als kritischer Wert bezeichnet.
Die statistische Testtheorie beschäftigt sich damit, Teststatistiken T und
kritische Werte ε so zu konstruieren, dass die bei einem Hypothesentest
auftretenden Wahrscheinlichkeiten für den Fehler 1. Art und den Fehler 2. Art
möglichst minimal sind.
Tschebyscheff-Ungleichung
Die Ungleichung
P(| X − EX |< ε ) ≥ 1 −
Var ( X )
ε2
- 126 –
Stochastik
wird als Tschebyscheff-Ungleichung bezeichnet. Kennt man nur den Erwartungswert und die Varianz einer Zufallsgröße X, aber nicht deren genaue
Verteilung, so kann man Wahrscheinlichkeiten von Abweichungen von X
vom Erwartungswert EX durch diese Ungleichung abschätzen.
Allerdings ist diese Abschätzung unter Umständen sehr grob und kann
wesentlich verbessert werden, wenn man die Verteilung von X kennt.
Wahrscheinlichkeitsverteilung
Die Wahrscheinlichkeit P(A) eines Ereignisses A ist ein Maß für den Grad der
Gewissheit über das Eintreten dieses Ereignisses. Dieses Maß muss folgende
Bedingungen erfüllen:
(P1) P(A) ≥ 0.
(P2) P(Ω) = 1.
(P3) P(A1 ∪ A2 ∪ … ) = P(A1) + P(A2) + …
falls die Ereignisse A1 ∪ A2 ∪ … paarweise disjunkt (unvereinbar)
sind.
Zentraler Grenzwertsatz, Satz von Moivre und Laplace
Der Zentrale Grenzwertsatz besagt, dass eine Summe hinreichend vieler
stochastisch unabhängiger Zufallsgrößen näherungsweise normalverteilt ist.
Als Spezialfall des Zentralen Grenzwertsatzes ergibt sich der Satz von Moivre
und Laplace, der besagt, dass eine Binomialverteilung B(n, p) für große n
und kleine p durch eine Normalverteilung N(np, np(1-p)) ersetzt werden
kann.
Stichwortverzeichnis
- 127 -
Stichwortverzeichnis
#
χ -Verteilung 50
2
χ2-Test
für diskrete Verteilungen 72
für stetige Verteilungen 76
A
Alternativhypothese 69
a-posteriori-Wahrscheinlichkeit 18
a-priori-Wahrscheinlichkeit 18
arithmetisches Mittel 60
B
Bayes'sche Formel 17
Bedingte Wahrscheinlichkeit 14, 30
Binomialverteilung 25
Borelmengen 8, 28
D
einer stetigen Zufallsgröße 41
Exponentialverteilung 34, 85, 117
F
Fehler 1. Art 70
Fehler 2. Art 70
Freiheitsgrade 50
F-Verteilung 50
G
Gleichverteilung 26
stetige 33
Grenzwertsatz von Moivre und
Laplace 48
Grundmenge (Ergebnismenge) eines
zufälligen Versuchs 5
H
Histogramm 64
de Morgansche Regeln 4
Dichtefunktion 28
Dreiecksverteilung 33, 85
I
E
Klassenhäufigkeiten
absolute 64
Klassische Wahrscheinlichkeit 11
Konfidenzintervall für eine
Wahrscheinlichkeit P(A) 54
Konsistenz 53
Kritischer Wert 70
Ereignisfeld 7
Ereignisse 5
Elementarereignisse 5
Komplementärereignis 6
sicheres Ereignis 6
stochastisch unabhängige 15
unmögliches Ereignis 6
zusammengesetzte Ereignisse 5
Ereignissystem
Vollständiges 8
Erwartungstreue 53
Erwartungswert 61
Eigenschaften 45
einer diskreten Zufallsgröße 40
Inverse Transformationsmethode 84
K
L
Laplace-Versuch 11
M
Maximum-Likelihood-Methode 62
Mengen 2
Mittel
arithmetisches 60
- 128 –
Stochastik
Momentenmethode 61
Multiplikationssatz(-formel) 14
N
Normalverteilung 35, 87
1-,2-,3-Sigma-Bereiche der
Normalverteilung 38
Standardnormalverteilung 36
Nullhypothese 69
P
Poissonverteilung 26
Potenzmenge 2
Produktformel für unabhängige
Ereignisse 15
Pseudozufallszahlen 81
Q
Quantil 30
R
relative Häufigkeit 8
Reproduktionssatz für Verteilungen
45
S
Satz
Reproduktionssatz 45
über die Eigenschaften von
Erwartungswert und Varianz 45
von Moivre und Laplace 48
Zentraler Grenzwertsatz 47
Satz von Bayes 17
Schätzfunktion 53
Schätzwert 53
Standardnormalverteilung 36, 87
Stichprobe
konkrete 53
mathematische 53
Streuung 60
T
Testgröße 70
Teststatistik 70
Totale Wahrscheinlichkeit 17
Formel der 17
Transformation
inverse 84
t-Verteilung 50
U
Unabhängigkeit von Ereignissen 15
Unabhängigkeit von Zufallsgrößen 44
Ungleichung von Tschebyscheff 42
V
Varianz 61
Eigenschaften 45
einer diskreten Zufallsgröße 40
einer stetigen Zufallsgröße 41
Venn-Diagramm 3
Verteilungen
diskret 82
stetige 84
Verteilungsfunktion 29
W
Wahrscheinlichkeit
Axiomatische Definition 9
bedingte 14, 30
Eigenschaften 10
klassische 11
Wahrscheinlichkeitsraum 1
Wahrscheinlichkeitsverteilung
einer diskreten Zufallsgröße 22
Z
Zentraler Grenzwertsatz für
Verteilungen 47
Zufälliger Versuch 5
Zufallsgrößen 20
diskret 22
stetige 27
Zufallszahlen 81
Zufallszahlengeneratoren 82
Zweipunktverteilung 25
Stichwortverzeichnis
- 129 -
Herunterladen