Inhaltsverzeichnis

Werbung
Inhaltsverzeichnis
9 Wahrscheinlichkeitstheorie
9.1 Empirische und mathematische Wahrscheinlichkeit – W-Maße . . . . . . . . .
9.1.1 Relative Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . .
9.1.2 Bedingte Wahrscheinlichkeit und Ereignisgraphen . . . . . . . . . . . .
9.1.3 Totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . .
9.1.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . .
9.2 Zufallsvariable und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.2 Histogramm und Verteilung einer Zufallsvariablen . . . . . . . . . . .
9.2.3 Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V und
Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . .
9.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
9.2.6 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen . . . .
9.3 Approximation mathematischer durch empirische Wahrscheinlichkeit . . . . .
9.3.1 Ungleichung von Tschebischeff und das Bernoulliexperiment . . . . . .
9.3.2 Gesetz der großen Zahlen, Zentraler Grenzwertsatz . . . . . . . . . . .
213
213
213
222
224
226
227
227
229
10 Statistik
10.1 Grundlagen und Kurzbeschreibung
10.1.1 Aufgaben der Statistik . . .
10.1.2 Hauptsatz der Statistik . .
10.2 Schätz- und Testverfahren . . . . .
10.2.1 Parameterschätzung . . . .
10.2.2 Intervallschätzung . . . . .
10.2.3 Statistische Testverfahren .
10.3 Kovarianz und lineare Regression .
267
267
267
269
270
270
275
283
289
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
239
245
246
248
256
256
262
212
Inhaltsverzeichnis
Kapitel 9
Wahrscheinlichkeitstheorie
9.1
9.1.1
Empirische und mathematische Wahrscheinlichkeit – WMaße
Relative Häufigkeit und Wahrscheinlichkeit
Zunächst beschreiben wir in Definition 2 relative Häufigkeit, auch empirische Wahrscheinlichkeit genannt. Im Zuge der Diskussion des Einführungsbeispiels Beispiel 1 werden jene
Annahmen angedeutet, welche zum Begriff Wahrscheinlichkeit führen, und danach die Begriffe endlicher Wahrscheinlichkeitsraum (Definition 4) und Laplace-Wahrscheinlichkeitsraum
(Definition 5) eingeführt. Schließlich folgt die axiomatische Beschreibung des Begriffes Wahrscheinlichkeitsraum in Definition 9.
Beispiel 1 In einer Versuchsreihe wurde die Häufigkeitsverteilung der Augenzahl x eines
Würfels bei mehrmaligem Werfen (x ∈ Ω := {1, 2, 3, 4, 5, 6}) ermittelt. Es wurden die Häufigkeiten für die Augenzahlen in eine Tabelle in Prozenten eingetragen:
Augenzahl
Prozentsatz
1
16.8%
2
17.3%
3
16.4%
4
16.7%
5
16.2%
6
16.6%
Fragen:
1. Wie oft wurde mindestens gewürfelt, wenn man annimmt, daß keine der Prozentzahlen
gerundet oder abgeschnitten wurde?
2. Kann die Tabelle stimmen?
3. Mit welcher Häufigkeit wurde eine gerade Augenzahl x geworfen?
4. . . . eine ungerade Augenzahl geworfen?
5. . . . eine ungerade Augenzahl oder 4 geworfen?
6. . . . weder eine 3, noch eine 4 aber eine 5 geworfen?
213
214
Wahrscheinlichkeitstheorie
7. Kann man eine Aussage über die Prozentsätze unter der Annahme, daß man mit n → ∞
geht, machen. Darf man erwarten, daß sie alle gegen 100
6 % streben?
Auch wenn im Beispiel ziemlich klar ist, was Häufigkeit in Prozenten“ bedeutet, bedarf
”
es einer formalen Definition.
Definition 2 Es sei Ω eine Menge, sowie A eine Teilmenge, n eine positive ganze Zahl. und
(ω1 , . . . , ωn ) eine n-stellige Folge von Elementen in Ω. Dann wird der Quotient
hn (A) :=
Anzahl der i mit ωi in A
n
als relative Häufigkeit bezeichnet.
Die relativen Häufigkeiten in Beispiel 1 sind demnach
A
hn (A)
{1}
0.168
{2}
0.173
{3}
0.164
{4}
0.167
{5}
0.162
{6}
0.166
weil man durch 100 dividieren muß. Bitte auch zu beachten, daß die Augenzahl jetzt als
einelementige Menge angeschrieben ist und daß wir n nicht kennen1 !
Geht man davon aus, daß weder Würfel noch Unterlage manipuliert“ sind, so kann man
”
beim einmaligen Werfen kaum eine Aussage über den Ausgang des Wurfes machen. Ein
weiterer Aspekt, der in den Fragen 3. 4. und 5. im Beispiel 1 auftritt, ist der, daß man sich
dafür interessiert, ob nach dem Wurf die Augenzahl x in einer Teilmenge A von Ω liegt.
Anmerkung 3 Die Auswahl eines Elements ω in einer Menge Ω bezeichnet man als
Experiment. Man bezeichnet es als zufällig, wenn man davon ausgeht, den Ausgang des
Experiments nicht grundsätzlich vorherbestimmen zu können.
Jede Teilmenge A von Ω nennt man zufälliges Ereignis.
In Beispiel 1 ist Ω = {1, 2, 3, 4, 5, 6}, jeder Wurf in diesem Sinne ein zufälliges Experiment
und das Ereignis die Augenzahl ist ungerade“ drückt sich durch das zufällige Experiment
”
”
zur Ermittlung von x ∈ Ω hat x ∈ A = {1, 3, 5} ergeben“ aus. In Beispiel 1 ist es klar, daß die
relative Häufigkeit dafür, daß x sich in A befindet, die Summe der relativen Häufigkeiten der
einelementigen Teilmengen ist, weil man ja einfach Prozente addiert“. Z.B. ist hn ({1, 3, 5}) =
”
16.8+16.4+16.2
= 0.168 + 0.164 + 0.162 = 0.494. Auf diese Art ist Frage 2 beantwortet und man
100
kann es mit Fragen 4–6 genauso machen – werden jedoch in Beispiel 7 etwas mehr Geschick
walten lassen.
1
Siehe jedoch Beispiel ?? und dort die Antwort auf Frage 1
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
215
Definition 4 Ein endlicher Wahrscheinlichkeitsraum (Ω, P ) besteht aus einer endlichen
Menge Ω, und, für jedes ω ∈ Ω, einem vorgegebenen Wert 0 ≤ f (ω) ≤ 1, derart, daß die
die Gesamtsumme fürP
alle ω dieser Werte genau 1 ergibt. Danach ist für jede Teilmenge A
von Ω durch P (A) := x∈A f (x) ihr Wahrscheinlichkeitsmaß, kurz W-Maß, gegeben.
In diesem Sinne ist Ω = {1, 2, 3, 4, 5, 6} mit f (i) := hn ({i}) aus der obigen Tabelle ein
endlicher Wahrscheinlichkeitsraum und die relative Häufigkeit hn (A) ist das W-Maß von A.
Definition 5 Ein endlicher Wahrscheinlichkeitsraum, in welchem P ({ω}) =
Elementarereignis ω ∈ Ω gilt, heißt Laplace-Wahrscheinlichkeitsraum.
Wir vermerken, daß dann stets P (A) = |A|
|Ω| .
1
|Ω|
für jedes
Beispiel 6 Es sei Ω = {1, 2, 3, 4, 5, 6}, wie in Beispiel 1. Danach legt man für jedes Elementarereignis Es wird durch Würfeln der Wert x ∈ {1, 2, 3, 4, 5, 6} ermittelt und er ist i“ mit
”
P ({i}) := 61 fest. Dann ist für jede Teilmenge A von Ω das W-Maß durch |A|
|6| gegeben.
Die Antwort auf Frage 7 wird durch den in Anmerkung 49, dem Satz von Gliwenko-Cantelli
gegeben werden. Dieser Satz ist eine wahrscheinlichkeitstheoretische Formulierung dafür, in
welchem Sinn bei oftmaligem Wiederholen des gleichen Experiments die empirische Wahrscheinlichkeit gegen die mathematische konvergiert. Das noch zu besprechende Bernoulliexperiment (Beispiel 46) und der zentrale Grenzwertsatz (Anmerkung 48) bilden die Grundlage
hiefür. Vom praktischen Standpunkt aus ergeben sich aus dem zitierten Satz statistische
Testverfahren in Beispiel 60 1, die bestenfalls einen Sicherheitsfaktor“ für das tatsächliche
”
Eintreten eines Ereignisses bestimmen. Die absolute Gewißheit ist jedenfalls auf wahrscheinlichkeitstheoretischem Weg nicht nachweisbar. Rechtfertigung (etwa zur Einführung eines
neuen Medikaments) kann bestenfalls durch (weitere) Testverfahren in W-theoretischem Sinn
untermauert bzw. widerlegt werden. Wenn es wissenschaftliche Methoden ermöglichen, sollten
statistische Ergebnisse ( eine signifikant große Zahl Patienten, die das Mittel A eingenom”
men haben, melden gewisse Nebenwirkungen“) entsprechende fachspezifische (analytische)
Untersuchungen (Medizin, Chemie, etc) nach ziehen.
In diesem Sinne sind die Ausführungen in Beispiel 6 eine mathematische Orientierungshilfe zur Beurteilung der Tabelle in Beispiel 1. Würde z.B. die relative Häufigkeit für
das Werfen einer 3“ stark von 16 abweichen, so könnte man das als Hinweis auf manipulierte
”
”
Würfel oder Unterlage“ auffassen – eine Entscheidung, die, soferne der Würfel einer technischen Untersuchung nicht zugänglich ist (oder die Untersuchung viel zu teuer ist) gelegentlich
mittels statistischer Testverfahren (Unterabschnitt 10.1.1) entschieden wird.
Bei der Beantwortung der Fragen 3–6 aus Beispiel 1 zeigt es sich, daß man vorteilhaft mittels Mengenoperationen, wie Durchschnitt, Vereiningung und Komplement Rechnen“ kann:
”
Beispiel 7 2. Die Prozentzahlen müssen zusammen 100% ergeben. Das tun sie. Wenn man
mit relativen Häufigkeiten rechnet, heißt es, daß sie, zusammengezählt, 1 ergeben.
3. Es sind die geraden Zahlen das Komplement der ungeraden Zahlen. Wir haben in der kleinen Rechnung vor Definition 4 hn ({1, 3, 5}) = 0.494 gefunden, also ergibt sich hn ({2, 4, 6} =
216
Wahrscheinlichkeitstheorie
1 − 0.494 = 0.506. Dabei hat man (implizit) die in endlichen W-Räumen (siehe Definition 4)
gültige Formel P (A0 ) = 1 − P (A) benützt.
5. Es ist {1, 3, 5, 4} disjunkte Vereinigung von {1, 3, 5} und {4}. Dann addieren sich die Prozentsätze und somit die relativen Häufigkeiten. Also hat man P ({1, 3, 5, 4}) = P ({1, 3, 5}) +
16.7
66.1
P ({4}) = 49.4
100 + 100 = 100 .
Hiebei benützt man (implizit) die in diskreten W-Räumen gültige Formel P (A ∪ B) =
P (A) + P (B), falls A ∩ B = ∅.
6. Man kann das de Morgansche Mengengesetz A0 ∩ B 0 = (A ∪ B)0 für die Mengen A := {3}
und B := {4} und {5} ∪ {3}0 ∩ {4}0 verwenden. Dann ist {5} ∪ ({3}0 ∩ {4}0 ) = {3, 4}0 , sodaß
sich P ({5} ∪ ({3}0 ∩ {4}0 )) = 1 − P ({3, 4}) = 1 − 0.164 − 0.167 = 0.669 ergibt. Zugegeben,
kaum ein Rechenvorteil!
Bisher hatten wir nur endliche W-Räume. Das nächste Beispiel soll motivieren helfen, auch
unendliche W-Räume zu formulieren.
Beispiel 8 Ein Sandkorn wirbelt, konvektionsbedingt, über einem quadratischen Mikrochip
und bleibt danach zufällig“ darauf liegen. Es soll im folgenden die Ausdehnung des Sandkorns
”
als vernachlässigbar angesehen werden, es somit als Punkt“ angesehen werden. Wir stellen
”
folgende Fragen, deren Präzisierung und Antwort in Beispiel 12 erfolgen soll.
1. Wie groß ist die Wahrscheinlichkeit dafür, daß das Sandkorn genau im Mittelpunkt des
Chips liegt?
2. . . . in einer der vier Ecken liegt?
3. . . . in einem fest vorgegebenen Teilquadrat mit halber Seitenlänge liegt?
4. . . . in einer Teilfläche, die wie folgt konstruiert wird liegt: Über dem unteren linken
Viertelquadrat wird ein Achtelquadrat, darüber ein Sechzehntelquadrat (jeweils Faktor
1
4 ) errichtet, usw.
Zur (Er)klärung mathematischer Begriffe. Sei Ω das Einheitsquadrat (man denke sich die
Längeneinheit entsprechend gewählt), so besteht jedes Elementarereignis darin, daß ein Punkt
X(x, y) aus Ω gewählt wird.
Es sei nun A eine Teilfläche2 von Ω und A(n) die Anzahl der Fälle, in denen bei n-maliger
Ausführung des Experiments das Korn in A zu liegen kommt.
Man erwartet nun, daß für eine Fläche A die relative Häufigkeit, die gemäß Definition 2
sich zu
A(n)
hn ({X(x, y) ∈ A}) =
n
ergibt, nahe am Flächeninhalt liegt (ähnlich wie man in Beispiel 6 die empirische W. approximativ gleich der mathematischen erhofft).
Somit erscheint es sinnvoll, hier die mathematische Wahrscheinlichkeit eines Ereignisses A
durch den Flächeninhalt zu definieren. Man setzt somit P (X(x, y) ∈ A) = P (A) :=Fläche
2
genauer, eine solche mit wohldefiniertem Flächeninhalt – d.h. Jordanmeßbar bzw. Lebesguemeßbar
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
217
von A und nennt P (A) (mathematische) Wahrscheinlichkeit für das Eintreten des Ereignisses
X(x, y) kommt zufällig in A zu liegen“.
”
Somit ergibt sich als Antwort zu Frage 1 und 2 jeweils der Wert Null. In Frage 3 bekommt
man 41 . In Frage 4 ergibt sich wegen der Disjunktheit der Quadrate unter Benützung der
Bezeichnung Q(a) für ein Quadrat der Seitenlänge a
P (A) =
∞
X
i=1
X
∞
1
1
1
=
= .
P Q
i
i
2
4
3
i=1
Um die Zufälligkeit“ von Ereignissen mathematisch zu behandeln, konstruiert man (ein men”
gentheoretisches Modell), d.i. einen Wahrscheinlichkeitsraum Ω, der alle Elementarereignisse
beschreibt, sowie ein Wahrscheinlichkeitsmaß P , das für eine brauchbar große Klasse Σ (sogenannter meßbarer Ereignisse) von aus (durchaus unendlich vielen) Elementarereignissen zusammengesetzten Ereignissen eine mathematische Wahrscheinlichkeit angibt. Bei oftmaliger
Wiederholung ein und des selben Experiments erwartet man eine Annäherung der relativen
Häufigkeit jedes meßbaren Ereignisses an die mathematische Wahrscheinlichkeit, wie wir bei
der Diskussion des Bernoulliexperiments in Beispiel 46 deutlich zu machen beabsichtigen.
Hier die Forderungen an so ein Tripel (Ω, Σ, P ):
Definition 9 Ein Wahrscheinlichkeitsraum (Ω, Σ, P ), kurz W-Raum besteht aus folgenden
Daten:
1. Einer Menge Ω der Elementarereignisse. Jede Teilmenge von Ω heißt Ereignis. Ein
zufälliger Versuch“ besteht in der Auswahl eines Elementes x ∈ Ω.
”
2. Einer Menge Σ von Teilmengen von Ω, genannt Menge der meßbaren Ereignisse. Jede
Menge A ∈ Σ steht für das Ereignis in zufälliger Weise wird ein x ∈ Ω bestimmt, und
”
dieses x liegt dann in A“. Die Menge Σ sei eine Σ-Algebra, d.h.:
(a) Ω gehört zu Σ.
(b) Wenn die Teilmenge A zu Σ gehört, so auch das Komplement A0 := Ω \ A (A0
heißt das zu A komplementäre Ereignis).
(c) Wenn A1 , A2 , . . . eine unendliche Folge von Elementen in Σ ist, so auch die abzählbare Vereinigung
∞
[
Ak = {x | ∃k mit x ∈ Ak }.
k=1
3. Einer Funktion P : Σ → [0, 1], welche die nachstehenden Eigenschaften erfüllt:
(a) Es ist P (Ω) = 1.
(b) Für jedes meßbare Ereignis A gilt P (A0 ) = 1 − P (A).
218
Wahrscheinlichkeitstheorie
(c) Falls A1 , A2 , . . . eine Folge meßbarer Ereignisse ist, und weiters je zwei Mengen
Ai , Aj disjunkt sind (d.h. Ai ∩ Aj = ∅), so gilt:
P(
∞
[
k=1
Ak ) =
∞
X
P (Ak ).
k=1
Man sagt, P ist sigmaadditiv.
Insbesondere (als Spezialfall) gilt für disjunkte Mengen A und B die Additivität,
d.h. P (A ∪ B) = P (A) + P (B).
Man nennt P auch (mathematische) Wahrscheinlichkeitsfunktion (P wie Probability“
”
bzw. Probabilität“) und P (A) die (mathematische)Wahrscheinlichkeit für das Eintre”
ten des Ereignisses A. Falls Σ = P(Ω) (es ist P(M ) stets die Potenzmenge im Sinne
von Definition ??) und es eine abzählbare Teilmenge A von Ω mit P (A) = 1 gibt, heißt
das Maß diskret.
S
Die Mengenoperationen ∪, ∞
k=1 , ∩ und Komplementbildung werden im Sinne von logischen
Operationen mit den Ereignissen beschreibenden Klausen interpretiert:
Anmerkung 10
1. das Ereignis A als x wird zufällig in Ω gezogen und befindet sich
”
in A“. Dann ist P (A) als Wahrscheinlichkeit für das Eintreffen des Ereignisses A
zu interpretieren.
2. A0 = {x ∈ Ω | x 6∈ A} als das Ereignis A tritt nicht ein“.
”
3. A ∩ B = {x ∈ Ω | (x ∈ A) ∧ (x ∈ B)}, somit als zufälliges Ereignis Es tritt sowohl
”
A als auch B ein“.
Ist A ∩ B = ∅, so sagt man Die Ereignisse A und B schließen einander aus.“ oder
”
auch daß sie unvereinbar“ sind.
”
4. A ∪ B = {x ∈ Ω | (x ∈ A) ∨ (x ∈ B)}, somit als zufälliges Ereignis Es tritt
”
wenigstens A oder B ein“.
S
5. ∞
k=1 Ak = {x ∈ Ω | ∃k x ∈ Ak } als ”Wenigstens eines der Ereignisse Ak tritt ein“.
Es kann folgendes gezeigt werden:
Anmerkung 11 In einem diskreten W-Raum mit der abzählbarenSTeilmenge A, welche
P (A) = 1 erfüllt, muß offenbar P (A0 ) P
= 0 sein. Da außerdem A = a∈A {a} eine abzählbare Partition von A ist, gilt P (A) = a∈A P ({a}). Deshalb darf man von A annehmen,
daß jeder Punkt a ∈ A positives Maß hat.
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
219
Ist (Ω, f, P ) ein diskreter Wahrscheinlichkeitsraum im Sinne Definition 4, und Σ die
Menge aller Teilmengen von Ω, so ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum im Sinne von
Definition 9.
Beispiel 12 Es sollen Antworten zu den in Beispiel 8 gestellten Fragen gegeben werden. Als
Ω wählt man das Einheitsquadrat also Q := {(x, y) ∈ R × R | 0 ≤ x, y ≤ 1}. Dieser Wahrscheinlichkeitsraum ist nicht endlich. Die Σ-Algebra Σ sollte aus berechenbaren Flächen“
”
bestehen. Die einfachsten solchen Flächen sind natürlich Rechtecke innerhalb von Q. Nun
wird im Rahmen der Maßtheorie (siehe z.B. [8]) gezeigt, daß diese Rechtecke durch iteriertes
Bilden von Komplement, abzählbaren Vereinigungen und endlich oftmaligem Schneiden auf
eine Σ-Algebra (nämlich der Menge der in Q enthaltenen Borelmengen) von Teilmengen des
Quadrats führen, die ausreichend groß ist, um dort unsere einfach gebildeten Mengen der
Aufgabe wiederzufinden.
Im Zuge der Aufgabe ist es wichtig zu wissen, daß unter den getroffenen Annahmen der
für solche Mengen definierte Flächeninhalt folgende Eigenschaften hat:
1. Punkte und, allgemeiner, abzählbare Mengen haben Maß Null.
2. Geradenstücke haben Maß Null.
3. Dreht oder verschiebt man A, und sind Anfangs- und Ausgangslage Flächen innerhalb
Q, so bleibt der Flächeninhalt erhalten.
4. Ist A eine Teilmenge von Q, deren charakteristische Funktion, definiert durch ξA (x, y) =
1 falls (x, y) ∈ A und Null andernfalls, (uneigentlich) Riemannintegrierbar ist (eine
solche Menge heißt Jordanmeßbar), so gehört A zu Σ.
Mit diesem Wissen ausgestattet, ist P ({( 21 , 12 )}) = 0 und das gilt auch für alle vier Eckpunkte,
z.B. P ({(0, 0)}) = 0. Nun zur Vereinigung der aufeinandergestellten Quadrate. Zunächst sollte
man prüfen, ob die gesamte Figur in Q Platz hat. Dazu darf die Summe aller Seitenlängen
1 1
1 1
+ + ... =
2 4
21−
1
2
=1
nicht größer als 1 sein, was offenkundig der Fall ist.
Nun kommt noch eine Spitzfindigkeit: Die Quadrate haben keinen paarweise leeren Schnitt,
sondern scheiden einander in einem Geradenstück. Dieses hat Maß Null. Entfernen wir alle
solchen Schnitte (bestehend aus abzählbar vielen Geradenstücken, also insgesamt einer Menge
vom Maß Null), so bekommen wir eine Vereinigung randloser“ Quadrate, deren paarweise
”
1 1
Schnitte leer sind, und deren Inhalte eine geometrische Folge { 41 , 16
, 64 , . . .} bilden, sodaß die
Sigmaadditivität und die geometrische Summenformel auf P (A) = 14 1−1 1 = 13 führen.
4
220
Wahrscheinlichkeitstheorie
Laplaceraum
Kodieren Ω1 := {A, B}, Ω2 := {0, 1},
1 für OKAY
Ausfall, wenn mindestens eine Sicherung fliegt. Als Ereignisraum kann
man Paare (A± , B ± ) versuchen, wobei
‘−’ kaputte Sicherung bedeute.
Zunächst hat man für Urne U1
den W-Raum Ω1
:=
{A
⊂
{w1 , w2 , s1 , s2 , s3 } | |A| = 2}
und für U2 hat man Ω2 := {A ⊂
{w, b1 , b2 , b3 , b4 , b5 } | |A| = 2}.
Danach bildet man die disjunkte
Vereinigung Ω := Ω1 ∪ Ω2 , wobei
die Wahrscheinlichkeit von Elementarereignisses, die von U1 stammen,
1
× “15” bzw. für U2 12 × “16” sein
2
Werfen von 3 gleichen Münzen. Wahrscheinlichkeit, daß wenigstens einmal
Zahl erscheint.
Maschine A hat 3% Ausschuß und produziert 70%, B 1% und produziert den
Rest. Wahrscheinlichkeit für Ausschuß
der Gesamtproduktion?
Sicherungen A und B fallen mit 3 bzw.
1 Prozent aus. Wahrscheinlichkeit für
Stromausfall?
Urnen 1,2. In U1 sind 2w und 3 s Kugeln, in U2 sind es 1 w und 5 s Kugeln.
Wahrscheinlichkeit dafür, bei zufälliger
Wahl von U1 oder U2 und danach Auswahl von 2 Kugeln 1w und 1s Kugel in
Händen zu haben.
2
—
Würfeln mit 2 Würfeln. Augensumme=9
2
Laplaceraum
Würfeln mit Würfel. Wahrscheinlichkeit für Werfen von Primzahl
muß.
Anmerkung
Text
P(Ω)
{1, 2, 3, 4, 5, 6} ×
{1, 2, 3, 4, 5, 6}
{K, Z}×{K, Z}×
{K, Z}
{(A+ , B − ),
(A− , B + ),
(A− , B − )}
{{wi , sj } | i =
1, 2 ∧ j = 1, 2, 3} ∪
{{w, bj } | j =
1, 2, 3, 4, 5}
P(Ω)
P(Ω)
P(Ω)
{(A+ , B + ),
(A+ , B − ),
(A− , B + ),
(A− , B − )}
siehe links
{(3, 6),(4, 5),
(5, 4), (6, 3)}
{Z} × {K, Z} ×
{K, Z} ∪ {K} ×
{Z} × {K, Z} ∪
{K} × {K} × {Z}
{(A, 0), (B, 0)}
A
{2, 3, 5}
Ω1 × Ω2
P(Ω)
Σ
P(Ω)
Ω
{1, 2, 3, 4, 5, 6}
+
2
8
=
+
1
9
1
8
=
7
8
1
6
1
5
2 × (5) + 2 × (6) =
2
2
· · · = 19
≈
0.317
60
97
P (A) = 1 − 100
×
99
=
·
·
·
=
100
0.0397, d.h. 3.97%
0.7 × 0.03 + 0.3 ×
0.01 = 0.024
4
8
4
36
1
2
P (A)
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
221
222
9.1.2
Wahrscheinlichkeitstheorie
Bedingte Wahrscheinlichkeit und Ereignisgraphen
Bei der bedingten Wahrscheinlichkeit geht es kurz gesagt darum, daß man in einem W-Raum
(Ω, Σ, P ) zwei Ereignisse A und B betrachtet, derart, daß P (A) 6= 0 ist. Nun fragt man, mit
welcher Wahrscheinlichkeit das Ereignis B in jenen Situationen eintritt, wo A eingetreten
ist. Z.B. kann A das Ereignis ein zufällig aus dem Stall Ω gegriffenes Kaninchen hat weiße
”
Ohren“ und B das Ereignis ein aus dem gleichen Stall zufällig gegriffenes Kaninchen hat
”
rote Augen“. Die bedingte Wahrscheinlichkeit P (B|A) gibt die Wahrscheinlichkeit dafür an,
unter den Kaninchen mit weißen Ohren eines mit roten Augen zu finden. Sind z.B. 100 Hasen
im Stall, also Ω = {1, . . . , 100} so könnte man sich eine Situation wie die folgende vorstellen:
rote Augen
keine r. A.
weiße Ohren
10
30
40
keine w.O.
5
55
60
15
85
100
Also 10 Hasen haben weiße Ohren und rote Augen, etc. Somit ist die Wahrscheinlichkeit
10
P (B|A) = 40
, weil es 40 weiße Hasen und darunter 10 mit roten Augen gibt. Wären die obigen
15
60
Zahlen Prozent- statt Absolutzahlen gewesen, so hätte man P (A ∩ B) = 100
, P (A) = 100
1
und es wäre P (B|A) mit der gleichen Motivation der Wert 4 entstanden. So kommt man zur
üblichen Definition der bedingten Wahrscheinlichkeit:
Definition 13 Es sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum (siehe Definition 9) und A, B
meßbare Ereignisse mit P (A) 6= 0. Die reelle Zahl
P (B|A) :=
P (A ∩ B)
P (A)
heißt bedingte Wahrscheinlichkeit für das Auftreten des Ereignisses B unter der Annahme,
daß A tatsächlich eingetreten ist.
Es kann folgender Sachverhalt gezeigt werden, der die Bezeichnung bedingte Wahrscheinlichkeit rechtfertigt:
Anmerkung 14 Ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und A ein meßbares Ereignis mit P (A) 6= 0, so wird durch B 7→ P (B|A) = P P(A∩B)
ein Wahrscheinlichkeitsmaß
(A)
definiert.
Die häufigste unmittelbare Anwendung besteht darin, festzustellen, ob ein Ereignis
A das Ereignis B bedingt. Etwa, wenn A in der Verabreichung einer Impfung und B
die Heilung einer bestimmten Erkrankung bedeutet. Dazu wählt der Mediziner aus einer
Menge Erkrankter, die er behandelt, eine Gruppe, die ein Placebo, und einen anderen Teil,
dem er A verabreicht. Danach errechnet er P (B|A), bzw. P (B 0 |A) mittels Prozentzahlen.
Die Mediziner müssen eine Norm festlegen, inwieweit P (B|A) > P (B 0 |A) die Wirksamkeit
des Medikaments plausibel erscheinen läßt.
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
P (s|A)= 61
P (A)= 12hhh4A
hh
hhhh
h
h
A 123
h
¿ VV
1
B 202 VVVPVV(B)=
VVVV2
V*
0
223
1
12
P (w, A) = 16
P (r, A) = 14
s 023 P (s, A) =
P (w|A)= 62
```````````0 w 113
123 `````````
P (r|A)= 36
0 r 122
1
1
P (s|B)= 2
0 s 120 P (s, B) = 4
aaaaaaaaaaaaaaaa
a
a
a
a
B 220
P (r|B)= 21
1
/ r 210 P (r, B) = 4
Abbildung 9.1: Ereignisgraph zu Beispiel 15
Im nächsten Beispiel sollen bedingte Wahrscheinlichkeiten in einem Experiment mit Kugeln, die aus Urnen gezogen werden, ein Experiment, wie es auch Laplace, Bernoulli und
andere betrachtet haben, behandelt werden. Die bei der Lösung des Beispiels verwendete
graphische Darstellung wird gelegentlich als Ereignisgraph“ bezeichnet und verdeutlicht die
”
Konstruktion von Ω aus vorgegebenen W-Räumen. Er veranschaulicht die Rolle der bedingten
Wahrscheinlichkeit.
Beispiel 15 Auf einem Tisch stehen die Urnen A und B. Die Urne A enthält 1 s(chwarze),
2 w(eisse) und 3 r(ote) Kugeln. Urne B enthält ebensolche Kugeln, allerdings 2 s und 2 w. Es
soll nun zufällig eine Urne gewählt, und danach aus dieser Urne zufällig eine Kugel gezogen
werden. Wie hoch ist die Wahrscheinlichkeit dafür, daß diese Kugel s ist?
Naiv betrachtet, könnte jemand sagen, Alles in allem, das Verhältnis von s zu allen wähl”
3
baren Kugeln ist wie 3 zu 10, also sollte diese Wahrscheinlichkeit 10
= 0.3 sein.“ Das ist nicht
einsichtig, weil ja die Chance, bei Wahl von Urne A im ersten Durchgang eine schwarze Kugel
zu erwischen lediglich 61 ist. Im zweiten Fall ist sie 12 . Es liegt viel näher, 12 16 + 12 12 = 13 ≈ 0.33
zu nehmen.
Um das besser zu verstehen, verwenden wir die Zeichnung Fig. 9.1. Dort sieht man zunächst
die Wahl von A oder B und danach die möglichen Wahlen von Kugeln. Die rechte Spalte
enthält, richtig gelesen, eine Kodierung von Ω, nämlich
Ω = ({A, B} × {s, w, r}) \ {(B, r)}.
Die Beschriftung der rechten Pfeile (es wurde absichtlich nicht gekürzt!) sind bedingte Wahrscheinlichkeiten der Form P(Elementarereignis in {r, s, w}|A) bzw. B. Deshalb sind die äußerst
rechts stehenden Wahrscheinlichkeitswerte jene der Elementarereignisse in Ω – das ist im Einklang damit, Ω als Laplace-Wahrscheinlichkeitsraum aufzufassen und abzuzählen“. Insbe”
sondere ist die in Definition 13 gegebene Formel für bedingte Wahrscheinlichkeit zu erkennen,
wenn man die Wahrscheinlichkeiten jeweils hintereinanderliegender Pfeile multipliziert.
224
Wahrscheinlichkeitstheorie
9.1.3
Totale Wahrscheinlichkeit, Formel von Bayes
Anmerkung 16 Es sollen {Ai | i ∈ I} und B Ereignisse in eiem W-Raum sein, derart
daß die Ereignisse
Ai ∩ B einander ausschließen3 , d.h. daß Ai ∩ Aj ∩ B = ∅ für i 6= j gilt,
S
und B = i∈I Ai ∩B ist, also {Ai ∩B | i ∈ I} eine Partition von B im Sinn von Definition
??. Weiters soll P (Ai ) > 0 für alle i ∈ I sein. Dann gelten die folgenden Aussagen:
Satz von der totalen Wahrscheinlichkeit:
X
X
P (B) =
P (Ai ∩ B) =
P (B|Ai )P (Ai ),
i∈I
i∈I
wobei der Mittelteil der Herleitung als Folgerung der Sigmaadditivität (Definition
9) und Benützen von Definition 13 dient.
Reziprozität: Ist P (B) > 0, so ist wegen Definition 13 stets
P (Ai |B)P (B) = P (B|Ai )P (Ai ).
Formel von Bayes: Es ist
P (Ai |B) =
P (Ai )P (B|Ai )
P (Ai )P (B|Ai )
,
=P
P (B)
i∈I P (B|Ai )P (Ai )
wobei der mittlere Teil lediglich der Herleitung der Formel aus der Reziprozität und
danach Einsetzen in die Formel von der totalen Wahrscheinlichkeit für P (B) dient.
Beispiel 17
• Wer mag, kann die Formeln anhand von Beispiel 15 nachvollziehen. Sind
z.B. A := Es wird eine Kugel in A gezogen“, B := Es wird eine Kugel in B gezogen“
”
”
und s := Es wird eine schwarze Kugel gezogen“, so findet man P (A) = 12 = P (B) und
”
1
P (s) = 12
+ 14 = 13 . Nun findet man, den Ereignisgraphen verwendend,
1
11 11
= P (s) = P (s|A)P (A) + P (s|B)P (B) =
+
.
3
62 22
Wie groß ist P (A|s) lt. Definition 13, danach gemäß Bayesscher Formel, und wie interpretiert man das?
1/12
1
Antwort: Es ergibt sich P (A|s) = P P(A∩s)
(s) = 1/12+1/4 = 4 . Interpretation: ”Man geht
davon aus, daß die gezogene Kugel s ist und fragt nach der Wahrscheinlichkeit dafür,
daß sie aus Urne A stammt.“ Die Bayessche Formel ergibt im Einklang:
P (A|s) =
3
P (s|A)P (A)
=
P (s|A)P (A) + P (s|B)P (B)
11
62
11
62
+
11
22
1
= .
4
In der Literatur findet man gelegentlich die stärkere Bedingung Ai ∩ Aj = ∅ falls i 6= j.
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
225
• Maschinen X,Y und Z erzeugen die gleiche Art elektronischer Bauteile mit
unterschiedlicher Fehleranfälligkeit und Anteil an der Gesamtproduktion.
Wie groß ist die Wahrscheinlichkeit für
das Eintreten des jeweils aufgelisteten Ereignisses:
X Y Z
1. Ein Teil wird zufällig entnommen
% Anteil Gesamt- 30 50 20
und wurde von X produziert?
produktion
2. Ein Teil wird zufällig entnommen
%
Ausschuß
2
4
1
und das Teil ist fehlerhaft?
der
jeweiligen
3. Ein Teil aus den fehlerhaften wird
Produktion
zufällig entnommen und wurde von
X produziert?
Antwort: Es sollen X, Y, Z dafür stehen, daß das Teil von jeweils einer dieser Maschinen
produziert worden ist. F soll heißen fehlerhaft“.
”
30
= 0.3.
1. Aus der Tabelle entnimmt man P (X) = 100
2. Es ist F = (X ∩ F ) ∪ (Y ∩ F ) ∪ (Z ∩ F ) eine Partititon von F , also ist P (F ) =
P (X ∩ F ) + P (Y ∩ F ) + P (Z ∩ F ). Allerdings kennt man z.B. P (X ∩ F ) nicht. Die
zweite Zeile der Tabelle ist im Sinne bedingter Wahrscheinlichkeiten interpretierbar,
2
= 0.02. Etwas formaler: P (F |X) = 0.02.
z.B. P( Teil ist F und stammt von X“)= 100
”
Deshalb kann man P (X ∩F ) = P (F |X)P (X) = 0.3×0.02 ermitteln. Ähnlich entnimmt
man der Tabelle die anderen Werte und es ergibt sich
P (F ) = 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 = 0.028,
also nicht ganz 3 v.T. Teilen sind im Schnitt als fehlerhaft zu erwarten.“
”
3. Hier wird nach P (X|F ) gefragt, weil man von Haus aus“ annimmmt, ein fehlerhaftes
”
Bauteil herauszugreifen und Schuldige sucht. Beim Anwenden von Definition 13 hätte
)
man P (X|F ) = P (X∩F
P (F ) , jedoch kennt man den Wert von P (X ∩ F ) nicht. Verwenden
der Reziprozität und die Kenntnis von P (F ) = 0.28 aus 2. ergibt sofort
P (X|F ) =
P (F |X)P (X)
0.3 × 0.02
3
=
=
≈ 0.214.
P (F )
0.28
14
Wäre P (F ) noch nicht bekannt, und lediglich P (X|F ) gefragt, so benützte man die
Bayessche Formel:
P (X|F ) =
=
P (F |X)P (X)
P (F |X)P (X) + P (F |Y )P (Y ) + P (F |Z)P (Z)
0.3 × 0.02
0.006
=
≈ 0.214.
0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01
0.028
226
Wahrscheinlichkeitstheorie
9.1.4
Unabhängigkeit von Ereignissen
Wenn zwei Ereignisse A und B vorliegen, P (A) 6= 0 ist, und P (B|A) = P (B) gilt, so bedeutet
es, daß offenbar das Ereignis B unter jenen Fällen, wo A eintritt, gleichwahrscheinlich ist,
wie in der Gesamtheit Ω aller Ereignisse. Wenn sich etwa in Anmerkung 14 herausstellt,
daß der Prozentsatz an Heilungen unter den geimpften Patienten gleich jenem der Heilungen
unter allen Probanden (also einschließlich der nicht geimpften) ist, so sagt man, daß die
Ereignisse A und B einander nicht bedingen bzw., daß sie unabhängig sind. Für P (A) 6= 0
sind P (B|A) = P (B) und P (A ∩ B) = P (A)P (B) gleichwertig, wie man aus Definition 13
sofort erkennt. Ist jedoch P (A) = 0, so ergibt die letztere Charakterisierung immer noch
einen Sinn. Deshalb ist folgende Definition üblich:
Definition 18 Zwei meßbare Ereignisse A, B eines Wahrscheinlichkeitsraumes heißen unabhängig, falls P (A ∩ B) = P (A)P (B) gilt.
T
Eine
endliche
Folge
(A
|
i
∈
I)
von
Ereignissen
heißt
unabhängig,
falls
P
(
i
i∈J Ai ) =
Q
i∈J P (Ai ) für jede Teilmenge J von I gilt.
Anmerkung 19 Sind A und B meßbare Ereignisse und ist P (A)P (B) > 0 so sind
folgende Aussagen gleichwertig:
• A und B sind unabhängig,
• P (A|B) = P (A).
• P (B|A) = P (B)
• P (A ∩ B) = P (A)P (B).
• A0 und B sind unabhängig.
• A0 und B 0 sind unabhängig.
Insbesondere ist die Relation A und B sind unabhängig“ symmetrisch.
”
Anmerkung 20
• Im Beispiel mit den Hasen war A weißohrig“ und B rotäugig“. Die
”
”
Wahrscheinlichkeit dafür, unter den weißohrigen Hasen einen rotäugigen zu finden, war
40
15
40×15
3
P (B|A) = 41 , P (A) = 100
, P (B) = 100
. Somit ist P (A) × P (B) = 100×100
= 20
< 14 .
A und B sind nicht unabhängig. Dies wird in der Praxis als Indiz dafür gewertet, daß
weißohrige Hasen eher zu Rotäugigkeit neigen“.
”
Es ist stets P (B|A) ≥ P (A)P (B), je deutlicher die Differenz ausfällt, desto stärker wird
es als Indiz gewertet. Danach würde man versuchen, mit anderen (etwa biologischen,
medizinischen, etc) Methoden tieferen Zusammenhängen auf den Grund zu gehen.
• Ein offenkundiges Beispiel für Unabhängigkeit von Ereignissen A und B beim Werfen von Würfeln W1 und W2, sind A = W1 zeigt eine 6“ bzw. B = W2 zeigt 1,3
”
”
9.2. Zufallsvariable und Verteilungen
227
oder 5“. Dann ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {6} × {1, 2, 3, 4, 5, 6},
B = {1, 2, 3, 4, 5, 6} × {1, 3, 5} und A ∩ B = {6} × {1, 3, 5}. Jedes Elementarereignis
(i, j) ist gleichwahrscheinlich, also liegt ein Laplaceraum im Sinne von Definition 5 vor.
Hieraus ergibt sich durch Abzählen von A, B und A ∩ B und anschließender Division
3
1
= 12
. Die in Dedurch |Ω| = 36, daß P (A) = 16 , P (B) = 63 = 12 und P (A ∩ B) = 36
finition 13 geforderte Gleichung P (A ∩ B) = P (A)P (B) besteht. Die Intuition“, daß
”
die beiden Würfelergebnisse unabhängig“ im Sinne von einander nicht beeinflussen“
”
”
sind, spiegelt sich in der Erfülltheit dieser Gleichung wieder.
• Eine hinterhältige Variation des vorigen Beispiels: Würfeln mit 2 Würfeln und Ereignis
A besteht darin, daß wenigstens 1 Würfel eine ungerade Zahl zeigt, das Ereignis B
darin, daß wenigstens ein Würfel 6 zeigt. Es ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6},
A = {1, 3, 5} × {1, 2, 3, 4, 5, 6} ∪ {2, 4, 6} × {1, 3, 5} und B = {1, 2, 3, 4, 5} × {6} ∪ {6} ×
{1, 2, 3, 4, 5, 6}. Weiters ist A ∩ B = {1, 3, 5} × {6} ∪ {6} × {1, 3, 5}. Aus diesen Daten
9
5
1
11
3
3
1
= 27
ergibt sich sofort P (A) = 36 + 36
36 , P (B) = 36 + 6 = 36 , und P (A∩B) = 36 + 36 = 6
11
1
11
Die famose Gleichung besteht nicht, weil P (A)P (B) = 27
36 36 = 48 > 6 = P (A ∩ B) ist,
also sind die Ereignisse A und B nicht unabhängig.
9.2
9.2.1
Zufallsvariable und Verteilungen
Zufallsvariable
Die Idee der Zufallsvariablen ist die einer Zahl (eines Vektors), der auf einem W-Raum definiert ist, und der Wert durch ein zufälliges Experiment ermittelt wird. Ein einfaches Beispiel:
Es ist Ω eine Personengruppe von 100 Leuten, man wählt eine Person zufällig aus und bestimmt die Schuhgröße (eine Zahl). Ein anderes Beispiel: Die 100 Personen beschließen, Darts
auf eine Kreisscheibe zu werfen. Nun wird jeder Person der Zufallsvektor aus den beiden Koordinaten des Darts zugeordnet (ein Vektor also). Hier ist die formale Definition:
Definition 21 Ist (Ω, Σ, P ) ein Maßraum, so nennt man eine Abbildung X : Ω → Rn eine
zufällige Variable oder auch stochastische Variable mit Werten im Rn .
Sie heißt diskret, wenn sie höchstens abzählbar viele Werte annehmen kann.
Ist f : Rn → Rm , so ist f X eine stochastische Funktionder Zufallsvariablen X, die gelegentlich auch als f (X) geschrieben wird. Sie heißt
meßbar, wenn jede Menge der Form
X −1 (B) = {ω ∈ Ω | X(ω) ∈ B}
für jede Borelmenge B in Σ ist. (Wenn Ω diskret ist, so ist jedes X
meßbar.)
Beispiel 22 Einige konkrete Beispiele mögen der Anschauung dienen:
X / n
R
BB
BB
f
B
f X BB! ΩB
Rm
228
Wahrscheinlichkeitstheorie
1. Es sei (Ω, Σ, P ) durch Ω := {1, 2, 3, 4, 5, 6}, Σ := P(Ω) und P (ω) := 61 gegeben (Werfen
mit einem Würfel). Nun spielt Spieler S gegen die Bank B, indem für jedes Spiel von S
ein Euro an B geht, und bei einem Wurf von 6 5 Euro von B an S gehen.
Der Gewinn X von S kann nun durch X(ω) := −1 falls ω 6= 6 und X(6) := 5 definiert
werden. Dieses X ist eine Zufallsvariable, ihr Wert wird durch das Zufallsexperiment
des Würfelns festgelegt. Die Zufallsvariable ist diskret.
2. Es sei (Ω, Σ, P ) durch Ω := {(x, y) ∈ R2 | x2 + y 2 ≤ 502 }, Σ die Borelmengen innerhalb
von Ω und P der übliche Flächeninhalt“. Man denke an das Werfen mit Darts (oh”
ne jedoch eine weitere Unterteilung der Scheibe vorzunehmen). Nun kann vereinbart
werden, daß Gewinn nach der Formel
p
x2 + y 2 < 10
10 falls
X(x, y) :=
−1.5 sonst
ausbezahlt wird, wobei (in der Formel schon berücksichtigt) einmal Werfen 1 Euro 50
Cent kostet.
Auch dieses X darf als Zufallsvariable angesehen werden, denn ihr Wert wird durch das
durchaus als Zufallsexperiment ansehbare Werfen eines Darts ermittelt (so genau weiß
man ja doch nicht, wo der Dart hingeht!). Die Zufallsvariable ist diskret.
3. Aus sündteurem Material stellt jemand Würfelchen mit der Kantenlänge 1µm her, es
gibt aber zufällige Schwankungen dieser Länge (und wir nehmen einfachheitshalber an,
es werden keine Quaderchen, Parellelepipedchen oder sonst was erzeugt). Gemessen
wird die tatsächliche Kantenlänge, sodaß man Ω = R und P das übliche Längenmaß
wählt.
Was den Hersteller eher interessieren dürfte ist nicht, wie die Kantenlänge schwankt,
sondern, aus Kostengründen, schaut er sich die zufällige Variable X(x) := x3 an. Die
Zufallsvariable ist nicht diskret.
Sie kann als stochastische Funktion der Zufallsvarablen X(ω) = ω ∈ Ω := R angesehen
werden, nämlich, für f (x) := x3 hat man f X(ω) = ω 3 .
4. Jemand möchte, um ein ähnliches Beispiel zu formulieren, die Gravitationskonstante
unter der Annahme des Fallgesetzes s = g2 t2 ermitteln. Er mißt s und t und erzeugt
annahmehalber für t ∈ [0, 10] (in Sekunden) eine Menge von Datenpunkten in [0, 10]×R.
Nun interessiert ihn die Zufallsvariable X : [0, 10] × R → R, nämlich
X(t, s) :=
2s
,
t2
weil diese Größe der Gravitationskonstanten entspricht. Da es eine Meßreihe ist, darf
man von zufälligen Ergebnissen ausgehen. X ist nicht diskret.
Hier kann X als stochastische Funktion von ω := (s, t) ∈ [0, 10] × R = Ω angesehen
werden, wobei f (s, t) = 2s
ist.
t2
9.2. Zufallsvariable und Verteilungen
229
5. Die Spannung an einem Gleichstromgenerator werde während eines festgewählten Zeitraums [0, T ] gemessen und als Kurve (die mit guter Näherung eine horizontale Gereade sein sollte) in einem (t, U )-Diagramm aufgezeichnet. Demnach bietet es sich an,
Ω := [0, T ], Σ die Borelmengen, und schließlich das übliche Längenmaß b − a für ein
Intervall [a, b] (auch wenn die physikalische Deutung Zeit“ ist) zu verwenden.
”
Danach könnte man U : [0, T ] → R als Zufallsvariable ansehen, wenn man kleine
Schwankungen nicht als systematische Fehler ansehen will. U ist nicht diskret.
Nun könnte jemand bei bekanntem Widerstand R auf die Idee kommen I(U ) := U
R als
U (t)
stochastische Funktion anzusehen. Korrekterweise ist das I ◦U (t) := R , und hier sieht
x
mit einer Zufallsvariablen U (t).
man die Zusammensetzung der Funktion f (x) := R
6. Das einfachste Beispiel einer Zufallsvariablen liegt dann vor, wenn Ω ⊆ Rn ist, denn
dann kann die identische Funktion X(ω) := ω als Funktion von Ω → Rn angesehen
werden. Diese Art Zufallsvariablen findet man in Fülle:
• Werfen mit einem Würfel. Es ist Ω = {1, 2, 3, 4, 5, 6} und X : Ω → R ist die
geworfene Augenzahl.
• Messen der Wandstärke. Es ist Ω = [m, M ] ⊂ R, wobei m und M ein vorgegebener
Minimal- bzw. Maximalwert sind. X : Ω → R ist die gemessene Wandstärke.
• Schießen auf eine Zielscheibe. Hier wird (durchaus zufallsbehaftet) als Ω eine Kreisscheibe und der Treffer als ω ∈ Ω interpretiert. X : Ω → R2 .
Solches X ist genau dann diskret, wenn P diskretes Maß im Sinne von Definition 9 ist.
7. Schlußendlich kann in jedem W-Raum (Ω, Σ, P ) für eine beliebige Teilmenge A die
Funktion
1 falls ω ∈ A
X(ω) :=
0
sonst
betrachtet werden.
Da diese Funktion ihren Wert (Null oder Eins) jedenfalls in R annimmt, ist sie eine Zufallsvariable. Diese Funktion wird als Indikatorfunktion von A bezeichnet. X ist
diskret.
9.2.2
Histogramm und Verteilung einer Zufallsvariablen
Histogramme trifft man sehr häufig (etwa in der medialen Berichterstattung) an. Angenommen bezüglich einer Erhebung über die Schuhgröße einer Gruppe von 100 Personen ergibt
sich folgende Tabelle:
Größe
Zahl d Personen
36
2
37
3
38
5
39
10
40
25
41
30
42
20
43
4
44
1
230
Wahrscheinlichkeitstheorie
Als grafische Darstellung findet man dann etwas von dieser Bauart, ein Histogramm
36 37 38 39 40 41 42 43 44
Die mathematische Idee besteht darin, auf der Menge Ω = {1, . . . , 100} von Personen
eine diskrete reelle Zufallsvariable X : Ω → R zu definieren, die lediglich der Werte der
gängigen Schuhgrößen fähig ist (deshalb ist sie auch diskret). Die Grafik zeigt nun, wie
”
häufig“ die Variable X einen vorgegebenen Wert annimmmt. Genauer gesprochen werden auf
der Abszisse die Werte von X und der Ordinate die Häufigkeit aufgetragen, mit der dieser
Wert angenommen wird. Hier ist die entsprechende Definition:
Anmerkung 23 Für eine im Sinne von Definition 21 diskrete Zufallsvariable X : Ω →
Rn ist das Histogramm der Funktionsgraph der Funktion f (~x) := P ({ω ∈ Ω | X(ω) = ~x}.
Beispiel 24 Es sollen weitere Beispiele folgen:
1. Ist Ω = {1, 2, 3, 4, 5, 6} ein W-Raum, welcher das Werfen einer Würfels beschreibt, und
X(ω) := ω, so liegt ein Laplaceraum im Sinne von Definition 5 vor. Das Histogramm
1 · · · · · ·
6
von X ist typisch für einen Laplaceraum.
2.
In 1. von Beispiel 22 wurde für 1
Euro gewürfelt und im Falle einer 6
ein Euro ausbezahlt. Somit nimmt
X genau die Werte −1 und 5 mit
den Wahrscheinlichkeiten 56 und 16
an. De facto kann man das Histogramm zur Beschreibung eines neuen W-Raumes mit den Elementarereignissen Ω0 := {−1, 5} mit Wahrscheinlichkeiten P 0 ({−1}) = 65 und
P 0 (5) = 61 auffassen.
1
2
3
4
5
6
5
6
1
6
·
·
X = −1
X=5
/
3. Im 2.ten Beispiel mit den Darts in Beispiel 22 ist es ähnlich. Es ist Ω0 = {−1.5, 10}
2
10 2
und P 0 ({−1.5}) = 1 − 50
und P 0 ({10}) = 10
50 , das Histogramm sieht dem vorigen
sehr ähnlich.
9.2. Zufallsvariable und Verteilungen
231
4. Beim Werfen mit zwei unabhängigen Würfeln interessiert man sich lediglich für die
Zufallsvariable X : {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} → R, definiert durch X(ω1 , ω2 ) :=
ω1 + ω2 , die Augenzahl. Man stelle sich z.B. vor, daß die Höhe des möglichen Gewinns
das 10fache dieser Summe in Euro ist.
Wie groß ist die Wahrscheinlichkeit dafür, daß jemand mindestens 70 Euro gewinnt?
Statt eines Histogramms mit 36 Werten für die Häufigkeiten der Elementarereignisse
reicht jetzt das nachstehende Histogramm, in welchem die Wahrscheinlichkeiten (in
Zwölfteln) für P (X = ω1 + ω2 = i) aufgetragen wurden:
•
6/36
•
•
5/36
•
•
4/36
•
•
3/36
•
•
2/36
•
1/36 •
2
3
4
5
6
7
8
9
10
11
12
·
·
·
·
·
·
·
·
·
·
·
Wir sind lediglich an der Zufallsvariablen X interessiert, somit ist der W-Raum Ω0 :=
{1, 2, . . . , 12} mit dem W-Maß P 0 laut Histogramm ausreichend aufschlußreich (es ist
z.B. 7 = 1 + 6 = 2 + 5 = 3 + 4 = 4 + 3 = 5 + 2 = 6 + 1, also P 0 ({7}) = P ({1, 6}) +
6
· · · + P ({(6, 1)} = 36
= 1 ). Damit kann man die obige Frage durch Addition der WahrP12 60
1
7
= 6×7
scheinlichkeiten j=7 P ({j}) = 6+5+4+3+2+1
36
2 36 = 12 ≈ 0.583 beantworten.
5. In 4. von Beispiel 22 will jemand die Gravitationskonstante unter der Annahme von
√
s = g2 t2 messen. Die Zufallsvariable X( s, t) hat gemäß der 10 Messungen (alle Sekunden) eine Häufigkeitsverteilung, bei der jeder gemessene Punkt die gleiche Häufigkeit,
√
nämlich 1, hat. Deshalb reicht es, das Histogramm als Punktmuster in der ( s, t)-Ebene
zu zeichnen, weil man ja auch spekuliert, eine Gerade zu bekommen. Das Histogramm
ist hier als Bestätigung des Fallgesetzes von Interesse. In dieser Weise entsteht ein Problem der Ausgleichsrechnung (Anmerkung 63).
6. Es werde mit einem Gewehr auf eine Zielscheibe geschossen (100 Schuß). Danach entsteht eine Punktwolke, das Treffermuster“, etwa wie in der Skizze zu Beginn von Ab”
schnitt 10.3 über Kovarianz. Wiederum darf dieses Muster als Histogramm gedeutet
werden. Ähnlich wie im vorigen Beispiel gibt das Histogramm Auskunft über das Zufallsexperiment: bei geübtem Schützen, ob das Gewehr zieht“, bzw., wenn das Gewehr
”
eingeschossen ist, über die gezeigte Treffsicherheit des Schützen.
Statt eines Histogramms benützt der Statistiker eher die Verteilungsfunktion oder kurz Verteilung, die zunächst am Beispiel mit den Schuhgrößen erzählt werden soll. Dabei produziert
man folgende Tabelle aus der bereits gehabten
Größe
Zahl d Personen
<36
0
<37
2
<38
5
<39
10
<40
20
<41
45
<42
75
<43
95
< 44
99
< 45
100
232
Wahrscheinlichkeitstheorie
Diese Tabelle enthält genau die selbe Information wie das Histogramm, weil man ja alle
(relevanten) Schuhgrößen aufgeführt hat und z.B. P ({X = 43}) = P ({X < 44}) − P ({X <
43}) = 0.95 − 0.75 = .20. Es ist offenbar P (X < 43) = .95 die Wahrscheinlichkeit dafür, daß
eine zufällig aus der Personengruppe gewählte Person eine Schuhgröße kleiner als 43 hat. Die
Besonderheit ist, daß aus der Tabelle eine reellwertige Funktion, die Verteilungsfunktion von
X ablesbar ist, deren Graph hier skizziert ist:
◦ •◦
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
•◦ •
36 37 38 39 40 41 42 43 44 45
Dies ist der Graph der Verteilungsfunktion FX (x) der Variablen X (Schuhgröße), die durch
FX (x) = P (X(ω) < x) festgelegt ist, also durch die Wahrscheinlichkeit dafür, eine Person
zufällig auszuwählen und ihre Schuhgröße ist < x. Die Abszisse ist x und Ordinate der Wert
von FX (x). Man beachte die Sprungstellen, aus deren Höhe man das Histogramm rekonstruieren kann.
Histogramme sind grundsätzlich an diskrete Zufallsvariable gebunden, weil für eine nicht
diskrete Zufallsvariable für alle ~x der Wert P ({ω | X(ω) = ~x}) = 0 sein kann (etwa beim
Beispiel des als Punkt gedachten Sandkorns). Verteilungsfunktionen sind hingegen auch für
nicht diskrete Zufallsvariable formulierbar. Ist z.B. X die durchaus von (Witterungs)einflüssen
abhängige Länge eines Stabes, so darf man annehmen, daß grundsätzlich alle reellen Zahlen
als Länge dem Stab zugeordnet werden könnten. Läßt man nun 100 Personen so einen Stab
messen, so mißt wohl jede Person eine Länge und man kann wie vorhin Häufigkeiten zählen
(wie es tatsächlich in der Meßtechnik gemacht wird). Allerdings sind die gewonnen Zahlen
eigentlich kontinuierlich vieler Werte fähig, lediglich unsere Meßverfahren lassen oft nur eine
gewisse Anzahl Kommastellen zu und führen dazu, die Variable als diskret anzunehmen. Der
9.2. Zufallsvariable und Verteilungen
233
Meßtechniker zerlegt die reellen Zahlen in kleine, disjunkte, linksabgeschlossene, rechts offene
Intervalle, und zählt Häufigkeiten, wie oft das Meßergebnis in eines der Intervalle fällt. Es
könnte etwa [1m, 1.001m) ein solches Intervall sein. Wird nun die Genauigkeit erhöht, so
müßte er die neuen Messungen irgendwie mit den alten vergleichen können. Hiebei ist die
Verteilungsfunktion hilfreich:
Definition 25 1-dimensionale Verteilung(sfunktion) Ist X : Ω → R eine 1dimensionale Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P, Σ), und ist X : Ω → R
meßbar in dem Sinne daß für alle Zahlen a, b ∈ R mit a < b die Menge {ω ∈ Ω | a ≤ X(ω) < b}
zu Σ gehört, so ist Ihre Verteilung FX : R → [0, 1] durch
FX (x) := P ({ω | X(ω) < x})
festgelegt.
Die Schreibweise FX (x) = P (X < x) ist gebräuchlich, bedeutet jedoch die eben gegebene
Definition. Die Meßbarkeitsbedingung ist mathematisch-technischer Natur. Sie ist z.B. erfüllt,
wenn Ω eine Teilmenge des Rn und X stetig ist.
Die im Schuhgrößenbeispiel“ vorgestellte Verteilung(sfunktion) entspricht genau dieser
”
Definition.
Anmerkung 26 Das Schuhgrößenbeispiel hilft durchaus, die nachstehenden Eigenschaften einer 1-dimensionalen Verteilung(sfunktion) F = FX einzusehen“.
”
1. F (∞) := limx→∞ F (x) = 1, F (−∞) = 0.
2. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y).
3. F ist linksseitig stetig, d.h. F (x) = F (x− ) := limh→0,h>0 F (x − h).
4. Erfüllt F die Eigenschaften 1.–3., so kann ein W-Raum (R, B, Q), durch Q((a, b)) :=
F (b) − F (a) für Intervalle und entsprechende Erweiterung auf alle Borelmengen B
konstruiert werden, daß F : R → [0, 1] als Zufallsvariable aufgefaßt werden kann
und F zudem die Verteilung dieser Zufallsvariablen ist.
Rb
Ist überdies F stetig differenzierbar mit F 0 = f , so ist4 P (a ≤ X < b) = a f (x) dx =
F (b) − F (a).
1
◦
•
◦
•
0
234
Wahrscheinlichkeitstheorie
Die Hilfe für den Meßtechniker, bei Verfeinerung die Meßreihen zu vergleichen, sei hier nur
kurz in Worten geschildert: Verfeinert man die Teilung weiter und weiter, so entstehen immer neue Verteilungsfunktionen, welche mehr und mehr Sprungstellen haben, jedoch (beim
bißchen Augenzukneifen) immer mehr einer Linie, also stetigen Verteilungsfunktion ähneln,
von der man erhofft, daß sie Grenzwert“ bei ständigem Verfeinern ist (etwa so ähnlich wie
”
beim Riemannintegral). Eine Präzisierung dieser Idee ist der Hauptsatz der Statistik von
Gliwenko-Cantelli (Anmerkung 49).
Auch die weiteren, öfter noch benötigten Eigenschaften 1-dimensionaler Verteilungsfunktionen sind am Schuhgrößenbeispiel“ nachvollziehbar.
”
Anmerkung 27 Ist F an den Intervallenden a, b stetig, so ergibt sich wegen [a, b) =
(−∞, b) \ (∞, a) die Rechnung: PX ([a, b)) = PX ((a, b)) = PX ((a, b]) = P ([a, b]) = F (b) −
F (a), also
P (a ≤ X < b) = F (b) − F (a).
Ist F an der Stelle b unstetig, so ergibt sich PX ([b, b]) = PX ({b}) = F (b+ ) − F (b),
insbesondere ist die Wahrscheinlichkeit, daß X den Wert b annimmt, positiv. Dann ergibt
sich wegen [a, b] = (−∞, b) \ (−∞, a) ∪ {b} die Rechnung PX ([a, b]) = PX ((−∞, b)) −
PX ((−∞, a)) + PX ({b}) = F (b) − F (a) + F (b+ ) − F (b) = P ({b}) + F (b) − F (a), also
P (a ≤ X ≤ b) = P ({b}) + F (b) − F (a).
Es wird sich in Anmerkung 34 herausstellen, daß zur Berechnung von Erwartungswert,
Varianz, Schiefe einer Zufallsvariablen X lediglich Kenntnis von deren Verteilung im
Rn erforderlich ist. Schließlich
P sollte nicht verschwiegen werden, daß für diskretes P die
Funktion F durch F (x) = {ω|X({ω})<x} P ({ω}) und für stetig differenzierbares F mit
Rx
Ableitung (Verteilungsdichte) f durch F (x) = −∞ f (t) dt darstellbar ist.
Ist insbesondere F
stetig, so läßt sich für alle Intervalle (a, b]
durch P ((a, b])
:=
F (b) − F (a) ein W-Maß auf R bestimmen.
1
γ_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
·
·
·_ _ _ _ _ _ _ _ _·
·
·
0
b = γ − Quantil
b
Ist F stetig und streng monoton, so ist die Gleichung α = F (z) für jedes γ ∈ (0, 1)
eindeutig lösbar. Die eindeutig bestimmte Lösung heißt γ-Quantil und wird üblicherweise
mit zγ bezeichnet. Definitionsgemäß ist dann P (X < zγ ) = γ, d.h., die Wahrscheinlich”
keit, daß X einen Wert < zγ annimmt, ist dann γ“. Ist γ = 21 = 0.5, so wird z0.5 als
Median, ist γ = 41 = 0.25, so wird z0.25 als Quartil bezeichnet. In der Schätztheorie (siehe
4
als unmittelbare Folgerung des HS der Differential- u. Integralrechnung
9.2. Zufallsvariable und Verteilungen
235
Unterabschnitt 10.2.2) spielen z0.9 , z0.95 , z0.99 , manchmal auch für γ noch näher an 1
liegende Quantile zγ eine Rolle.
Bevor mehrdimensionale Verteilungsfunktionen erörtert werden, noch Beispiele zum Vorangegangen.
Beispiel 28 Hier Skizzen zu einigen Verteilungsfunktionen, Weitere, wie etwa die Normalverteilung (Skizze von Verteilungsfunktion und Dichte) Beispiel 44s folgen später:
1. In 1. von Beispiel 24, wo X : {1, 2, 3, 4, 5, 6} → R durch X(i) := i definiert war, ergibt
sich die Verteilungsfunktion F (x) als Summe aller Elementarwahrscheinlichkeiten 16 , für
die ω < x ist, somit:
/
◦
1
◦ •
5/6
◦ •
4/6
◦ •
3/6

◦
•
2/6
0 falls x ≤ 0


 j
1/6 ◦ •
j ∈ {1, 2, 3, 4, 5, 6}
6 falls
F (x) =
·o •· · · · · ·

∧ 0≤j−1<x≤j ≤6


1 2 3 4 5 6
1 sonst.
Unstetigkeiten sind an den Stellen 1, 2, 3, 4, 5 und 6, die jeweilige Sprunghöhe“ ist 61 .
”
Sichtlich ist F linksstetig. All dies kann ganz unmittelbar aus dem Histogramm abgelesen
werden.
2. Auch in 2. von Beispiel 24, wo X(ω) = −1 für ω ∈ {1, 2, 3, 4, 5} und X(6) = 5, liest
man die Verteilungsfunktion direkt aus dem Histogramm ab:
◦
1
5
◦
•
6
F (x) =

 0
5
6

1
x ≤ −1
−1 < x ≤ 5
5<x
•
−1
·
5
3. (Gleichverteilung auf [a, b], Rechtecksverteilung) Die jetzt zu präsentierende Zufallsvariable ist nicht diskret. Eine zu messende Größe X soll jeden Wert zwischen
0 < a ≤ X(x) < b mit gleicher Wahrscheinlichkeit annehmen können, etwa den Durchmesser einer Scheibe mit Sollgrenzen a und b. Es liegt nahe, Ω := [a, b] und X(ω) := ω
zu wählen. Danach ist P ([α, β]) = β−α
b−a für jedes in [a, b] enthaltene Intervall [α, β]. Dies
vor Augen, erkennt man
236
Wahrscheinlichkeitstheorie
1
F (x) = P ({ω | ω < x}) =

 0
x−a
b−a

1
x<a
a≤x<b
b≤x
•
•
·
a
b
Es ist nicht schwierig, die Verteilungsdichte mit f (x) = 0 für x 6∈ (a, b) und f (x) =
zu erraten“, weil sie im offenen Intervall (a, b) die Steigung der Geraden ist.
”
1
◦
•
Die vorliegende Verteilung heißt
b−a
Gleichverteilung auf [a, b], bzw.
Rechtecksverteilung, weil ihre Dichtefunktion, die man in den Punkten a, b beliebig definieren darf, ein
•
·
·
Rechteck beschreibt:
a
b
·
1
b−a
4. (Massenverteilung als Zufallsvariable). Es sei ρ(x, y) ≥ 0 die Massendichte eines
2
2
Rebenen Bereichs K in R (d.h. einer Teilmenge K des R ) mit Gesamtmasse M =
K ρ(x, y) d(x, y) = 1. Nun interessiert uns lediglich der Träger des Maßes, also alle
jene Stellen, wo ρ(x, y) > 0 ist (man denke an an die Oberfläche einer Schale K mit
Nährlösung und Mikroben, so besteht dieser Träger aus den Mikroben – etwa erkennbar
an Verfärbung der Oberfläche, sodaß ρ proportional zum Grad“ der Verfärbung sein
”
Rkann). Die Masse einer Borelmeßbaren Teilmenge B ⊆ K ist dann durch P (B) :=
B ρ(x, y) d(x, y) gegeben. Offenkundig hat P alle Eigenschaften eines W-Maßes auf der
Sigmaalgebra aller in K enthaltenen Borelmengen.
Interpretation im W-theoretischen Sinn?
Antwort: Das Ereignis in der Borelmenge B befindet sich ein Punkt des Trägers von ρ“
”
hat die Wahrscheinlichkeit P (B). Im Mikrobenbeispiel ist P (B) die Wahrscheinlichkeit
dafür, in B Mikroben zu finden. M.a.W., die Zufallsvariable X : K → R2 , definiert
durch X(ω1 , ω2 ) = (ω1 , ω2 ) hat die Verteilungsdichte ρ.
Wenn die Verteilung an einer etwaigen Verfärbung nicht ohneweiters sichtbar ist, steht
der zufällige“ Aspekt des Beispiels sicher stärker im Vordergrund, weil man wissen
”
will, wie sich z.B. die Kultur ausbreitet.
5. (Quantile) Im folgenden Beispiel sollen Quantile berechnet werden. Im Fall der Gaußschen Normalverteilung, wie sie allermeist in der Statistik vorkommt (Beispiel 44),
aber auch bei vielen anderen gebräuchlichen Verteilungen benötigt man dazu Numerik
oder Tabellen – man kann nicht in elementarer Weise vorgehen, so wie im vorliegende
akademischen Übungsbeispiel“:
”
Eine Zufallsvariable X : Ω → R habe die Vertei? 1)
·?(0,
lungsdichte fX (x) = 0, falls |x| ≥ 1, und 1 − |x|,
 ???

??

?

falls |x| < 1 ist. Man berechne die Verteilungs·
·
·
funktion FX (x), sowie den Median z0.5 und das
(−1, 0)
(1, 0)
0.99-Quantil z0.99 .
9.2. Zufallsvariable und Verteilungen
237
Rx
Antwort(findung): Die Verteilungsfunktion FX (x) = −∞ fX (t) dt. Ist x < −1 so ist
Rx
Rx
FX (x) = 0. Ist nun −1 ≤ x < 0, so ist sichtlich FX (x) = −∞ fX (t) dt = −1 (1 −
Rx
|t|) dt = −1 (1 + t) dt = 12 (x + 1)2 . Entsprechend ist F (0) = 21 . Für positives x < 1
Rx
R0
Rx
ist fX (x) = 1 − x und somit ist FX (x) = −∞ fX (t) dt = −1 fX (t) dt + 0 fX (t) dt =
R
x
1
1
2
2 + 0 (1 − t) dt = 2 (1 + 2x − x ).
Da das γ-Quantil jene Abszisse zγ ist, für die die Gesamtfläche γ beträgt, ergibt sich
in elementarer Weise z0.5 = 0 (das gilt für jede am Nullpunkt zentrierte, symmetrische
Dichte, z.B. auch für N (0, σ), Beispiel 44). Um z0.99 zu bestimmen, muß man die
quadratische Gleichung 0.99 = 12 (1 + 2z − z 2 ) lösen, wobei lediglich 1 > z > 0 in Frage
kommen kann, weil ja 0 = z0.5 und 0.5 < 0.99 < 1 ist. Die völlig elementare Rechnung
ergibt z0.99 ≈ 0.8.
Bei symmetrischen Verteilungen mit µ = 0, wie dieser hier, aber auch bei N (0, σ)
interessiert man sich im Zuge der Intervallschätzung (siehe Unterabschnitt 10.2.2) bei
gegebener Irrtumswahrscheinlichkeit“ α für ein symmetrisches Intervall (−, ) mit
”
P (|X| < ) = F () − F (−) > 1 − α. Es sei α := 0.1 und man bestimme ein solches .
Antwort: Zunächst ergibt sich sofort FX ()−FX (−) = 12 (1+2−2 )− 12 (1−)2 ) = 2−2 .
√
Nun ergibt die Forderung 2 − 2 ≥ 1 − α die äquivalente |1 − | ≤ α, und diese
√
Forderung ist für alle ≥ 1 − α ≈ 0.68 erfüllt.
Welche W-theoretische Aussage läßt sich nun machen?
Antwort: Die Wahrscheinlichkeit, daß eine gemäß unserem FX verteilte Zufallsvariable
(definiert auf welchem Ω auch immer, jedoch Werten in R) einen Wert im Intervall
(−0.68, 0.68) annimmt, ist zumindest 0.9.
Im Falle nicht diskreter Zufallsvariabler X : Ω → Rn (etwa, wenn, wie in Beispiel 22 3.,
wo U (t) die Zufallsvariable Spannung zum Zeitpunkt t ist, oder wenn, wie in Beispiel 8,
n = 2 und X(ω) = (ω1 , ω2 ) die Position des Staubkorns auf dem Chip ist), könnte man
grundsätzlich danach fragen, wie groß denn die Wahrscheinlichkeit
P ({ω ∈ Ω | X(ω) ∈ I1 × · · · × In })
ist, wobei jedes Ij = [aj , bj ) ein (üblicherweise) halboffenes Intervall ist. Wenn n = 1, so
wäre das ein Intervall, für n = 2 ein achsenparalleles Rechteck, für n = 3 ein achsenparalleler
Quader. Man kommt mit weniger Information aus, als alle solchen Hyperquader:
Dazu benützt man die diesbezüglich wichtigste Eigenschaft der Σ-Algebra der Borelmengen: Für n = 1 kann jedes Intervall [a, b) in der Form
[a, b) = (−∞, b) \ (−∞, a)
geschrieben werden, und für n = 2 ist (siehe Skizze und beigefügte Legende)
[a, b)×[c, d) = ((−∞, c)×(−∞, d)\(−∞, a)×(−∞, d))∪((−∞, b)×(−∞, d)\(−∞, a)×(−∞, c)).
(Ähnliches gilt bezüglich Hyperquadern im n-dimensionalen Raum).
238
Wahrscheinlichkeitstheorie
Es ist [a, b) × [c, d) das mit ausgezogenen Linien umrandete Rechteck. Das strichlierte Rechteck ist
(−∞, a) × (−∞, d), das punktierte
(−∞, b) × (−∞, d), und der Durchschnitt der beiden Rechtecke ist
(−∞, a) × (−∞, c).
d_
c
_ _ _ _ _ _ _ _ _ _·
·
·a
·
·
·b
Definition 29 Ist X : Ω → Rn eine Rn -wertige Zufallsvariable, und für jedes n-Tupel a =
(a1 , . . . , an ) ∈ Rn die Menge {ω ∈ Ω | (∀i) (1 ≤ i ≤ n) ∧ Xi (ω) ≤ ai } in Σ (man sagt X
ist Σ − B-meßbar), so nennt man
F (a1 , . . . , an ) := P ({ω | X1 (ω) < a1 ∧ . . . ∧ Xn (ω) < an })
= P ({ω | X(ω) ∈ (−∞, a1 ) × · · · × (−∞, an })
= P (X −1 ((−∞, a1 ) × · · · × (−∞, an )))
die Verteilung(sfunktion) von X. Die Meßbarkeitsbedingung ist für diskretes W-Maß P automatisch erfüllt (weil ja dann Σ = P(Ω) ist).
Es ist durchaus üblich, in salopper Manier“ P (X ∈ B) := P ({ω | X(ω) ∈ B}) zu schreiben
”
und als (Aufenthalts)wahrscheinlichkeit von X in B“ zu interpretieren.
”
X −1 /
Ist (Ω, Σ, P ) ein W-Raum und X : Ω → R eine Zufallsvariable,
Σ
B
und sind B die Borelmengen, so ergibt sich mit PX := P X −1 das
PX
P
nebenstehende kommutative Diagramm.
! [0, 1]
Es erweist sich (R, B, PX ) als W-Raum, wobei man lediglich die Definition von PX hernehmen muß und die Axiome in Definition 9 nachzuvollziehen
hat.SZ.B. ist PX (R)
= P (X −1 R) =
S
S
P (Ω) = 1, bzw. sind Bi ∩ Bj = ∅ so ist PX ( i Bi ) = P (X −1 ( i Bi )) = P ( i X −1 (Bi )), und
da alle X −1 (Bi ) auch paarweise leeren Schnitt haben, ergibt sich weiters
X
X
=
P (X −1 (Bi )) =
PX (Bi ),
i
i
also ist PX sigmaadditiv.
Im Nachfolgenden sollen die wichtigsten Eigenschaften von Verteilungen (der Fall n = 1
ist hier miteingeschlossen) zusammengestellt werden:
Anmerkung 30 Es gelten folgende Fakten:
1. F ist in jedem seiner Argumente linksseitig stetig, wenn die übrigen Koordinaten
festgehalten werden.
2. F ist in jedem seiner Argumente nicht fallend, wenn die übrigen Koordinaten festgehalten werden.
9.2. Zufallsvariable und Verteilungen
239
3. F strebt gegen Null, bzw. Eins, wenn man mit allen Argumenten gegen −∞, bzw.
+∞ geht.
4. Erfüllt F die Eigenschaften 1.–3., so kann durch die Festsetzung Q((−∞, x1 ) ×
· · · × (−∞, xn )) := F (x1 , . . . , xn ) und entsprechendes Erweitern von Q auf ganz
B ein W-Raum (Rn , B, Q) konstruiert werden, derart, daß F die Verteilung der
Zufallsvariablen F wird.
Entsteht F als Verteilung der Zufallsvariablen X, so ist es üblich, Ω0 := Rn , Σ0 := B, die
Borelmengen zu setzen, und das W-Maß PX := Q als durch X auf Rn induziertes Maß
zu bezeichnen (in Beispiel 24 ist PX = P 0 jedesmal!).
9.2.3
Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V
und Schiefe
Der Begriff Erwartungswert ist im 17.Jhdt im Zuge der Bewertung von Spielen entstanden.
Im 1. von Beispiel 24 wurde X : {1, 2, 3, 4, 5, 6} → R mit X(i) = −1 für i ∈ {1, 2, 3, 4, 5} und
X(6) = 5 festgesetzt, und zwar als Verlust bzw. Gewinn. Wenn nun jemand hinreichend oft
spielt, so wird er im mit Wahrscheinlichkeiten gewichteten Mittel“
”
X
5
1
X(ω)P ({ω}) = (−1) × + 5 × = 0
6
6
ω
Euro gewinnen (allerdings kann es rauf- und runtergehen, dem Spieler also zwischendurch die
Luft ausgehen“). Diese Größe ist ein erstes Beispiel eines Erwartungswertes.
”
Eine gänzlich andere Deutung der gleichen Daten könnte darin bestehen, in den Punkten 1, 2, 3, 4, 5 jeweils Ladungen der Stärke −1 und im Punkt 6 Ladung der Stärke 5 anzubringen. Danach erweist sich das gewichtete Mittel bei zufälliger Wahl einer Zahl i aus
Ω = {1, 2, 3, 4, 5, 6} und notieren der Ladung P ({i}) als im Mittel gefundene“ Ladung.
”
In Beispiel 22 5., dem Beispiel mit der Spannung würde der über den Zeitraum [0, T ] gemitR
T
telte Wert, also E(U ) := T1 0 U (t) dt versucht werden, im Einklang mit der Normalspannung
zu halten, vorallem, wenn T von gewisser (offenbar nicht zu großer) Dauer ist.
Im Falle Beispiel 28 3., wo mit gleicher Wahrscheinlichkeit eine Zufallsvariable die Werte
0 < a ≤ X(ω) = ω ≤ b annimmt, stellt
Z b
1
a+b
x dx = · · · =
b−a a
2
einen Mittelwert aller möglichen Werte von X(ω) dar.
Noch deutlicher ist in Beispiel 28 4., für die Schale mit den Mikroben
Z b
ω1
ρ(t) dt
ω2
a
als Mittelwert einzuschätzen, nämlich als Ort, um welchen herum die Mikroben sich zu konzentrieren erwartet werden.
240
Wahrscheinlichkeitstheorie
Das nun folgende Beispiel verdeutlicht diese Auffassung und erlaubt die Interpretation
des Erwartungswertes einer vektorwertigen Zufallsvariablen als Massenmittelpunkt wie in der
klassischen Mechanik. Dieses Bild von Massenverteilung“ kann hilfreich sein, vorallem in
”
Abschnitt 10.3, wo es um die Kovarianz geht.
Beispiel 31 Es sei M eine Teilmenge im R3 . Zunächst soll diese Menge abzählbar sein und
aus Vektoren bestehen, d.h., M = {~xi | i ∈ N}. Angenommen, jedes ~xi ist die Position eines
Massenpunkts mit der Masse mi , derart daß
X
mi = 1
i
ist (Gesamtmasse = 1). Dann lernt man, daß
X
~ :=
S
mi ~xi
i
der Massenmittelpunkt des Systems ist.
In dieser Form erlaubt das eine W-theoretische Interpretation: Dazu betrachten wir ein
Teilchen (=Massenpunkt) ω ∈ Ω := R3 , das mit Wahrscheinlichkeit mi sich im Punkt ~xi
aufhält, m.a.W., P (ω = ~xi ) = mi . In diesem Sinne liegt das Diracmaß
X
P =
mi δ~xi
i
vor, und dann ist
~
~ = E(X),
S
~
wobei X(ω)
= ω die Identität auf R3 ist.
Nun sei M nicht notwendig
abzählbar. Ist die Menge z.B. ein Würfel mit entsprechender
R
Massendichte ρ, sodaß (x,y,z)∈M ρ(x, y, z) d(x, y, z) = 1 ist, so beschreibt man den Massenmittelpunkt analog durch Integrale
Z
~
~
S = E(X) =
~xρ(x, y, z) d(x, y, z).
M
Beispiel 32 (Verteilungsfunktion für Münzwurf)
Man skizziere die Verteilungsfunktion für den Laplace-W-Raum (Ω, P(Ω), P ) für Ω := {0, 1},
wobei P ({i}) := 21 für i ∈ {0, 1} sein soll (Werfen einer Münze). Wie kann F (1+ ) − F (−2),
bzw. F (1) − F (0) gedeutet werden?
Antwort: Man definiert eine Zufallsvariable X : Ω → R durch X({i}) := i. Nun ist
F (−∞, a) := P (X −1 (−∞, a)) = |{i∈Ω|X(i)<a}|
= |{i∈Ω|i<a}|
. Dann ergibt sich folgende Skizze
2
2
und Rechnung:
9.2. Zufallsvariable und Verteilungen
241
O
−∞ o
/
◦
1
1
2
◦
0
•
•
/ +∞
0
1
F (1+ ) − F (−2) = P (−2 < i < 1+ ) = 1 (mit 1+ ist man ein bißchen rechts von 1,
”
also sind alle Werte von i im Intervall“), bzw. F (1) − F (0) = P (0 < i < 1) = 12 , weil
F (1) − F (0) = PX ((−∞, 1)) − PX ((−∞, 0)) = PX ((−∞, 1) \ (−∞, 0)) = PX ([0, 1)) = P (0 ≤
i < 1) = P ({0}) = 21 .
Im Eingangsbeispiel wurde
schon angedeutet, daß für eine Zufallsvariable X im endlichen
P
Fall der Wert E(X) := ω∈Ω X(ω)P ({ω}) als mit den Wahrscheinlichkeiten des Auftretens
der Werte gewichteter Mittelwert betrachtet werden kann, der bei hinreichend oftmaligem
Wiederholen des Zufallsexperiments zu erwarten“ ist. E(X) läßt sich durch F ausdrücken,
”
nämlich, wenn S die Menge aller Sprungstellen ist, so hat man wegen P ({X = s}) = F (s+ ) −
F (s)
X
E(X) =
s(F (s+ ) − F (s))
s∈S
und der Nutzen dieser Formel liegt darin, daß man lediglich F kennen muß!
Definition 33 (Erwartungswert, Varianz) Es sei (Ω, Σ, P ) ein W-Raum und X : Ω → R
eine Zufallsvariable. Ihre Verteilungsfunktion sei F bis auf einer höchstens abzählbaren Menge
S stetig differenzierbar mit Ableitungsfunktion F 0 = f . Weiters sei
Z ∞
X
|x|f (x) dx +
|s|P ({s}) < ∞,
−∞
s∈S
so heißt
Z
∞
µX = E(X) :=
xf (x) dx +
−∞
X
sP ({s})
s∈S
Erwartungswert von X. Es heißt f Verteilungsdichte.
Es heißt
V (X) := E((X − µX )2 )) = E((X − E(X)2 ) = E(X 2 ) − E(X)2
Varianz von X und
σX :=
p
V (X) =
p
E((X − E(X)2 )
242
Wahrscheinlichkeitstheorie
die Streuung oder Standardabweichung.
Schließlich nennt man E((X − µ)3 ) die Schiefe der Verteilung.
Anschaulich ist der Erwartungswert ein Mittelwert“, die Varianz besagt etwas, wie weit
”
die Werte der Zufallsvariablen vom Mittelwert weg variieren“, und die Schiefe ist ein grobes
”
Maß, inwieweit die Verteilung nicht symmetrisch“ um µ gelegen ist.
”
Anmerkung 34
1. Im diskreten Fall ergibt sich die zu Beginn schon benützte Formel
P
E(X) = x xP (X = x);
R∞
2. Wenn F stetig differenzierbar ist, ergibt sich E(X) = −∞ xf (x) dx.
3. Sind X und Y Zufallsvariable auf Ω, a, b ∈ R, und existieren E(X) und E(Y ), so
auch E(aX + bY ) und es ist
E(aX + bY ) = aE(X) + bE(Y ). ( E ist ein lineares Funktional“)
”
4. E(X) ist charakterisiert als jene Zahl µ für die E(X − µ) = 0 gilt.
X
5. Hat man Ω
"
g
A
"
2 R , wobei A ⊆ R ist, so ist gX Zufallsvariable auf Ω und
gX
für diskretes X
E(gX) =
X
g(x)P (X = x) = EX (g).
x∈X
6. (Transformation für 1-dimensionales g)
Es sollen Zufallsvariable X, Y : Ω → R mit stückweise
stetigen Dichten fX , fY und g : R → R stetig differenzierbar und streng monoton sein, welche die Rolle
einer Transformation spielt, d.h. Y = gX. Weiters soll
w : R → R eine integrierbare Funktion bezüglich der
Dichte fX sein. Die Situation ist jene im Diagramm.
Als Konsequenz der Substitutionsregel für Integrale
ergeben sich folgende Beziehungen:
Für die Dichten gilt:
Ω?
??

??Y


??



g
/R
R?
??

??


?

w ?
−1
 wg
X
fX (x) = fY (g(x))g 0 (x) bzw. fY (y) = fX (g −1 (y))
R
1
g 0 (g −1 (y))
Für die Verteilungsfunktionen gilt:
FX (x) = FY (g(x)), bzw. FY (y) = FX (g −1 (y))
Für die Erwartungswerte der Zufallsvariablen wX und wg −1 Y gilt:
EY (wg −1 ) = EX (w).
.
9.2. Zufallsvariable und Verteilungen
243
7. Ist X : Ω → Rk eine Zufallsvariable und g : Rk → R stetig differenzierbar, und ist
fX Dichte der Verteilung von X, so kann die Verteilung von gX durch
Z
FgX (z) =
fX (x) d(x)
{x|g(x)<z}
bestimmt werden.5
Beispiel 35 Einige Beispiele zur Transformation von Zufallsvariablen, vorallem 6. und 7.
Skalierungen“ von der Form g(x) = ax + b werden für Normalverteilungen benützt (vgl.
”
Beispiel 44). Der Gebrauch von 7. wird ebenso dort für die Berechnung der Verteilung von
g(X, Y ) = X + Y benötigt. Bei der Herleitung der χ2 - und der t-Verteilung (Beispiel 55 und
Beispiel 56) spielt diese Formel auch eine wichtige Rolle, auch wenn dies in diesem Skriptum
nicht vorgeführt werden soll.
1. Die Zufallsvariable X : Ω → R sei gleichverteilt in [−1, 1]. Wie sieht ihre Verteilungsfunktion aus? Für Y = g(X) = aX + b mit a > 0 berechne man die Verteilungsfunktion
FY . Man berechne EX (X 2 ) und den Erwartungswert EY (Y ).
Antwort(findung): X hat die Dichte fX (x) = 12 (weil [−1, 1] die Länge 2 hat). Somit
ist FX (x) = 0, 12 (x + 1), 1 je nachdem, ob x < −1, −1 ≤ x < 1 bzw. 1 < x ist. Es ist
R∞
R1
3 1
EX (X 2 ) = −∞ x2 fX (x) dx = −1 x2 12 dx = 12 x3 = 13 .
−1
Im ersten Fall ist y = g(x) = ax + b. Die Monotonie ist für a > 0 erfüllt. Für die
Verteilungsfunktion ergibt die Transformationformel für y = ax + b
fX (x) = fY (ax + b)g 0 (x) = fY (ax + b)a = fY (y)a,
und weil y = g(x) = ax + b sofort g −1 (y) = y−b
a ergibt, bekommt man fY (y) =
y−b
1
1
a fX ( a ), aus dem Intervall [−1, 1] wird das Intervall [−a+b, a+b], auf dem fY (y) = 2a
ist. Ansonst ist fY (y) = 0.
Für die Verteilungsfunktion benützen wir die entsprechende Formel in 6., um FY (y) =
FX (g −1 (y)) = FX ( y−b
a ) zu bekommen. Die Fallunterscheidung in der Definition von FX
überträgt sich auf eine solche für FY , weil die Werte −1 und 1 unter g in die Werte
−a + b und a + b übergehen.
Deshalb ist FY (y) = 0, 12 ( y−b
a + 1), 1, je nachdem ob y < −a + b, −a + b ≤ y < a + b,
bzw. a + b ≤ y ist.
Nun zu EY (Y ). Man kann die Substitutionsregel für die Funktion w := g verwenden.
Damit bekommt man (die Integration über die ungerade Funktion x im symmetrischen
Intervall [−1, 1] liefert keinen Beitrag):
Der Nachweis benützt FgX (z) = P ((gX)−1 (−∞, Rz)) = P (X−1 g −1 (−∞, z)) = PX (g −1 (−∞, z)), sowie
(−∞, z) = {x | g(x) < z} und schließlich PX (A) = A fX (x) d(x).
5
g
−1
244
Wahrscheinlichkeitstheorie
EY (Y ) = EY (gg −1 Y ) = EX (gX) =
R1
−1 (ax
+ b) 12 dx =
1
2
R1
−1 b dx
= b.
Wer es nicht glaubt oder gerne rechnet“, berechnet EY (y) auf direktem Weg:
”
R a+b 1
1 1 2 a+b
1
((a + b)2 − (a − b)2 ) = b.
EY (Y ) = −a+b y 2a dy = 2a 2 y −a+b = 4a
2. Es sei X eine auf [0, 1] gleichverteilte Zufallsvariable im Sinne von Beispiel 28 3. Welche
Dichte fY bzw. welche Verteilung FY hat die Variable Y = X 2 ? Welche Verteilung hat
sie, wenn sie auf dem Intervall [−1, 2] gleichverteilt ist?
Antwort(findung):
Offenbar ist g(x) = x2 auf dem Intervall [0, 1] streng monoton mit Ableitung g 0 (x) = 2x.
Der Rest von R darf außer acht gelassen werden, man könnte g durch g(−x) = −x2 so
fortsetzen, daß die Voraussetzungen der Substitutionsregel erfüllt sind. Deshalb ergibt
√
sich für die Dichten wegen g −1 (y) = y:
√
fX (x) = fY (g(x))g 0 (x) = fY (y)2x = 2fY (y) y,
also fY (y) =
1
√
2 y,
sofern y ∈ (0, 1] und Null sonst.
Für die Verteilungsfunktion FY ergibt die Transformationsformel in 6. sofort FY (y) =
√
FX (g −1 (y)) = y falls y ∈ [0, 1] ist, bzw. Null für y < 0 und 1 für y ≥R 1. (Das gleiche
y
Resultat findet man auf direktem Weg: Für y ∈ [0, 1] ist FY (y) = −∞ fY (y) dy =
R y du
√
√
y.)
0 2 u =
Jetzt zu [−1, 2]. Nun ist g(x) = x2 nicht mehr monoton, sodaß der Gebrauch der
Substitutionsregel für Integrale mittels 7. zu erledigen geht. Es ist k = 1 und die Menge
√ √
{x ∈ R | x2 < z} = (− z, z). Nun ist fX = 1 genau auf [−1, 2] und man muß nur
mehr das Integral auszuwerten, um für z ∈ [−1, 2] (für z < 0 ist das Integrationsintervall
√
leer weil z nicht reell ist, d.h. F (z) = 0, und für z > 2 ist F (z) = 1!):
Z min{2,√z}
Z
√
√
fX (x) dx =
1 dx = min{2, z} − max{−1, − z},
FgX (z) =
√ √
√
(− z, z)
max{−1,− z}
was im ersten Moment erschreckend aussieht, jedoch allerhand Fallunterscheidungen in
geschlossener Form wiedergibt. Es darf angemerkt werden, daß für die Normalverteilung
die gleiche Aufgabe auf die Chiquadratverteilung (siehe Beispiel 55) führt.
3. Es sei A ⊆ Ω ein Ereignis, dessen Eintrittswahrscheinlichkeit P (A) = p ist. Nun sei
X : Ω → R definiert als 1 falls das Ereignis eintritt, bzw. Null, wenn nicht (die Indikatorfunktion von A). Man berechne E(X), E(X 2 ) und V (X) := E(X 2 ) − E(X)2 .
P
Antwortfindung: In Anmerkung 34 4., sei g(x) := x. Dann ist E(X) = x∈R xP (X =
x) = 0 · P (X = 0) + 1 · P (X = 1) = P ({ω | X(ω) = 1}) = P (A) = p.
P
Analog, wenn g(x) = (x − p)2 , findet man E(gX) = x∈R (x − p)2 P (X = x) = (0 −
p)2 P (A0 ) + (1 − p)2 P (A) = pq, wobei, wie meist üblich q := 1 − p ist.
Antwort: Es ist E(X) = p und V (X) = pq. Das Ergebnis wird für die Bernoulliverteilung in Beispiel 40 nützlich sein.
9.2. Zufallsvariable und Verteilungen
9.2.4
245
Unabhängigkeit von Zufallsvariablen
Sind X und Y zufällige Variable auf einem Raum Ω, so kann es vorkommen, daß sie ihre Werte voneinander unbeeinflußt“ in zufälliger Weise annehmen. So etwa wird beim 5
”
maligen Würfeln hintereinander die Augenzahl in keinem der 5 Versuche jene der anderen
Versuche beeinflußen. Umgekehrt würde beim 2 maligen Würfeln die Summe der Augenzahlen und das Ergebnis des ersten Wurfes nicht unabhängig sein (vgl. die dritte, hinterhältige“
”
Situation in Anmerkung 20. Um zu präzisen Begriffen zu gelangen, erinnern wir an die Unabhängigkeit von Ereignissen A und B (Definition 18), nämlich P (A ∩ B) = P (A)P (B).
Es erscheint natürlich, diese Definition dazu zu verwenden, daß X und Y bei belieber Vorgabe von A und B unabhängig ihre Werte in A und B annehmen, also P ({ω | X(ω) ∈
A ∧ Y (ω) ∈ B}) = P ({ω | X(ω) ∈ A)})P ({ω | Y (ω) ∈ B}). Glücklicherweise muß man
diese Forderung nicht für alle Paare von Mengen A, B prüfen. Ist A das Ereignis X < x“
”
und B das Ereignis Y < y“, so ergibt die Definition der Verteilungsfunktion F(X,Y ) , daß
”
F(X,Y ) (x, y) = P (X < x ∧ Y < y) = P (A ∩ B) und wegen der Unabhängigkeit von A und
B ergibt sich hieraus F(X,Y ) (x, y) = P (A)P (B) = FX (x)FY (y). Umgekehrt kann man aus
F(X,Y ) (x, y) = FX (x)FY (y) die Unabhängigkeit im obigen Sinn ableiten. Deshalb wird üblicherweise die folgende einfachere Definition der Unabhängkeit von Zufallsvariablen gegeben:
Definition 36 Die zufälligen Variablen X, Y : Ω → R heißen (stochastisch) unabhängig, falls
die Zufallsvariable (X, Y ) : Ω → R × R die Verteilungsfunktion F(X,Y ) (a, b) = FX (a)FY (b)
besitzt.
Die Folge Xi : Ω → R mit i ∈ I heißt stochastisch unabhängig, falls jede endliche Teilfolge
stochastisch unabhängig ist. Ist I endlich, so muß die Verteilungsfunktion der Folge (Xi | i ∈
I) von der Form
Y
F(Xi |i∈I) (ai | i ∈ I) =
FXi (ai )
i∈I
sein.
Anmerkung 37 Sind A und B Ereignisse in Ω, so sind sie genau dann unabhängig,
wenn die Indikatorfunktionen stochastisch unabhängig sind.
Haben insbesondere FX und FY Dichten fX und fY , so ist zur Unabhängigkeit hinreichend und notwendig, daß F(X,Y ) als Dichte das Produkt f(X,Y ) (x, y) = fX (x)fY (y)
hat.
Ist (Xi | i ∈ I) eine endliche Folge von Zufallsvariablen mit Dichten, so sind sie genau
dann stochastisch unabhängig, wenn die stochastische Variable (Xi | i ∈ I) : Ω → RI
eine Dichte hat, und diese die Gleichung
Y
f(Xi |i∈I) ((xi | i ∈ I)) =
fXi (xi )
i∈I
erfüllt.
246
Wahrscheinlichkeitstheorie
Im Falle der Unabhängigkeit von X und Y ergibt sich
µXY = EXY (XY ) = EX (X)EY (Y ) = µX µY
und hieraus nach ein wenig Rechnung
V (XY ) = V (X)V (Y ) − µ2X V (Y ) − µ2Y V (X).
Beispiel 38 Einige Beispiele hiezu
1. Ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} (Werfen mit 2 unabhängigen Würfeln) und
X, Y : Ω → R die Projektionen, die jedem Wurf (i, j) die Wert X(i, j) = i, bzw.
Y (i, j) = j zuordnet, sind unabhängig: Es ist P ({(i, j) | i = i0 } = 16 , sodaß die Verteilungsfunktionen FX (x) genau jene in Beispiel 28 1. (jene für die Augenzahl mit
einem Würfel) wird. Analog ergibt sich FY . Die Verteilung von (X, Y ) bekommt man,
1
indem man zunächst P ({(i, j) | (i, j) = (i
ergibt sich
P0 , j0 )})
P = 36 ermittelt. Danach
P
P
1
F (i0 , j0 ) = P ({(i, j) | i < i0 ∧ j < j0 }) = i<i0 j<j0 P ({(i, j)}) = i<i0 j<j0 36
=
P
P
P
P
1
1
i<i0 6
j<j0 6 =
i<i0 P ({i}
j<j0 P ({j}) = FX (i0 )FY (j0 ).
2. Ist Ω und X wie vorhin, jedoch Y (i, j) := i+j, so genügt es, P ({(i, j) | (X(i, j), Y (i, j)) =
(5, 2)}) = P ({(i, j) | i = 5 ∧ i + j = 2}) = 0 und P ({(i, j) | X(i, j) = 5}) = 16 , sowie
1
1
P ({(i, j) | i+j = 2}) = 36
, also P ({(i, j) | X(i, j) = 5}×P ({(i, j) | i+j = 2}) = 216
6= 0
zu vermerken.
3. Beim Fehlergesetz (im Anschluß an Anmerkung 48) werden Annahmen über die Unabhängigkeit von Fehlern gemacht.
9.2.5
Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
Es sei (X, Y ) : Ω → R2 eine 2-dimensionale Zufallsvariable, etwa zufälliges Werfen von
Darts auf eine Zielscheibe. Dann haben die Zufallsvariablen X, Y und (X, Y ) entsprechend
Verteilungen FX , FY und F(X,Y ) . Ist die Verteilung von (X, Y ) bekannt, so ergibt sich die
Verteilung von FX durch
X
P(X,Y ) ({(x, y)})
FX (x) =
y∈Y
im diskreten Fall und falls f(X,Y ) eine Dichte ist, ergibt sich
Z ∞
fX (x) =
f (x, y) dy = EY (f ).
−∞
Man nennt FX und FY die Randverteilungen der Zufallsvariablen (X, Y ).
Man bezeichnet im diskreten Fall den Bruch
P(X,Y ) (x, y)
PX (Y | x) := P
x P(X,Y ) (x, y)
9.2. Zufallsvariable und Verteilungen
247
als bedingte Wahrscheinlichkeit dafür, daß die Variable Y den Wert y annimmt, wenn X den
Wert x angenommen hat.
Analog nennt man, falls (X, Y ) eine Dichte f(X,Y ) besitzt, den Quotienten
fY |x (x, y) :=
f(X,Y ) (x, y)
fX (x)
bedingte Wahrscheinlichkeitsdichte für Y = y falls X = x gilt.
Im diskreten Fall heißt
E(g(X, Y ) | x) :=
X
x
g(x, y)PX (Y | x)
248
Wahrscheinlichkeitstheorie
und im Falle von Dichten
Z
∞
E(g(X, Y ) | x) :=
g(x, y)fY |x (x, y) dy
−∞
bedingter Erwartungswert von g(X, Y ), wenn X den Wert x angenommen hat.
Es ergibt sich unmittelbar E(g(X, Y )) = EX (E(g(X, Y ) | x)) in beiden Fällen.
Die angeführten Konzepte sind für vektorwertige Variable X.Y sinnvoll formulierbar. So
z.B. können für eine Zufallsvariable (X, Y, Z) : Ω → R3 aus der gemeinsamen Verteilung
von X, Y , und Z (d.i. F(X,Y,Z) ) Randverteilungen FX , FY , FZ , F(X,Y ) , F(X,Z) , F(Y,Z) gebildet
werden und entsprechend bedingte Erwartungswerte und -dichten.
Diese Begriffe sind von großer Wichtigkeit etwa zur Formulierung von Bedingungen an
stochastische Prozesse (vgl. Unterabschnitt ??), etwa in der Signalverarbeitung.
9.2.6
Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen
In den nachstehenden Tabellen finden sich die Daten der entsprechenden Verteilungen. Hier
sollen einige Aufgaben das Auftreten von Zufallsvariablen mit den entsprechenden Verteilungen repräsentieren.
Beispiel 39 (Dirac- oder Punktverteilung) Es sei Ω ⊆ Rn und ~x0 ∈ Ω, sowie Σ := P(Ω),
sowie P ({~x0 }) = 1 und P ({~x}) = 0, falls ~x 6= ~x0 ist. Die Verteilungsfunktion von X(~
ω ) := ω
~
ist gegeben durch
0 ∃i xi < x0i
F (x1 , . . . , xn ) =
1 ∀i xi ≥ x0i
Ist gX mit g : A ⊆ Rn → R und ~x0 ∈ A eine Zufallsvariable, so ist E(gX) = g(~x0 ) und
V (gX) = 0. Es ist oft üblich, dieses Maß in der Form δ~x0 zu schreiben.
Allgemeiner kann jedes diskrete Punktmaß im Rn in der Form
X
P =
ai δ~xi
i
P
beschrieben werden, wobei lediglich ai ≥ 0 und i ai = 1 gewährleistet sein muß.
Ist n = 1, so sind
X
µ=
xi ai
i
und
σ2 =
X
ai x2i − µ2 .
i
Beispiel 40 (Bernoulliverteilung6 ) Es sei (Ω, Σ, P ) ein beliebiger W-Raum, und A ∈
Σ ein Ereignis mit P (A) = p. Dann ist klarerweise P (A0 ) = 1 − p, welches hinfort mit
q bezeichnet werde. Wie in Beispiel 35 3. ausgeführt, ist die Verteilungsfunktion FX der
Zufallsvariablen X : Ω → R mit X die Indikatorfunktion (Wert=1, falls ω ∈ A, also das
6
Auch Binomialverteilung
9.2. Zufallsvariable und Verteilungen
249
Ereignis A eintritt, bzw. Null, wenn nicht) genau jene des Diracmaßes δp auf R, d.h. 0 für
x ≤ 0 und 1 für x > 0. Wie dort ausgeführt wurde, ist E(X) = p und V (X) = pq, wobei
q := 1 − p ist.
Nun soll (in Gedanken) das Experiment zur Ermittlung von P (A) = p (bzw., gleichbedeutend von E(X)) in unabhängiger Weise mehrfach, nämlich n mal durchgeführt werden. Jedem
solchen Versuch entspricht auf Ω eine Zufallsvariable Xi : Ω → {0, 1} ⊆ R mit FXi = FX
(gleiche Verteilung wie X). Hiedurch wird eine Zufallsvariable (X1 , . . . , Xn ) : Ω → Rn festgelegt, die wegen der Unabhängigkeit der Xi eine Produktverteilung hat, d.h., es ist für jede
Wahl der xi ∈ {0, 1}
P(
n
\
{ω | Xi (ω) = xi }) =
i=1
n
Y
P ({ω | Xi (ω) = xi }) = pk q n−k
i=1
wobei k die Anzahl der Indizes i ist, für die xi = 1 ist, oder, was auf das Gleiche hinausläuft,
die Anzahl jener Indizes i, für die das Ereignis APim i.ten Versuch eintritt.
Nun sei S : Ω → R die Zufallsvariable S := i Xi , welche offenkundig den Wert k ∈ N
genau dann annimmt, wenn in genau k der n Experimente das Ereignis A eingetreten ist.
Dementsprechend ist
n k n−k
P ({ω | S(ω) = k}) =
p q
,
k
weil es genau nk Möglichkeiten, eine k-elementige Teilmenge der n-elementigen Menge der
Indizes {1, . . . , n} zu wählen.
In Übereinstimmung mit der allgemeinen Theorie ist PS ein diskretes W-Maß auf R,
nämlich
n X
n k n−k
p q
δk .
PS =
k
k=0
Als harmlose Übung hat man unter Anwendung des binomischen Lehrsatzes
X
X n pk q n−k = (p + q)n = (p + 1 − p)n = 1.
PS ({k}) =
k
k
k
Für den Erwartungswert von S findet man gemäß Anmerkung 34
P
E (S) = Px∈R S(x)P ({ω | S(ω) = x})
= Pnk=0 kP
= k})
({ω | S(ω)
n k
n−k
=
p)
k k k p (1 −
p k
P
n
n
= q
k≥1 k k
q
und man kann z.B. durch etwas langwierige vollständige Induktion zeigen (ein recht flotter
Nachweis wird sich im M3-ET Skriptum als Anwendung des Rechnens mit Polynomen finden),
daß
µ = E (S) = np.
250
Wahrscheinlichkeitstheorie
Um V (S) zu berechnen, verwenden wir E(X 2 ) = V (X) + p2 = p und die Unabhängigkeit der
Xi , die nach sich zieht, daß E(Xi Xj ) = E(Xi )E(Xj ) = p2 für i 6= j ist. Danach ergibt sich
P
V (S) = E(S 2 ) − E(S)2 = E( i,j Xi Xj ) − n2 p2
= nE(X 2 ) + n(n − 1)p2 − n2 p2
= np − np2 = npq.
Jede Zufallsvariable, welche wie S verteilt ist, heißt B(n; p)-verteilt. Es ist die Binomialoder Bernoulliverteilung. Offenbar hat die Zufallsvariable Sn , die man bei realen Experimenten empirisch ermittelt, gemäß der eben behandelten Theorie den Erwartungswert p und
Varianz pq
n . Die W-theoretische Deutung des wiederholten Experiments besteht darin, daß
bei wachsendem n die Wahrscheinlichkeit dafür, daß die relative Häufigkeit hn (A) = nk mit
immer kleinerer Varianz die Wahrscheinlichkeit p = P (A) approximiert, gegen 1 geht. Hierauf soll im Bernoulliexperiment (Beispiel 46) und schließlich beim zentralen Grenzwertsatz
(Anmerkung 48) eingegangen werden (Grundlagen der Statistik)!.
Am Ende dieses Beispiels möge eine konkrete Situation stehen:
• Es ist eine Lieferung mit 500 Sicherungen angekommen und man weiß, daß es 5%
fehlerhafte dabei gibt, weil man die Firma schon kennt. Wenn man in zufälliger Weise 5
Sicherungen entnimmt, wie groß ist die Wahrscheinlichkeit, daß mindestens eine davon
kaputt ist?
Man kennt die Wahrscheinlichkeit des Ereignisses A, Sicherung kaputt“, sie ist p =
”
5
100 . Nun wird das Experiment, eine Sicherung herauszunehmen, und zu testen, ob
sie zu A gehört, n = 5 mal gemacht. Somit ist unsere Frage nach mindestens einer
kaputten Sicherung gleichbedeutend zu S = X1 + . . . + X5 ≥ 1. Die Annahme der
Unabhängigkeit ist nicht grundsätzlich gerechtfertigt, weil das Herausnehmen der 5
Sicherungen grundsätzlich nicht unabhängig voneinander ist (man legt die Sicherungen
nicht zurück), da jedoch die Anzahl der Sicherungen groß ist, ist das vernachlässigbar.
5
Somit ist die Verteilung B(5; 100
) und somit ergibt sich als Wahrscheinlichkeit
5 0 5
1 − PS (0) = 1 −
p q = 1 − (1 − 0.05)5 ≈ 0.226,
0
was gar nicht so klein ist!
Beispiel 41 (Poissonverteilung) Wenn in der Binomialverteilung p sehr klein (etwa für
das Auftreten eines Produktionsfehlers) und n groß ist (etwa die Anzahl der entnommenen
Stichproben), so ist PS ({k}) etwas mühsam zu berechnen. Deshalb sind unter Benützung von
λ := np folgende Approximationen einer B(n; p)-verteilten Zufallsvariablen X gebräuchlich:
n k n−k
E(X) = λ, V (X) = λq, PX ({k}) =
p q
≈ λk e−λ .
k
Während die Formeln für E(X) und V (X) lediglich durch Einsetzen entstehen, bedarf jene
9.2. Zufallsvariable und Verteilungen
251
für PX ({k}) etwas Erklärung. Es ist
PX ({k}) =
≈
≈
≈
Es erweist sich PX ({k}) :=
λk −λ
k! e
PX (R) =
X
k
n−j+1 k
λ n−k
j=1
jn λ 1 − n
−k
Qk 1 k
λ n
1 − nλ
j=1 j λ 1 − n
λ n
λk
k! 1 − n
λk −λ
.
k! e
Qk
als W-Maß auf R, weil jeder dieser Werte positiv und
PX ({k}) =
X λk
k
k!
ke−λ = eλ e−λ = 1
ist. Eine Zufallsvariable X mit solcher Verteilung heißt Poissonverteilt mit dem Parameter
λ. Solche Variable treten beim Poissonprozess auf (z.B. radioaktiver Zerfall, aber auch Warteschlangentheorie – Serverrequests, Telefonkunden, etc. seltene Ereignisse“).Inwieweit die
”
Näherungen für B(n : p) brauchbar sind, sei auf einschlägige Literatur verwiesen. In [13]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen, die Bernoulliverteilung
durch die Poissonverteilung brauchbar zu approximieren.
Hier ein Beispiel aus [13]:
Eine Fabrik produziert Werkstücke mit p = 0.001 Fehlerwahrscheinlichkeit (d.i. ein Promille). Wie groß ist die Wahrscheinlichkeit, in einer Lieferung von 500 Stück mindestens 2
unbrauchbare vorzufinden?
1
Antwort: Wie in Beispiel 40 kennt man die Fehlerwahrscheinlichkeit p = 1000
dafür, ein einzelnes, fehlerhaftes Werkstück zu entnehmen. Um die Anzahl X der fehlerhaften Werkstücke
zu bekommen, denkt man sich dieses Experiment 500 mal wiederholt und läßt X die Anzahl
der Versuche sein, bei denen fehlerbehafteten Werkstücken gefunden würden. Dieses X ist
1
B(500, 1000
) verteilt und somit ist
500
500
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − 0.999 −
0.999499 ≈ 0.090128.
1
Es ist np = 0.5 < 10 und n = 500 > 1500p = 1.5, und die Approximation ergibt
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − e−0.5 − 0.5e−0.5 ≈ 0.090204.
Beispiel 42 (Hypergeometrische Verteilung) Eine Zufallsvariable X : Ω → R heißt
hypergeometrisch mit den Parametern m, N, n ∈ N mit m ≤ N und s ≤ N verteilt, im
Zeichen, H(m, N, s) wenn sie auf R das diskrete W-Maß
1 m N −n
PX ({k}) = N k
m−k
s
besitzt. Wie im weiteren ausgeführt werden wird, handelt es sich um die Wahrscheinlichkeit,
aus einer N -elementigen Menge mit einer gewissen m-elementigen Teilmenge (Elemente mit
252
Wahrscheinlichkeitstheorie
bestimmtem Merkmal) bei vorgegebenem s eine s-elementige Teilmenge S von N mit |S ∩
M | = k zu finden.
Weiters sind Erwartungswert und Streuung:
X
s s N −m
s
1−
.
E(X) =
kPX ({k}) = M , V (X) = m
N
N
N
N −1
k
Zunächst der auch für konkrete Anwendungen (etwa das nachfolgende Beispiel) nicht uninteressante Hintergrund: Es sei M eine Teilmenge der endlichen Menge N . Man darf sich
vorstellen, daß dieses M aus Elementen der Menge N mit einem gewissen Merkmal besteht.
Nun wird eine Zahl s vorgegeben und aus M in zufälliger Weise eine eine s-elementige Teilmenge S herausgenommen, die man sich als Stichprobe vorstellt, und interessiert sich für die
W-Verteilung der Zufallsvariablen X(S) = |S ∩ M |, die angibt, wieviele Elemente in S zu M
gehören, also auch das besagte Merkmal haben.
Etwas präziser, man betrachtet den Ereignisraum Ω := {S ⊆ N | |S| = s}, bei dem
jedes Elementarereignis in der Auswahl einer s-elementigen Teilmenge S ⊆ A besteht. Die
Annahme der Zufälligkeit bedingt, Ω zu einem Laplace W-Raum im Sinne von Definition
5 zu machen (jedes Elementarereignis ist gleichwahrscheinlich), somit ist Σ die Menge aller
Teilmengen von Ω und
1
P ({S}) := |N | .
s
Wie lautet die Verteilung von X?
Antwort: Um die Verteilung von X zu bestimmen, bestimmen wir, ähnlich wie in den
vorigen Beispielen PX ({k}) = P ({S | X(S) = k}). Jede Auswahl S ist disjunkte Vereinigung
S = (S ∩ M ) ∪ (S ∩ M 0 ). Deshalb läßt sich jedes S mit |S ∩ M | = X(S) = k durch Vorgabe
einer k-elementigen Teilmenge T von M und und einer s − k-elementigen Teilmenge U von
M 0 eindeutig festlegen, nämlich S = T ∪ U .
N
|M |
Für ein festes k-elementiges T gibt es k , danach für
0 |
|M | = m
M
M0
die Wahl des Komplementanteils U |M
s−k Möglichkeiten ein k-elementiges S zusammenzustellen“:
”
1
|M | |N | − |M |
.
PX ({k}) = |N |
k
s−k
s
|T | = k
|U | = s − k S
T =S∩M
U = S ∩ M0
Konkretes Anwendungsbeispiel:
Aus einer Lieferung von 490 funktionierenden und 10 defekten Bauteilen werden (in zufälliger Weise) 50 Stück als Stichprobe S ohne Zurücklegen herausgenommen. Wie groß ist die
Wahrscheinlichkeit daß die Stichprobe S keine defekten Bauteile enthält?
Antwort: Die abstrakt anmutende Herleitung ist hier nachzuvollziehen. N ist die Menge der
500 Bauteile, S die 50-elementige Stichprobe (also s = 50), M ist die 10-elementige Menge
der fehlerhaften Teile. X(S) = |M ∩ S| ist die Anzahl der defekten Bauteile in der Stichprobe
9.2. Zufallsvariable und Verteilungen
253
S. Danach genügt es, in die obige Formel einzusetzen, wobei wir uns für k = 0 interessieren:
10 490
490 · 489 · · · · 441
1
≈ 0.34516.
= ··· =
PX ({0}) = 500
500 · 499 · · · 451
0
50
50
Anderes Beispiel:
Wie groß ist die Wahrscheinlichkeit, bei 6 aus 45“ wenigstens eine Zahl richtig zu erraten?
”
Antwort: Jetzt wählt man N := {1, . . . , 45} und M eine feste Auswahl von 6 Zahlen
(nämlich die Gewinnzahlen). Der Spieler trifft eine Auswahl einer 6-elementigen Teilmenge S
durch Ausfüllen und Abgabe des Lottoscheins. Nun gibt X(S) = |M ∩ S| genau die Anzahl
der Richtigen“ an. Es ist bei uns PX ({1, 2, 3, 4, 5, 6}) = 1 − PX ({0}) gefragt, sodaß man
”
11951
1 6 39
39 · · · 33
=
.
PX ({0}) = 45
=
45 · · · 39
35260
0
6
6
Es ergibt sich ein Wert ≈ 0.599 für die gesuchte Wahrscheinlichkeit.
Beispiel 43 (Exponentialverteilung) Eine Variable X : Ω → R ist λ-exponentialverteilt,
wenn ihre Dichte für positive x durch fX (x) = λe−λx , mit λ > 0 und durch fX (x) = 0 für
x ≤ 0 gegeben ist. Man findet FX (x) = 0 für x ≤ 0 und FX (x) = 1 − e−λx für positive x.
Man bekommt durch elementares Integrieren E(X) = λ1 und V (X) = λ12 .
Diese Verteilung tritt (als Spezialfall der sog. Weibull-Verteilungen) in der Lebensversicherung auf. Auch einfache Modelle des radioaktiven Zerfalls benützen diese Verteilung ( expo”
nentieller Zerfall“).
Beispiel 44 (Gaußverteilung) Eine Variable X : Ω → R ist normal- bzw. Gaußverteilt,
falls es µ ∈ R und ein positives σ gibt, sodaß PX eine W-dichte der Form
2
1 (x−µ)
1
fµ,σ (x) = √ e− 2 σ2
σ 2π
Rx
hat. Es sei Φµ,σ (x) = −∞ fµ,σ (t) dt die Verteilungsfunktion, und Φ(x) := Φ0,1 (x). Man
sagt auch, X ist N (µ, σ)-verteilt. Diese Verteilung wurde von De Moivre ca 1725 eingeführt,
C.F.Gauß hat jedoch erst um 1820 die Bedeutung dieser Verteilung im Zusammenhang mit
dem Fehlergesetz (vgl. den Abschnitt über den zentralen Grenzwertsatz in Anmerkung 48)
klarlegen können. Bedeutung hat die Verteilung auch, weil viele Zufallsvariable approximativ
normalverteilt sind, wie z.B. Bernoulliverteilte (vgl. Beispiel 40).
Es gelten folgende Aussagen:
1. Die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist die Funktion Φ(x) :=
R x − t2
√1
e 2 dt, die sowohl tabelliert vorliegt (z.B. in [1]), als auch numerisch in Stan2π −∞
dardpaketen zugänglich ist (etwa in den Statistikpaketen R7 oder S8 ). Der Nachweis
7
8
Free Software
Komerzielles Produkt
254
Wahrscheinlichkeitstheorie
für Φ(∞) = 1 wird üblicherweise mittels Doppelintegral geführt (Polarkoordinaten
x = r cos φ, y = r sin φ, d(x, y) = rd(r, φ), Bereich (r, φ) ∈ [0, ∞) × [0, 2π))
Z
∞
2
2
− t2
e
dt
Z
=
− 12 (x2 +y 2 )
e
Z
d(x, y) =
R2
−∞
∞ Z 2π
2
− r2
e
0
0
2 ∞
− r2 r dφ dr = −2π e
= 2π,
0
woraus Φ(∞) = 1 folgt.
2. Für eine N (µ, σ)-verteilte Zufallsvariable X sind E(X) = µ und die Standardabweichung V (X) = σ 2 .
3. Ist X gemäß N (µ, σ)-verteilt, so ist die standardnormierte Zufallsvariable Z :=
gemäß N (0, 1)-verteilt, genauer,
x−µ
.
Φµ,σ (x) = Φ
σ
X−µ
σ
All dies folgt unmittelbar aus Anmerkung 34 6.
4. Ist X eine N (µ, σ)-verteilte Zufallsvariable, so ist aX gemäß N (aµ, aσ)-verteilt.
5. Sind die unabhängigen Zufallsvariablen
√ X, Y jeweils N (µ, σ) und N (ν, τ )-verteilt, so
ist X + Y verteilt gemäß N (µ + ν, σ 2 + τ 2 )9 . Allgemeiner ergibt sich hieraus (durch
Induktion) das Additionstheorem unabhängiger
N (µi , σi )-verteilter Zufallsvariabler
Pn
Pn Xi :
Ω → R, demzufolge
die
Dichte
von
X
gemäß
N
(µ,
σ)-verteilt
mit
µ
=
i=1 i
i=1 µi
Pn
2
2
und σ = i=1 σi ist.
6. Sind X, Y : Ω → R unabhängige Zufallsvariable mit N (µX , σX ) und N (µY , σY )1 −Q(x,y)
Normalverteilung, so ist die Zufallsvariable gemäß einer Dichte f(X,Y ) (x, y) := 2π
e
mit Q(x, y) = σ12 (x − µX )2 + σ12 (y − µY )2 verteilt. Diese Dichte hat die bekannte
X
Y
Glockenform, mit Höhenschichlinien Ellipsen mit Mittelpunkt (µX , µY ) und Halbachsen im Verhältnis der Streuungen. Dreht man das Koordinatensystem, so erscheinen
in Q gemischt quadratische Glieder, die von der Kovarianz der neuen Koordinaten
herrührt, siehe hiezu 10.3.
7. Für eine N (0, 1)-verteilte Zufallsvariable ist P (|X| < a) = 2Φ(a) − 1.
9
Um dies zu beweisen, benützt man die Faltung zweier Funktionen, wie sie auch im Kontext mit Laplaceund Fouriertransformation
bekannt ist. Um die Faltung zu sehen, benützen wir Anmerkung 34 7. Demgemäß
R
hat man FX+Y (z) = Az f(X,Y ) (x, y) d(x, y) mit Az := {(x, y) | x + y < z}. Das führt wegen der Unabhängigkeit zunächst auf f(X,Y ) (x, y) = fX (x)fY (y) und somit nach Umwandlung in ein Doppelintegral, Verwenden
der Substitution
t − x, dy = dt, neueR Grenzen=−∞,
z“, Vertauschen
R z der
R ∞ Integrationsreihenfolge zu
R ∞ y R=z−x
”
∞ Rz
FX+Y (z) = −∞ dx −∞ fX (x)fY (y) d(y) = −∞ −∞ fX (x)fY (t − x) dt = −∞ −∞ fX (x)fY (y − x) dy. Diese
R∞
Formel hat die Integralform einer Verteilungsfunktion und daher ist fX+Y (z) = −∞ fX (x)fY (z − y) dz, was
identisch mit der Faltung (fX ∗ gY )(z) ist. Nun kann man im Falle der Normalverteilung(en) die oben angegebene Form von fX+Y (z) mittels länglicher, aber völlig elementarer Rechnung bekommen. Üblicherweise
gelingt ein kurzer Beweis unter Benützung von charakteristischen Funktionen, d.s. die Fouriertransformierten
der Dichten.
9.2. Zufallsvariable und Verteilungen
255
Für den letzten Punkt soll kurz der Nachweis erbracht werden (der ganz allgemein für
beliebige Verteilungen F mit bezüglich des Nullpunktes symmetrischer Verteilungsdichte f
geht), wobei an geeigneter Stelle die Substitution u = −t, dt = −du und neue Integralgrenzen
∞ bzw. a, und schließlich die Symmetrie f (u) = f (−u) = f (t) benützt wird: Es ist P (|X| <
a) = P ({ω | X < a} ∩ {ω | X > a}) = P ({ω | X < Ra} \ {ω | −a < X}) =R P ({ω | X <
a
∞
a}) − P ({ω | −a < X}) = F (a) − F (−a) = F (a) − −∞ f (t) dt = F (a) − a f (u) du =
F (a) − (1 − F (a)) = 2F (a) − 1.
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Normalverteilung N(0,1)
256
Wahrscheinlichkeitstheorie
1
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Verteilungsfunktion N(0,0.5)
9.3
9.3.1
Approximation mathematischer durch empirische Wahrscheinlichkeit
Ungleichung von Tschebischeff und das Bernoulliexperiment
Das nach Johann Bernoulli benannte, von ihm um 1720 vorgeschlagene Gedankenexperiment
ist Grundlage jeden statistischen Arbeitens und soll hier beschrieben werden. Es gibt eine Wtheoretisch formulierte Antwort auf die in Beispiel 1 aufgeworfene Frage, inwieweit man denn
erwarten darf, daß die relativen Häufigkeit hn (A) als gute Approximation einer womöglich
mathematisch vorausberechneten Wahrscheinlichkeit p gelten kann. Noch entscheidender ist
eine solche Frage, wenn p durch statistische Erhebung geschätzt“ werden soll, also von
”
vorneherein unbekannt ist. Mehr darüber in den Beispielen 50 und 53.
Wir werden die Ungleichung von Tschebischeff dabei benützen:
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
257
q
◦
◦
•
0
•
0
1
1=p+q
Abbildung 9.2: Theoretische“ Verteilungsfunktion beim Bernoulliexperiment
”
Anmerkung 45 (Ungleichung von Tschebischeff) Es sei X : Ω → R eine Zufallsvariable und > 0, so gelten folgende Aussagen:
• P (|X| ≥ ) ≤
E(|X|)
.
• P (|X − E(X)| ≥ ) ≤
V (X)
.
2
Beweis: Um die erste Behauptung zu zeigen, darf X ≥ 0 angenommen werden. Danach
definieren wir Y (ω) als X(ω), wenn X(ω) ≥ ist, und Null sonst. Man überlegt sich, daß Y
auch eine Zufallsvariable ist. Danach folgt aus X(ω) ≥ Y (ω) für alle ω ∈ Ω die Ungleichung
E(X) ≥ E(Y ) ≥ P ({ω | X(ω) ≥ }) = P (X ≥ ),
und hieraus durch Umformen die erste Behauptung.
Wir wollen die zweite Behauptung zeigen, und nennen dort das X jetzt Y , wollen also
P (|Y − E(Y )| ≥ ) ≤ V (Y2 ) zeigen. Nun sei X := V (Y ) = |Y − E(Y )|2 , so ergibt sich
P (|Y − E(Y )|2 ≥ 2 ) ≤
V (Y )
,
2
und weil links definitionsgemäß das Maß der Menge
{ω | |Y − E(Y )|2 ≥ 2 } = {ω | |Y − E(Y )| ≥ }
ermittelt wird, ist alles gezeigt.
w.z.b.w.
Beispiel 46 (Bernoulliexperiment) Die Situation beim B.E. ist die folgende: Jemand
geht, theoriegestützt“ von der Annahme (H) aus, daß (Ω, Σ, P ) ein W-Raum und X : Ω →
”
{1, 0} eine Zufallsvariable mit P (X = 1) = p und P (X = 0) = q := 1 − p sind. Das sei z.B.
durch Wahrscheinlichkeitsrechnung ermittelt worden, es sind also (mathematische) Wahrscheinlichkeiten. Somit ist die Verteilungsfunktion FX von der in Fig. 9.2 angegegebenen
Form.
Beim Münzwurf etwa wäre Ω := {K, Z} und X(K) := 0, bzw. X(Z) := 1. Weiters würde
man sich gerne auf (H), d.h. p = 1 − p = 21 aufgrund mathematischer Betrachtungen stützen
können.
Nun ermittelt jemand relative Häufigkeiten durch ein Zufallsexperiment folgender Art:
258
Wahrscheinlichkeitstheorie
a) Der Versuch wird parallel n mal unter unabhängigen Bedingungen wiederholt,
b) oder n mal (unabhängig voneinander) hintereinander ausgeführt.
Die beiden Denkweisen werden als gleichartig angesehen und drücken lediglich die Forderung aus, daß keines der n Zufallsexperimente das andere beieinflußt, d.h. die n Zufallsexperimente legen unabhängig voneinander Werte der Zufallsvariablen Xi : Ω → {1, 0} fest
für i = 1, . . . , n. In dieser Weise, wie in Beispiel 40 (Bernoulliverteilung) genauer ausgeführt
worden ist, ergibt sich für die Zufallsvariable Sn : Ω → R, definiert durch
Sn (ω) :=
n
X
Xi (ω) = |{i | Xi (ω) = 1}|,
(9.1)
i=1
welche abzählt, in wievielen der n Experimente das Ereignis eintrifft, eine B(n, p)-Verteilung
mit E(Sn ) = np und V (Sn ) = npq.
Schließlich kommt die Ungleichung von Tschebischeff (Anmerkung 45) zum Zug, indem
wir dort X := n1 Sn einsetzen und V n1 Sn = n12 V (Sn ) beachten:
1
pq
P Sn − p ≥ ≤ 2 .
(9.2)
n
n
Falls die Wahrscheinlichkeit p unbekannt ist (etwa die Ausfallshäufigkeit eines Bauteils),
welchen Näherungswert würde man nach n Versuchen für p benützen?
Antwort: Es empfiehlt sich x̄ := nk = n1 Sn , wobei, die Bedeutung von Sn rekapitulierend,
k die Anzahl der Versuche ist, bei denen das Ereignis eingetreten ist, dessen (unbekannte)
Wahrscheinlichkeit p ist.
Zahl von Versuchen: Es sei α ∈ (0, 1) eine eher kleine Zahl, die Irrtumswahrscheinlichkeit“.
”
Wieviele Versuche sollte man anstellen, um die Wahrscheinlichkeit dafür, daß | n1 Sn − p| ≥ ist, kleiner als α ist?
Antwort: Da pq = p(1 − p) = p − p2 das Maximum an 12 , nämlich 41 annimmt, ist
pq
1
≤
,
2
n
4n2
1
1
sodaß es hinreichend ist, 4n
2 ≤ α, m.a.W., n ≥ 4α2 zu wählen. Sind z.B. α = = 0.1 (also
10% Genauigkeit bei der Approximation), so ist n = 250.
Jemand hat eine feste Anzahl n von Versuchen gemacht, die recht groß ist (viel größer als
250, etwa n := 10000 – Massenproduktion). Dabei wurden unter den 10000 Stücken k :=
300
300 fehlerhafte entdeckt. Er nimmt jetzt an, daß nk = 10000
≈ p als Approximation der
Fehlerwahrscheinlichkeit ist.
Jetzt will er wissen, wie genau sein p approximiert worden ist, zumindest ist eine Wtheoretische Auskunft gesucht. Dazu gibt er eine Irrtumswahrscheinlichkeit α (meist ist
α ∈ {0.05, 0.02, 0.01}, manchmal noch kleiner) vor und stellt folgende Frage:
Gesucht sind Schranken θ und θ, sodaß P (p ∈ [θ, θ]) ≥ 1 − α gilt.“
”
Antwortfindung: Zunächst läßt sich Glg.(9.2) in äquivalenter Form als
1
pq
P (| Sn − p| ≤ ) ≥ 1 − 2
n
n
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
259
schreiben, indem man zum komplementären Ereignis übergeht. Der Ausdruck
1
| Sn − p| ≤ n
pq
ist äquivalent zu p ∈ [ n1 Sn − , n1 Sn + ]. Die Bedingung an muß sich aus 1 − n
2 ≥ 1 − α
pq
1
ergeben – in äquivalenter Form – aus α ≥ n2 . Da letzteres aus α ≥ 4n2 folgt, kann man
1
:= √4αn
setzen und so ergibt sich (für dieses ):
1
1
P (p ∈ [ Sn − , Sn + ]) ≥ 1 − α.
n
n
Sehr angenehm ist hier, daß die Schranken θ(X1 , . . . , Xn ) := n1 Sn − und θ(X1 , . . . , Xn ) :=
1
n Sn + Zufallsvariable sind, die einen (zufälligen) Wert erst im Rahmen der Versuchsserie
zu n events annehmen. Diese Schranken passen sich also dem n an!
300
= 3 × 10−3 als Näherung
Antwort: Man betrachtet die relative Häufigkeit p̂ := n1 Sn = 10000
1
für die Wahrscheinlichkeit p des Auftretens eines Fehlers, setzt := √4αn
= √4×101−1 ×105 =
5 × 10−3 und bekommt
k
k
P (p ∈ [ − , + ]) ≥ 1 − α,
n
n
und in unserem Beispiel ist somit mit 90%-iger Wahrscheinlichkeit die Wahrscheinlichkeit für
das Auftreten von Produktionsfehlern im Intervall [0, 8 × 10−3 ].
(Diese Aussage gibt Anlaß zu sagen, daß mit 90 prozentiger Sicherheit höchstens etwa
1% Fehler auftreten können. Konfidenzniveau α = 90% und diese obere Schätzung von p
können Ausgangspunkt für die Berechung von Erwartungswerten für Schäden werden. Danach können Versicherungssummen ausgelegt werden.)
Inwieweit führt die Approximation der Binomialverteilung durch die Gaußverteilung zu besseren Abschätzungen?
Antwort: wird am Ende von Beispiel 53 1. gegeben werden.
a) = 1
Punkt- oder
Dirac-V. δa
an a
= k) =
= k) =
Hypergeometrische-,
M , N , n aus
N
−M
(Mk )(Nn−k
)
N
(n)
λk −λ
k! e
xk)
=
n k n−k
p
q
k
BernoulliBinomialBn (p),
sei
0 < p < 1
und
q := 1 − p
Poisson-, sei
λ>0
xi ) =
Gleichmäßige
1
n
P (X =
Name d. V.
λk
k!
x≤0
0<x
x ≤ x1
xk−1 < x ≤ xk ,
2≤k≤n
xn ≤ x
0
P
e−λ k<x
1
k.A.
k−1
n
0
FX (x) =
0 x≤a
1 x>a
nM
N
λ
i=1
Pn
np
1
n
a
E(X)
xi
nM
N 1−
λ
npq
M
N
N −1
N −n
E(X 2 ) − E(X)2
0
V (X
Ziehen von Stichproben ohne Zurücklegen, Beispiel
42
Poissonprozess,
Beispiel 41
n-maliges
Durchführen
eines Experiments,
Beispiel 40
Laplace W-Raum
X = a ist ein sicheres Ereignis
Anwendungsbereich
260
Wahrscheinlichkeitstheorie
Student-, tn ∈ N, n >
0
χ2 - n ∈ N,
n>0
Gauß,
N (µ, σ 2 ),
µ, σ > 0
Exponentialλ>0
Rechteck,
Intervall
a<b
Name d. V.
1
0
Rx
Γ( n+1
2
√1
)
nπ Γ( n
2
n
2 2 Γ( n
)
2
h
n
− 12
u−µ 2
σ
du
” n+1
−∞ “
2
u2
1+ n
R∞
e− 2 u− 2 −1 du
u
−∞ exp
Rx
i
du
1
x−µ 2
2σ
i
1
“
” n+1
2
x2
1+ n
x≤0
x
n
e− 2 x− 2 −1 x > 0
h
exp − 21
n
2 2 Γ( n
)
2
n+1
Γ( 2
√1
)
nπ Γ( n
2
0
√1
σ 2π
0
x≤0
λe−λx x ≤ 0 < x
0
x≤0
1 − e−λx 0 < x
√1
σ 2π
FX0 (x) = f (x)
0
x<a
1
b−a a < x ≤ b,
0
b≤x
FX (x)
0
x<a
x−a
a
< x ≤ b,
b−a
1
b≤x
0 (f n ≥
2)
n
µ
1
λ
3)
n
n−2
2n
σ2
1
λ2
(f n ≥
− a)2
1
12 (b
1
2 (a
+ b)
V (X)
E(X)
standardisierte
normalverteilte Daten nicht
normalverteilt
bei unbekannter
Varianz Beispiel
55
Beispiel 55
Beispiel 44
Lebensdauer,
Zerfallsdauer,
Beispiel 43
Beispiel 28 3.
Anwendungsbereich
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
261
262
9.3.2
Wahrscheinlichkeitstheorie
Gesetz der großen Zahlen, Zentraler Grenzwertsatz
Beim Bernoulliexperiment (Beispiel 46) kommt man zur Aussage, daß sich bei wachsenden
Anzahl n unabhängiger Versuche die gemessenen relativen Häufigkeiten hn (A) = nk , wobei
A ein spezifisches Ereignis mit Wahrscheinlichkeit p ist, diesem Wert für n → ∞ zustreben,
zumindest in folgendem Sinn: Aus der Ungleichung Glg.(9.2) ergibt sich
1
lim P (| Sn − p| ≥ ) = 0
n→∞
n
für jedes positive . Experimentatoren schließen, daß für großes n der Wert nk gut“ sein sollte
”
im Sinne, daß die Wahrscheinlichkeit dafür nahe bei 1 liegt, man also nahezu sicher“ sein
”
darf, daß hn (A) = nk ≈ p.
Als Verallgemeinerung davon gilt der Satz von Gliwenko-Cantelli, nämlich Anmerkung 49,
der als Hauptsatz der Statistik bezeichnet wird und zeigt, daß die empirischen vermessene
Verteilungsfunktionen bei n → ∞ in einem wahrscheinlichkeitstheoretischen Sinn gegen die
gesuchte Verteilungsfunktion streben. Er folgt aus dem weiter unten vorzustellenden Satz von
Kolmogorov Anmerkung 47.
Hier sollen sie ohne Beweise, die maßtheoretischer Natur sind10 , vorgestellt werden.
Anmerkung 47 (Kolmogorov) Ist Xn : Ω → Rk eine Folge unabhängiger Zufallsvariabler, deren Varianzen existieren und
∞
X
V (Xn )
n2
n=1
erfüllen, so ist
<∞
n
1 X
P ({ω | lim (
Xj (ω) − E(Xn )) = 0}) = 1.
n→∞ n
j=1
Insbesondere, wenn alle Xn identisch wie X verteilt sind, so ist die Bedingung erfüllt und
es ergibt sich aus dem vorigen
n
1X
P ({ω | lim
Xj (ω) = E(X)}) = 1.
n→∞ n
j=1
Die Konvergenzaussage wird auch als Xn gehorcht dem starken Gesetz der großen Zahlen“
”
ausgedrückt, während die schwächere, aus ihr folgende:
n
1 X
lim P ({ω | Xj (ω) − E(Xn ) > }) = 0
n→∞
n
j=1
10
etwa [8]
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
263
für alle positiven als schwaches Gesetz der großen Zahlen bezeichnet wird. Ist Xn = n1 Sn
wie im Bernoulliexperiment, so bekommt man die eingangs gemachte Aussage als Spezialfall,
nämlich, daß die Folge ( n1 Sn | n ∈ N) dem schwachen Gesetz der großen Zahlen genügt.
Der zentrale GWS wird auch in allgemeinerer Form und unter technischen Bedingungen
(von Lindeberg, siehe S. 111 in [8] ff.) formuliert. Eine vereinfachte (oft zitierte und benützte)
Version ist die folgende:
Anmerkung 48 (Zentraler Grenzwertsatz; standardisierte Zufallsvariable) Haben die Zufallsvariablen Xn alle die gleiche Verteilung wie X mit E(X) = µ und
V (X) = σ, so ist die standardisierte Zufallsvariable
Pn
X̄(ω) − µ √
j=1 (Xj (ω) − µ)
√
n,
Z(ω) :=
=
σ
σ n
P
mit X̄ := n1 ni=1 approximativ N (0, 1)-verteilt, d.h. bei festem a < b strebt Fn (b)−Fn (a)
Rx
2
gegen Φ(b) − Φ(a) bei n → ∞, wobei wie in Beispiel 44, Φ(x) := √12π −∞ e−x dx ist.
In diesem Sinne ist das Fehlermittel
n
1X
(Xj (ω) − µ)
X̄(ω) − µ =
n
j=1
auf jedem festen Intervall [a, b] für hinreichend großes n approximativ N (0, √σn )-verteilt11 .
Satz von De Moivre-Laplace: De Moivre veröffentlichte 1730 für p = 21 und Laplace
1812 für beliebiges 0 < p < 1 das Resultat, daß im Bernoulliexperiment (vgl. Beispiel
46) zur Ermittlung der Wahrscheinlichkeit p = P (A) für die Bernoulliverteilung B(n, p),
welcher die Zufallsvariable Sn : Ω → R, definiert durch Sn (ω) = nk , wenn in k von n
unabhängigen Versuchen das Ereignis A eingetreten ist, dem Gesetz
k − np
P a≤ √
< b → Φ(b) − Φ(a)
npq
für n → ∞ gleichmäßig bei festem a, b genügt. Hieraus ergeben sich die in der Praxis
gelegentlich benützten Faustregeln np > 4 und nq > 4 ([6], Seite 160), bzw. in [13]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen.
Man kann den Satz von De Moivre-Laplace aus dem zentralen GWS unmittelbar her√
leiten, weil jedes Xi (wie in Beispiel 46) Erwartungswert µ und Streuung σ = pq (vgl.
√
Beispiel 35 3.) hat. Danach wird das Z zu Z = S√n −µ
n, was nach wenig Rechnung zur
pq
Behauptung führt.
11
Vgl.Beispiel 44 4.
264
Wahrscheinlichkeitstheorie
Gaußsches Fehlergesetz (phys. Praktikum): Wird eine Strecke l mehrfach, etwa n mal
gemessen, so geht man von Meßfehlern aus. Dabei gibt es systematische Meßabweichungen (z.B. instrumentbedingt), grobe Fehler (z.B. Verwerfen von Daten) und zufällige
Fehler (Messunsicherheiten). Nach Sicherstellung, daß lediglich noch zufällige Fehler im
Spiel sind, wird das Ergebnis der n-fachen Messung, etwa der Höhe eines Tisches (das
l) mit l = 80.8 ± 1.4 cm angegeben, nachdem sich, nach Messungsserie und Fehlerrechnung x̄ = 80.7682 und als Maß der Unsicherheit ±1.4327 cm ergeben hat. M.a.W.,
die Meßunsicherheit wird auf eine signifikante Stelle aufgerundet, außer wenn die erste
signifikante Stelle 1 ist.
Der zufällige Fehler veranlaßt, statt des wahren, unbekannten Wertes l zu einer Zufallsvariablen X auf Ω := R überzugehen. Die Erfahrung lehrte:
1. kleine Fehler sind häufiger als große,
2. positive und negative Fehler heben einander nahezu auf,
3. Fehler, nahe bei Null, sind am häufigsten.
Diese Umstände haben die Frage nach einer Formulierung eines Fehlergesetzes nach sich
gezogen (siehe die ausführliche Diskussion in [5]). Gauß schließlich postulierte das nach
ihm benannte Fehlergesetz, welches besagt, daß der Meßfehler approximativ normalverteilt angenommen werden darf.
Eine gelegentlich zu findende Motivation dafür ist die Einbeziehung des zentralen GWS
wie folgt:
Zunächst wird angenommen, daß jeder Meßfehler F sich aus einer Vielzahl n von kleinen, stochastisch unabhängigen Elementarfehlern Xi zusammensetzt, d.h.
F =
n
X
Xi
j=1
und daß er endliche Varianz V (F ) hat. Nimmt man von jedem Elementarfehler an, daß
er die gleiche (nicht näher bekannte) Verteilung mit Mittelwert 0 und Streuung σ hat,
√
so ist F nach dem zentralen GWS approximativ N (0, σ n)-verteilt. Da n zwar groß,
aber nicht beliebig groß, und σ sehr klein ist, betrachtet man somit den Gesamtfehler
F approximativ N (0, σF )-verteilt, wobei σF2 ≈ V (F ) gelten muß.
Verbesserung der Meßgenauigkeit durch Mittelbildung: Eine andere, gänzlich unterschiedliche Situation zur vorigen stellt das wiederholte (n-fache) Messen, etwa ein
und derselben Distanz l dar, die wie vorher durch eine Zufallsvariable X repräsentiert
wird. Dabei nimmt man die Unabhängigkeit der wie X identisch verteilten Zufallsvariablen Xj für j = 1, . . . , n an. Dementsprechend wird µ := E(X) als Wert für die
Länge l genommen. Das n-fache Messen soll nun approximativ die VerteilungpF von
X ermitteln, wobei man grundsätzlich nur an l ≈ µ und der Streuung σ = V (X)
interessiert ist, wobei σ als Fehlermaß (Unsicherheit) gewertet wird. In 3. von Beispiel
50 wird der Physikpraktikumsübliche Näherungswert σ̂ beschrieben.
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
265
Es ist Xj − E(X) eine plausible Annahme für den j.ten Meßfehler (nämlich tatsächliche unbekannte Länge l minus Wert der j.ten Messung). Das in Anmerkung 48 genannte Fehlermittel X̄ − µ ist eine Zufallsvariable, die, wie schon gesagt, approximativ
N (0, √σn )-verteilt ist. Deshalb geht man davon aus, daß sich der Meßfehler mit ausreichender Wahrscheinlichkeit bei oftmaligem Messen besser eingrenzen läßt, weil das
Stichprobenmittel zu einer guten Approximation von µ = E(X) (und somit l) wird. In
Unterabschnitt 10.2.1 wird µ, bzw. σ die Rolle eines Parameters“ spielen, der anhand
”
gemessenen Datenmaterials geschätzt werden soll.
Hauptsatz der Statistik – Gliwenko-Cantelli: Im Bernoulliexperiment wurde die Konvergenz der empirischen Wahrscheinlichkeit gegen die mathematische“ betrachtet. Das
”
kann auch als Konvergenz der empirischen Verteilungsfunktionen gegen die dem p entsprechende Verteilungsfunktion in Fig. 9.2 angesehen werden. Beim Satz von GliwenkoCantelli geht es ganz allgemein um die gleichmäßige Konvergenz empirischer Verteilungsfunktionen gegen eine (nicht näher bekannte) Verteilung. Siehe Anmerkung 49.
Man kann zeigen, daß dieser Satz, ähnlich wie die vorigen Ergebnisse, eine recht einfache
Folgerung aus dem zentralen GWS ist (z.B. in [4]).
266
Wahrscheinlichkeitstheorie
Kapitel 10
Statistik
10.1
Grundlagen und Kurzbeschreibung
10.1.1
Aufgaben der Statistik
Details, die hier möglicherweise beim ersten Durchlesen schwer verständlich sind, werden in
den nachstehenden Kapiteln behandelt. Einfach weiter lesen und später diese grobe Übersicht
durchsehen.
Beschreibende Statistik. Sie befaßt sich mit der übersichtlichen Aufbereitung von (großen)
Datenmengen, die durch Messungen im weitesten Sinne zustandekommen. Dazu gehören
etwa Histogramme, die manchmal in Prozenten, manchmal in Absolutzahlen – oft auch
in Klassen zusammengefaßt – Datenmaterial veranschaulichen.
Schließende Statistik. Es geht darum, für eine nicht näher oder nur zum Teil bekannte
~ : Ω → Rk (z.B. ist k = 2 beim
Verteilung F einer (vektorwertigen) Zufallsvariablen X
Dartschießen, nämlich x- und y-Koordinate) durch folgende Methode eine Näherung zu
gewinnen:
Man gibt eine natürlich Zahl n vor, mißt“ n-mal und faßt jede Messung als Festle”
~ verteilten
~ i : Ω → Rk auf. Die
gen eines Wertes einer wie X
zufälligen Variablen X
Messung ist so auszuführen, daß keine die andere beeinflußt, und das bedingt, daß die
~ i unabhängig sind. Das Meßergebnis ~xi (der Variablen X
~ i ) heißt dann deren
Variablen X
Realisation.
Einfache Beispiele des Messens: n-malige Wiederholung eines Zufallsexperiments im
Bernoulliexperiment, n-maliges Abmessen einer Strecke (z.B. in der Geodäsie). Aus
einer Population, d.i. Gesamtheit, n-mal hintereinander in zufälliger Weise“ Elemente
”
herausgreifen, die Größe (oder nur das Vorhandensein eines Merkmals, d.i. Wert der
Zufallsvariablen nur Null oder Eins) messen, das Element zurücklegen“.
”
Die n Messungen stellen ein zufälliges Experiment dar, bei dem die vektorwertige Zu~ 1, . . . , X
~ n ) : Ω → (Rk )n als Wert ( Realisierung“) den Vektor
fallsvariable X := (X
”
x := (~x1 , . . . , ~xn ) ∈ (Rk )n annimmt. Nun geht es in der schließenden Statistik darum,
267
268
Statistik
die experimentell ermittelte Verteilungsfunktion Fn : Rk → [0, 1], nämlich
Fn (~x) :=
|{i | ~xi < ~x}|
,
n
wobei das <“ koordinatenweise zu lesen ist, als Näherungsfunktion von F (~x) anzuse”
hen. Insofern wird hier das Bernoulliexperiment (Beispiel 46) verallgemeinert, als dort
die Verteilungsfunktion eine recht einfache Treppenfunktion (Fig. 9.2) darstellt.
Als theoretische Grundlage dafür wird der in Anmerkung 49 noch zu besprechende Satz
von Gliwenko-Cantelli angesehen.
In vielen Situationen kennt man die Verteilung F zum Teil, sei es, daß sie von einer
bestimmten Form ist, oder daß z.B. plausible Annahmen über die Größe ihrer Varianz
gemacht werden können. Oft will man auch nur Kenngrößen von F schätzen, wie z.B.
den Erwartungswert der nach F verteilten Zufallsvariablen X. Entsprechend gibt es
folgende Teildisziplinen der schließenden Statistik:
• Parameterschätzung1 . Man hat genügend Gründe dafür, anzunehmen, daß die
Verteilung F eine spezifische Form F (x, θ) hat, bei der θ ∈ Θ ein Parameter in
einem Parameterbereich Θ ⊆ Rd ist. Typisches Beispiel ist die Verteilungsfunktion
der Normalverteilung N (µ, σ), bei der θ := (µ, σ) ∈ Θ := R2 die Rolle des Parameters spielt. Nun wird eine plausible“ Näherung θ̂ des unbekannten Parameters θ
”
mittels der Meßreiheergebnisse x ∈ (Rk )n bestimmt. Zu diesem Zweck konstruiert
man eine Schätzfunktion2 Z : (Rk )n → Rd , und berechnet θ̂ := Z(x).
Die häufigsten Methoden zur Auffindung einer geeigneten Schätzfunktion Z sind
die Momentenmethode3 und die der Maximum Likelihood Schätzung.
• Intervallschätzung für einen skalaren Parameters θ mit Konfidenzniveau4 α. Jetzt ist d = 1 und es geht genau wie vorher um die Schätzung eines
nunmehr skalaren
Parameters θ, (etwa θ = µ = E(X), der Erwartungswert, oder
p
θ = σ = V (X), die Standardabweichung). Allerdings wird jetzt α (meist ist
α ∈ {0.05, 0.02, 0.01}) vorgegeben. Danach konstruiert man skalarwertige Schätzfunktionen θ, und θ von (Rk )n → R derart, daß der zu schätzende Parameter
θ
θ(x) < θ < θ(x)
mit (1−α)×100%iger Wahrscheinlichkeit erfüllt. Die Größe 1−α ist das Konfidenzniveau, die Intervallgrenzen θ(x) und θ(x) sind die Vertrauensgrenzen. Wird dabei
die Anzahl der Messungen erhöht, darf man hoffen, daß diese Vertrauensgrenzen
enger zusammenrücken.
• Prüfen von Hypothesen. Es wird, nicht unähnlich zu vorher, diesmal als Signifikanzniveau bezeichnetes α (meist in {0.05, 0.02, 0.01}) gewählt. Als Hypothese
1
Anderer Name: Punktschätzung.
Stichprobenfunktion, Punktschätzer
3
soll hier nicht vorgeführt werden, siehe z.B. [6]
4
Auch Konfidenzschätzung genannt.
2
10.1. Grundlagen und Kurzbeschreibung
269
bezeichnet man eine Aussage, daß für eine vorgegebene Schätzfunktion Z die Zufallsvariable ZX in einem vorgegebenen Bereich liegt (z.B. Null ist, oder in einem
Intervall ist). Dem Neyman-Pearson Paradigma folgend, wird die Hypothese H0 als
Nullhypothese und eine weitere, sie ausschließende, als Alternativhypothese bezeichnet, und man möchte durch eine Stichprobe festlegen, ob man die Nullhypothese
verwerfen kann.
Nun wird eine neue Schätzfunktion T konstruiert, die Testfunktion und man ermittelt einen Ablehnbereich A durch die Bedingung
P (T ∈ A) ≤ α,
was insbesondere dann geht, wenn die Verteilung von T X bekannt ist. Wegen der
Annahme von H0 kann man P (T ∈ A) ausrechnen“ und deshalb den Ablehnungs”
bereich im vorhinein festlegen. Nun wird, wie schon angedeutet, eine Einzelmessung t für T X ermittelt. Fällt dieses t in den Ablehnungsbereich A, so wird die
Hypothese abgelehnt, andernfalls wird sie nicht abgelehnt. Je kleiner α ist, desto
geringer wird die Wahrscheinlichkeit dafür, die Hypothese abzulehnen, obwohl sie
richtig ist (Fehler 1.Art). Um den Fehler 2.Art, nämlich ein falsches H0 nicht abzulehnen, möglichst unwahrscheinlich werden zu lassen, wird, abhängig vom speziellen Testverfahren, A entsprechend gewählt. Gebräuchliche Testverfahren sind tTest, Wilcoxontest, χ2 -Anpassungstest und Kolmogorow-Smirnow-Anpassungstest,
auf die noch einzugehen ist.
• Schätzung von Korrelations- und Regressionsgrößen. Im einfachsten Fall
geht es um eine R2 wertige Zufallsvariable (X, Y ), von der eine Meßreihe (xi , yi ) als
Realisierung vorliegt. Dann liegt eine Punktwolke“ von Daten vor. Nun versucht
”
man, insbesondere wenn man Normalverteilung annimmt, eine Dichtefunktion zu
erraten, deren Graph konzentrische Ellipsen als Schichtlinien auffweist. Darüber
gibt die Kovarianz Auskunft. Im Extremfall können diese Ellipsen faktisch Geraden werden, wodurch man in natürlicher Weise zum Ausgleichen durch Regressionsgerade kommt. Meßreihen helfen, die für diese Fragen relevanten Korrelationsund Regressionsgrößen zu schätzen.
10.1.2
Hauptsatz der Statistik
~ : Ω → Rk eine Zufallsvariable, deren Verteilungsfunktion F : Rk → [0, 1] nicht
Es sei X
näher bekannt ist (beim Dartschießen ist k = 2, die x- und die y-Koordinate). Nun wird
ein natürliches n vorgegeben und n einander nicht beeinflussende Messungen ausgeführt, die
~ verteilter Zufallsvariabler X
~ i : Ω → Rk
man als Realisierungen n unabhängiger genau wie X
k
auffaßt. Dann wird, wie in der Einleitung angesprochen, für jedes ~x ∈ R die Zufallsvariable
Fn (~x, ·) : Ω → [0, 1] durch
~ i (ω) < ~x}|
|{i | X
Fn (~x, ω) :=
n
definiert, wobei das <“ koordinatenweise zu lesen ist. Diese Zufallsvariable beschreibt die
”
~ i unterhalb des Wertes ~x (koorHäufigkeit der Experimente, in denen die jeweilige Variable X
dinatenweise von 1 bis k) liegt und wird durch Zufallsexperiment (dem Meßvorgang) ermittelt.
270
Statistik
Nämlich, das n-fache Messen ergibt eine empirische Häufigkeitsverteilung Fn : Rk → [0, 1],
die durch
|{i | xi < x}|
Fn (x) :=
n
gegeben ist, und die man als Realisierung der Zufallsvariablen Fn (x, ·) : Ω → [0, 1] auffaßt.
Erfahrungsgestützt erwartet man, daß Fn (x) eine gute Approximation von F (x) ist und im
Falle eines die Verteilungsfunktion die Stufenform wie in Fig. 9.2 hat, wissen wir das eben
durch das Bernoulliexperiment (Beispiel 46). Im allgemeineren Fall kann man sich auf den
Hauptsatz der Statistik“ stützen:
”
Anmerkung 49 (Gliwenko-Cantelli, 1933) Es sei
Dn (ω) := sup |Fn (x, ω) − F (x)|
x∈R
so ist P ({ω | limn→∞ Dn (ω) = 0}) = 1.
In Worten: die Wahrscheinlichkeit dafür, daß Fn im Sinne der Supremumsnorm eine
gute Approximation von F ist, geht mit wachsendem n gegen Eins.
Je mehr Messungen macht, desto unwahrscheinlicher“ sind größere“ Differenzen zwischen
”
”
Fn und F auf R zu erwarten. Also, genau wie beim Bernoulliexperiment ergibt sich beim
Erhöhen von n eine immer näher an Eins liegende Wahrscheinlichkeit dafür, daß die aus der
Meßreihe abgeleitete Verteilungsfunktion Fn (x) eine brauchbare Approximation für F (x) ist.
Wohlgemerkt, keine Gewißheit, lediglich sich erhöhende Wahrscheinlichkeit“.
”
10.2
Schätz- und Testverfahren
10.2.1
Parameterschätzung
Von einer zufälligen Variablen X : Ω → Rk hat man Grund zur Annahme, daß sie einer
Verteilung F (x, θ) genügt, wobei θ ∈ Θ ⊆ Rd ein Parameter ist (z.B. das p im Falle eines Laplace-W-Raumes, (a, b) ∈ R2 im Falle der Rechtecksverteilung, (n, p) ∈ R2 für die
Bernoulliverteilung, oder (µ, σ) ∈ R2 im Falle der Gaußschen Normalverteilung).
Nun wird eine Stichprobe x := (x1 , . . . , xn ) ∈ (Rk )n ermittelt, d.h., es werden n Messungen
der Variablen X durchgeführt. Dann wird ein Punktschätzer konstruiert, d.i. eine Funktion Z :
(Rk )n → Θ und θ̂ := Z(x1 , . . . , xn ) als Näherungswert betrachtet. Bei der Konstruktion von
Z spielen folgende Argumente eine Rolle, bei der man den Vergleich mit der Zufallsvariablen
ZX(ω) = Z(X1 (ω), . . . , Xn (ω)) heranzieht:
1. Z heißt erwartungstreu, falls E(ZX) = θ. Die Differenz B := E(ZX) − θ heißt Bias
oder Verzerrung. Man wünscht sich einen erwartungstreuen Schätzer.
10.2. Schätz- und Testverfahren
271
2. Z ist konsistent5 , wenn Z = Zn als Folge von Schätzern gesehen wird (abhängig von n),
und wenn für jedes positive der Grenzwert limn→∞ P (|Zn (X1 , . . . , Xn ) − θ| > ) = 0
ist. Man kann zeigen, daß es dazu ausreicht, daß limn→∞ V (Zn (X1 , . . . , Xn )) = 0 ist.
3. Der erwartungstreue Schätzer Z ist effizienter als der erwartungstreue Schätzer Z 0 ,
falls für die Varianzen V (ZX) < V (Z 0 X) gilt. Man wünscht sich möglichst effiziente
Schätzer.
Beispiel 50 Konkrete Beispiele sollen folgen.
1. (Schätzung von p). Es soll das Bernoulliexperiment, wo genau das auch getan wurde
(Beispiel 46) in einer Anwendung gezeigt werden: Um laufend die Produktionsgüte eines Betriebes zu testen, werden üblicherweise regelmäßig 5 Stück aus jeder Lieferung
genommen und getestet. Im einfachsten Fall soll lediglich die Tauglichkeit geprüft werden und sieht sich veranlaßt, einfachheitshalber anzunehmen, daß p% fehlerhafte Stücke
produziert werden. Deshalb werden pro Woche (oder Monat) die Anzahl der fehlerhaften Stücke gezählt. Es entsteht eine Zahlentabelle, bei der übungshalber 30 Lieferungen,
also 150=100%, betrachtet werden sollen.
Eine Strichliste oder Urliste entsteht, und schließlich die
rechts abgebildete Häufigkeitstabelle, deren Spalten angeben, wie viele Fünferauswahlen jeweils 0–5 fehlerhafte
Stücke enthalten.
0
5
1
3
2
5
3
2
4
1
5
0
Als Ereignisraum Ω nehmen wir die Menge aller erzeugten Stücke innerhalb eines festen
Zeitraumes. Die Zufallsvariable X : Ω → R soll durch X(ω) := 1, falls ωP
defekt, und
1
Null sonst sein. Würde man alle Elemente in Ω testen, so hätte man p = |Ω|
ω∈Ω X(ω).
Da wir lediglich die Stichprobe von 150 Stück testen, ist uns bestenfalls ein Näherungswert p̂ zugänglich. Wie zu erwarten, wird man dies durch die Häufigkeit eines Fehlers
in unseren Proben tun. Dabei wird durchaus geschwindelt: Die 150 Stück werden im
Vergleich zur Produktion so klein angesehen, daß man bei der Entnahme der Proben
keine Beeinflussung von p annimmt.
In diesem Sinne ist Z(x1 , . . . , xn ) := |{i|xni =1}| eine auf dem Rn definierte Funktion,
die als Schätzer benützt werden soll, die bis auf das n mit dem Ausdruck in Glg.(9.1)
übereinstimmt. In unserem Fall ist n = 150 und als Schätzung für θ := p bekommt man
mittels der obigen Häufigkeitstabelle
p̂ := Z(x1 , . . . , x150 ) =
5+3+5+2+1+0
7
=
≈ 0.093.
150
75
2. (Messwerte). In Fortsetzung der Anwendung des zentralen GWSes (nach Anmerkung
48) beim physikalischen Praktikum“ behandeln wir die Messung einer skalaren Größe,
”
etwa einer Länge l.
Angenommen, es werden 10 Messungen gemacht und systematische Fehler ausgeschlossen:
5
andere Bezeichnung: asymptotisch erwartungstreu.
272
Statistik
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Welche W-theoretische Deutung ist möglich? Welche Stichprobenfunktion bildet man?
Nun faßt man die Länge als Zufallsvariable auf, definiert auf Ω := R. Wäre die exakte
Länge bekannt, so wäre die Verteilung F von X durch F (x) = 0 für x < l und F (x) = 1
für l ≤ x. Um Messfehler berücksichtigen zu können, fasst man die zehn Messungen als
Realisationen von 10 wie X verteilten Zufallsvariablen auf.
1 P10
Antwort: Danach bildet man die Stichprobenfunktion Z(x1 , . . . , x10 ) := 10
i=1 xi , eine
Funktion von R10 → R.
Ist dieses Z erwartungstreu?
Die Zufallsvariable
10
1 X
Z(X1 , . . . , X10 ) :=
Xi
10
i=1
erweist sich als erwartungstreu, weil
10
10
i=1
i=1
1 X
1 X
E(Xi ) =
E(X) = E(X) = l,
E(Z(X1 , . . . , X10 )) =
10
10
diePvon uns gesuchte Länge ist. Das Gleiche gilt für beliebiges n, also für Z(X1 , . . . , Xn ) =
n
1
i=1 Xi .
n
P
Ist Z(X1 , . . . , Xn ) = n1 ni=1 Xi konsistent?
P
Zunächst gilt wegen E(Xi ) = E(X) = µ die Gleichung E(Z(X1 , . . . , Xn )) = n1 ni=1 E(Xi ) =
E(X) = µ. Nun ergibt die Ungleichung von Tschebischeff (Anmerkung 45), indem man
dort statt X unser Z einsetzt:
P (|Z − E(Z)| ≥ ) ≤
V (Z)
.
2
Wenn für wachsendes n der Ausdruck auf der rechten Seite gegen
PNull geht, ist die
Konsistenz erfüllt. Um dies zu zeigen, soll zunächst V (Z) = V ( n1 ni=1 Xi ) berechnet
werden, wobei wegen der Annahme der Unabhängigkeit der wie X verteilten Zufallsvariablen Xi Anmerkung 37 gilt, sodaßE(Xi Xj ) = E(Xi )E(Xj ) = E(X)2 = µ2 berücksichtigt werden kann:
P
V (Z) = E(Z 2P
) − E(Z)2 = P
E(( n1 ni=1 Xi )2 ) − µ2
= n12 E( ni=1 Xi2 + 2 1≤i<j≤n
Xi Xj ) − µ2
n
= n12 nE(X 2 ) + 2 2 µ2 − µ2
= V (X)
n .
Somit enthält die rechte Seite in der Tschebischeffschen Ungleichung den Faktor n1 , der
die gewünschte Konvergenz gegen Null bei n → ∞ bewirkt.
Welche Schätzung ergibt sich für l unter Anwendung des vorgestellten W-theoretischen
Konzepts?
10.2. Schätz- und Testverfahren
273
Antwort: Man setzt die zehn Meßwerte (n = 10) in den Schätzer ein. Eine numerisch
sinnvolle Methode besteht in folgender Rechnung
10
x̄ :=
1 X
1
1
xi = 13+ (0.1−0.1+0.0−0.1+0.2+0.1−0.1+0.1−0.2+0.1) = 13+
= 13.01
10
10
100
i=1
Anmerkung: Auf die Physikpraktikumsübliche Angabe eines Meßfehlers soll in 3. eingegangen werden.
3. (Schätzung von µ bzw. σ für eine Verteilung). Die Tabelle aus dem vorigen Beispiel
soll jetzt folgende Deutung haben: Aus einer Population soll durch die zehnelementige Stichprobe auf den Mittelwert und die Varianz geschlossen werden. Mit ähnlichen
Rechnungen wie vorher zeigt man:
P
(a) Die Schätzfunktion Stichprobenmittel Z(x1 , . . . , xn ) := n1 ni=1 xi (bei uns ist n =
10) ist konsistent und erwartungstreu. Ist die unbekannte Verteilung eine N (µ, 1)Normalverteilung, so ist sie auch eine effizienteste. Die Abkürzung x̄ ist für das
Stichprobenmittel, und X̄ := ZX.
1 Pn
2
(b) Die Schätzfunktion Stichprobenvarianz Z(x1 , . . . , xn ) := n−1
i=1 (xi − x̄) ist
konsistent und erwartungstreu.
Wo kommt das (n − 1) in der Formel für die Stichprobenvarianz her?
1 Pn
2
Antwort: Man betrachtet die Zufallsvariable ZX = n−1
i=1 (Xi − X̄) , in der X̄ :=
P
P
P
n
n
n
1
1
2
2
2
i=1 Xi ist. Es ist E( n−1
i=1 (Xi − X̄) ) =
i=1 (E(Xi ) + E(X̄ ) − 2E(Xi X̄)) =
n
2
2
nE(X 2 ) +nE(X̄ 2 ) − 2nE(X̄ 2 ) = n(E(X
ähnlich wie im vorigen Beispiel
Pn ) − E(2X̄ ). Die
1
2
laufende Rechnung E(X̄ ) = n2 E(( i=1 Xi ) ) = n12 (nE(X 2 ) + n(n − 1)E(X)2 und
Einsetzen ergeben
!
n
1 X
(Xi − X̄)2 = E(X 2 ) − E(X)2 = V (X).
E
n−1
i=1
Das (n − 1) braucht man für die Erwartungstreue!
Welcher Schätzwert σ̂ ergibt sich für die Standardabweichung aus der Tabelle?
Antwort: Es ist n − 1 = 9 und somit kann man unter Benützung von x̄ = 13.01 aus
dem vorigen Beispiel
10
1X
1
σ̂ =
(xi −13.1)2 = (0.092 +0.112 +0.012 +0.112 +0.192 +0.092 +0.112 +0.092 +0.932 +0.092 ) ≈ 0.0166,
9
9
2
i=1
also ist σ̂ ≈ 0.13.
Wie lautet daher die Physikpraktikumsgerechte Antwort auf die Frage, wie lang das l
ist?
Antwort: Es ist l ≈ µ̂ ± σ̂ ≈ 13.0 ± 0.1. Dabei ist µ̂ das Stichprobenmittel und σ̂ 2 die
Stichprobenvarianz, wie oben erklärt.
274
Statistik
Anmerkung 51 (Maximum Likelihood Schätzer - R.A.Fisher). Es sei X eine Zufallsvariable, bei der man Grund zur Annahme hat, daß sie eine Verteilungsdichte (oder im
Falle einer diskreten Verteilung Wahrscheinlichkeitsfunktion) f (x, θ) mit θ ∈ Θ ⊆ Rn hat,
kennt aber den Parameter θ nicht. Gesucht wird eine plausible Schätzung θ̂.
Man verschafft sich durch Messung eine Stichprobe (x1 , . . . , xn ), die als Realisierungen
unabhängiger identisch wie X verteilter unabhängiger Zufallsvariabler aufgefaßt werden
kann.
Deshalb hat die gemeinsame Verteilungsdichte der Zufallsvariablen (X1 , . . . , Xn ) die
Gestalt
n
Y
L(x, θ) :=
f (xi , θ).
i=1
Die Idee, einen Schätzer zu konstruieren, besteht darin, die vorgelegte Stichprobe als
wahrscheinlichste Beobachtung“ zu interpretieren, m.a.W., θ̂ so zu wählen, daß das
”
Maß dafür, der Wert von L, möglichst groß wird, wenn man an der Stelle (x1 , . . . , xn )
auswertet.
Als Maximum Likelihood Schätzer, kurz MLS, bezeichnet man jene Wahl einer Funktion
Z(x1 , . . . , xn ), die als Lösung der Funktionalgleichung
L(x1 , . . . , xn , Z) = max{L(x1 , . . . , xn , θ) | θ ∈ Θ}
gefunden wird.
Unter geeigneten Glattheitsbedingungen von L und wenn das Maximum für jede Wahl
der xi eindeutig ist, kann man die einfachere Gleichung
∂
L(x1 , . . . , xn , θ) = 0
∂θ
nach den θ auflösen, sodaß θ = Z(x1 , . . . , xn ) der gesuchte Schätzer ist. (Ähnliches gilt,
falls θ ∈ Rd ist).
Unter geeigneten Glattheitsbedingungen an f kann man zeigen, daß der MLS konsistent
ist, er ist jedoch nicht immer erwartungstreu bzw. am effizientesten.
Beispiel 52 Beispiele hiezu:
1. Es sei p die nicht näher bekannte Wahrscheinlichkeit für das Eintreten eines Ereignisses.
Es sei möglich, das Bernoulliexperiment (Beispiel 46) auszuführen, d.h. man setzt X :
Ω → {0, 1} gleich 1, wenn das Ereignis eintritt, und Null sonst, und geht davon aus,
daß man n-mal unabhängig voneinander durch Experiment den Ausgang des Ereignisses
feststellen kann. Man bekommt somit eine Stichprobe (x1 , . . . , xn ) ∈ {0, 1}n . Gesucht
ist ein MLS für p.
P
Wie in Beispiel 46 ausgeführt, ist S := ni=1 xi verteilt gemäß L(x1 , . . . , xn , p) = pS (1−
p)n−S . Differenzieren nach p und Nullsetzen ergibt 0 = SpS−1 (1 − p)S−1 − (1 − S)pS (1 −
p)−S , woraus sich S(1 − p) = p(n − S) wird, und man schließlich auf das schon in
10.2. Schätz- und Testverfahren
275
Beispiel 46, bzw. Beispiel 50 2. gefundene Stichprobenmittel
S(x) = Z(x1 , . . . , xn ) =
1
(x1 + · · · + xn )
n
kommt.
2. Es sei X : Ω → R eine auf dem Intervall [a, b] gleichverteilte Zufallsvariable (Beispiel 28
3.). Gesucht ist ein MLS für die Parameter a, b, falls man eine Stichprobe (x1 , . . . , xn ) ∈
Rn hat.
1
Die Verteilungsdichte ist b−a
, falls x ∈ [a, b) ist, und sonst Null. Somit ergibt sich
1
L(x1 , . . . , xn , a, b) = (b−a)n falls alle xi ∈ [a, b) sind, und Null sonst. Die Funktion ist
bezüglich (a, b) nicht differenzierbar, nimmt aber ihr Maximimum dort an, wo b − a
unter der Bedingung (∀i)xi ∈ [a, b) minimal wird, und das passiert für b − a = max{xi |
i = 1, . . . , n} − min{xi | i = 1, . . . , n} der Fall. Somit sind b̂ := max{xi | i = 1, . . . , n}
und â := min{xi | i = 1, . . . , n} Schätzwerte. Der Schätzer ist nicht erwartungstreu.
3. Es sei X : Ω → R eine auf R+ bezüglich einer Exponentialverteilungsdichte (Beispiel
43) f (x, λ) := λe−λx verteilte Zufallsvariable. Es sei möglich, n Stichproben durch
unabhängige Versuche zu ermitteln. Man ermittle einen MLS für λ.
Pn
Die Maximum Likelihood Funktion ist L(x1 , . . . , xn , λ) = λn e−λ i=1 xi , die für λ = 0
verschwindet. Durch Differenzieren P
nach dem Parameter λ ergibt sich zunächst 0 =
nλn−1 e−λS − λn Se−λS , wobei S := ni=1 xi . Elementare Rechnung ergibt den MLS
n
Z(x1 , . . . , xn ) := Pn
i=1 xi
10.2.2
.
Intervallschätzung
Es sei X : Ω → Rk eine Zufallsvariable, deren Dichte die Gestalt f (x, θ) mit x ∈ Rk und
θ ∈ Θ ⊆ R ist. Die Gestalt dieser Verteilungsfunktion ergibt sich aus einer Annahme, die in der
konkreten Situation gemacht werden kann. Allerdings ist θ nicht bekannt, und man versucht
eine Näherung θ̂ aus einer Stichprobe zu finden. Im vorigen Abschnitt wurden Punktschätzer
hiezu verwendet.
Ist der Stichprobenumfang (das n) im Verhältnis zur Gesamtheit klein, so kann die Konsistenz eines Schätzers, nämlich, daß mit Wahrscheinlichkeit Eins die Schätzwerte bei n → ∞
gegen den korrekten Parameter konvergieren, nicht in quantitativer Form in Anspruch genommen werden – man weiß nicht wirklich wie nahe θ̂ am gesuchten θ dran ist.“ Deshalb
”
verzichtet man bei der Methode der Intervallschätzung auf die Berechnung eines solchen
Näherungswertes, sondern macht eine wahrscheinlichkeitstheoretische Aussage über die Lage
von θ indem man folgende Prozedur anwendet:
1. Zunächst wird eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, kann
bei heiklen Problemen auch wesentlich kleiner sein) vorgegeben.
2. Als nächstes bestimmt man Stichprobenfunktionen θ, θ : (Rk )n → R, derart, daß
θ(x1 , . . . , xn ) ≤ θ(x1 , . . . , xn ) für alle i und xi ∈ Rk gilt.
276
Statistik
3. Die beiden Funktionen geben Anlaß, Zufallsvariable θX und θX ins Spiel zu bringen,
für die bei konkreter Stichprobe x = (x1 , . . . , xn ) ∈ (Rk )n Realisierungen θ(x) und θ(x)
vorliegen.
Für diese beiden Zufallsvariablen wünscht man sich die Garantie
P ({ω | θX(ω) ≤ θ ≤ θX(ω)}) > 1 − α.
4. Hat man diese theoretische Vorarbeit“, nämlich 1.–3. geleistet, ermittelt man mittels
”
der vorliegenden Stichprobe x = (x1 , . . . , xn ) Werte θ(x) und θ(x) und hat die Garantie:
Die Wahrscheinlichkeit dafür, daß der gesuchte Parameter θ im Intervall [θ(x), θ(x]
”
liegt, ist zumindest 1 − α. “
Vorteil: erhöht man n, die Anzahl der Messungen, so passen sich die Intervallschranken
an, mit hoher Wahrscheinlichkeit werden sie dabei enger“.
”
5. Die Normalverteilung spielt immer dann eine Rolle, wo die Zufallsvariable annähernd
normalverteilt angenommen werden darf:
(a) Die Binomialverteilung B(n, p) (siehe Beispiel 40) ist es (in der Praxis), wenn
9
n > p(1−p)
(vgl. Satz von De Moivre-Laplace gleich nach Anmerkung 48).
(b) Das Gaußsche Fehlergesetz kommt bei wiederholtem Messen zum Einsatz (vgl.
Anmerkung 48 und dort das Beispiel zum Physikpraktikum.
Beispiel 53 Im Nachfolgenden die häufigsten Situationen von Intervallschätzungen.
1. (Schätzen einer unbekannten Wahrscheinlichkeit p)
Jemand hat n = 10000 mal (in unabhängiger Weise) Proben einer Produktion gezogen,
dabei 300 Fehler gefunden und p̂ := 3 × 10−3 als Näherung für die Wahrscheinlichkeit p
des Auftretens von Fehlern angenommen. Nun soll zu α := 0.1 als Irrtumswahrscheinlichkeit ein p̂− ≤ p̂+ gefunden werden, sodaß P (p− < p < p+ ) ≥ 1 − α, m.a.W., daß mit
90%-iger Wahrscheinlichkeit, die gesuchte Wahrscheinlichkeit p im Intervall (p− , p+ )
liegt.
9
Antwortfindung: Die oben zitierte Faustregel besagt 10000 > p(1−p)
, und für p̂ =
−3
3 × 10
ist das sichtlich der Fall. Allerdings, das ist der Näherungswert, das p ist
unbekannt. Gegen Ende von Beispiel 46 wurde die gleiche Fragestellung mittels der
Ungleichung von Tschebischeff behandelt und
P (0 ≤ p ≤ 8 × 10−3 ) > 0.90
(10.1)
gefunden, also, daß mit 90%-iger Wahrscheinlichkeit p im angegebenen Intervall liegt.
9
Leider ist für p so nahe an Null die Arbeitshypothese n > pq
nicht erfüllt.
Es ist jede der n Variablen Xi (zufälliges Ziehen von Proben mit Zurücklegen) mit nicht
√
näher bekannter Wahrscheinlichkeit p und Standardabweichung σ = pq verteilt (wir
wissen das aus Beispiel 35 3.) verteilt. Nun besagt der zentrale GWS unter Zuhilfenahme
√
√
√
√
von Beispiel 44 4., daß X̄−µ
n = X̄−p
n approximativ N (0, 1)-verteilt ist.
pq
pq
10.2. Schätz- und Testverfahren
277
Um die Methode gut zu verstehen, brauchen wir in Kürze die Ungleichung
in etwas anderer Form beschrieben, nämlich
|X̄−p| √
√
n
pq
<z
6
p ∈ (p̂− (ω), p̂+ (ω)),
wobei p̂− (ω) ≤ p̂+ (ω) die Lösungen der quadratischen Gleichung
z2
z2
2
− 2X̄(ω) +
p + X̄ 2 (ω) = 0
p 1+
n
n
sind.
Anwendung des zentralen GWS (De Moivre-Laplace, vgl. unmittelbar nach Anmerkung
√
48) ergibt wegen Beispiel 44 6. P (| X̄−p
n| < z) ≈ 2Φ(z) − 1 ≈ 1 − α. Lösen der letzten
σ
α
dieser Gleichungen ergibt das 1 − 2 -Quantil z1− α2 .
Dieses z = z1− α2 und ein durch Messung ermitteltes p̂ = X̄ = nk werden in die obige
quadratische Gleichung gesteckt, um danach konkrete Schätzwerte für p mit Vertrauensgrenze 1 − α zu finden, m.a.W., man p− ≤ p+ als Lösungen von
z2
z2
2
p 1+
− 2p̂ +
p + p̂2 = 0.
(10.2)
n
n
Und gibt es jetzt endlich eine Antwort auf die letzte Frage in Beispiel 46, nämlich,
ob die Glg.(10.1) angegebene Schätzung durch Approximation von B(n, p) durch eine entsprechende Normalverteilung verbessert werden kann? Sind die im Satz von De
Moivre-Laplace (gleich nach Anmerkung 48) genannten Approximationsbedingungen
np > 4 und nq > 4 erfüllt?
300
Ja. Es ist p̂ = nk = 10000
= 3 · 10−3 und einer Φ-Tabelle (z.B. in [4]) entnimmt man
z1− 0.1 = z0.95 ≈ 1.645 für die Normalverteilung N (0, 1). Die quadratische Gleichung
2
wird zu
p2 (1 + 2.7 · 10−3 ) − (2 · 3 · 10−3 + 2.7 · 10−5 )p + 9 · 10−10 = 0,
deren Lösungen (etwa mittels MAPLE) auffindbar sind:
> fsolve({p^2*(1+2.7*10^(-3))-(2*3*10^(-3)+2.7*10^(-3))*p+9*10^(-6)=0},{p});
{p = 0.002767527675}, {p = 0.003243243243}
(Lang ersehnte) Antwort: Mit 90%-iger Sicherheit darf gesagt werden, daß die gesuchte
Wahrscheinlichkeit p im Intervall [2.7 · 10−3 , 3.3 · 10−3 ] liegt. Diese Aussage ist präziser
als jene in Glg.(10.1). Es ist n = 104 , p > 2.7 · 10−3 und q = 1 − p > 0.5, also sind die
genannten Approximationsbedingungen erfüllt.
6
2
z
n
Die völlig elementare Herleitung geht so:
p−
2
z
n
p2 ⇔ obige Bedingung.
|X̄−p| √
√
n
pq
< z ⇔ (X̄ − p)2 <
z2
(p(1
n
− p) ⇔ p2 − 2pX̄ + X̄ 2 <
278
Statistik
Wie lauten die in der Einleitung zu diesem Unterabschnitt 10.2.2 genannten Stichprobenfunktionen θ und θ des Intervallschätzers? Welchen Wert hat k?
Antwort: Es ist k = 1, weil die gesuchte Variable p ein Skalar ist. Die oben gebildeten
Zufallsvariablen p− , p+ : Ω → R sind die gesuchten Schätzfunktionen θ, θ. Man findet
sie als Lösungen der quadratischen Glg.(10.2) für p, explizit hat man mit dem aus der
Gleichung 2Φ(z) − 1 = 1 − α gefundenen z := z1− α2 die reellen Funktionen
2
θ(x) :=
z
x̄+ 2n
2
(1+ zn )
+
z
2
(1+ zn )
q
z2
4n2
−
z
2
(1+ zn )
q
z2
n3
2
θ(x) :=
z
x̄+ 2n
2
(1+ zn )
+
+
x̄−x̄2
n
(10.3)
x̄−x̄2
n .
In der Praxis geht man gelegentlich davon aus, daß p ≈ x̄q
ist, also mit 100×(1−α)%-iger
Wahrscheinlichkeit p ∈ (x̄ − , x̄ + ) liegt, wobei :=
z
2
x̄(1−x̄)
n
ist. An Glg.(10.3) er-
z2
n
gegenüber x̄ vernachlässigen kann. Will man mit
kennt man, daß das geht, wenn man
der Theorie im Einklang leben, empfiehlt sich die etwas kompliziertere Form Glg.(10.3)
des Schätzers, in der für die im allgemeinen mäßig großen z die numerische Stabilität“
”
ganz gut berücksichtigt worden ist.
Wie würde man Glg.(10.3) verwenden, um ein Intervall (p− , p+ ) zu finden?
Antwort: Es ist x̄ = nk = 3 · 10−3 die relative Häufigkeit (jene die gemessen worden ist).
Das z = z1− 0.1 wurde schon oben zu 1.645 bestimmt. Danach setzt man in Glg.(10.3)
2
ein und findet das in der Antwort zur vorigen Frage angegebene Intervall.
2. (Schätzung von unbekanntem µ bei bekanntem σ für eine N (µ, σ)-verteilte
Zufallsvariable X : Ω → R.)
Von einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R kennt man einen groben
Richtwert der Streuung σ (etwa als Erfahrungswert). Weiters liegt eine Realisierung
von (X1 , . . . , Xn ) : Ω → Rn vor, konkret gesagt, man hat eine Tabelle (x1 , . . . , xn ) ∈ Rn
von Messungen. Wie kann bei Vorgabe einer Irrtumswahrscheinlichkeit α ein Intervallschätzer θ, θ für µ konstruiert werden?
P
Antwort(findung): Die Stichprobenfunktion X̄ := n1 ni=1 Xi : Ω → R ist wegen Beispiel
2
44 N (µ, σn )-verteilt. Deshalb ist
X̄ − µ √ P n < z = Φ(z) − Φ(−z) = 2Φ(z) − 1.
σ
Ähnlich wie im vorigen Beispiel ist es nützlich, die Ungleichung auf der linken Seite in
äquivalenter Form als
zσ
zσ
X̄ − √ ≤ µ ≤ X̄ + √
n
n
zu lesen. Nun, auch ähnlich wie im vorigen Beispiel, ermittelt man eine Lösung z = z1− α2
der Gleichung 2Φ(z) − 1 = 1 − α.
10.2. Schätz- und Testverfahren
279
Antwort:
Es ist unter Verwendung der Funktion x̄ : Rn → R, definiert durch x̄(x1 , . . . , xn ) :=
1 Pn
i=1 xi das Paar
n
zσ
zσ
θ(x) = x̄(x) − √ , θ(x) = x̄(x) + √
n
n
ein Intervallschätzer, wobei z = z1− α2 das 1 − α2 -Quantil der Normalverteilung, also
die Lösung von Φ(z) = 1 − α2 ist. Demnach hat man eine 100 × (1 − α)%-ige Garanzσ
zσ
, x̄(x) + √
) liegt, wobei x die Tabelle der (durch
tie, daß µ im Intervall (x̄(x) − √
n
n
Zufallsexperiment) ermittelten Werte von X ist.
Es sei die Tabelle aus Beispiel 50 2. gegeben. Weiters sei bekannt, daß die Streuung
der Längenmessung (z.B. wegen der verwendeten Methode) bei 0.1 Einheit liegen kann
und man mache die Annahme, daß der Fehler normalverteilt ist (etwa aufgrund des
Fehlergesetzes). Man gebe für eine Irrtumswahrscheinlichkeit von α := 0.01 und α = 0.1
jeweils ein Konfidenzintervall für die zu messende Länge l an.
Antwort: Zunächst findet man für x̄(x) (das meist schlampig“ mit x̄ abgekürzt wird)
”
den Wert 13.01 (wurde in Beispiel 50 2 schon ausgerechnet). Es ist n = 10, und z =
z1− 0.01 = z0.995 = 2.576 aus einer Tabelle für Φ ([4], S 61 ff). Die simple Rechnung
2
liefert 99%-ige Sicherheit für l ∈ (13.01 − 0.081, 13, 01 + 0.081), also l ∈ (12.9, 13.1).
Für α = 0.1 findet man z = z0.95 = 1.645. Die analoge Rechnung liefert, daß l mit
90%-iger Sicherheit im Intervall (13.01 − 0.052, 13.01 + 0.052) = (12.96, 13.062) liegt.
Anmerkung: Im Physikpraktikum wird mit Recht darauf hingewiesen, daß die Erhöhung
der Anzahl n ab ca n = 10 eher nur langsam das Intervall verkleinert, weil der Funktionsgraph von √1n für große n flach“ verläuft.
”
Im Weiteren benötigen wir noch zwei Verteilungen, die beide mittels der Gammafunktion
definiert werden.
Anmerkung 54 Die Gammafunktion ist für positive x durch
Z ∞
Γ(x) :=
e−t tx−1 dt
0
definiert.
Beispiel 55 (χ2n -Verteilung) Die Dichte der χ2n -Verteilung (mit n Freiheitsgraden) ist durch
(
0
x≤0
f (x) :=
1
−x/2
n/2−1
e
x
x>0
2n/2 Γ(n/2)
R∞
definiert. Dabei ist Γ(x) die für x > 0 definierte Gammafunktion Γ(x) := 0 e−t tx−1 dt. Man
kann E(X) = n und V (X) = 2n zeigen (etwa in [6]). Der Freiheitsgrad“ n kommt daher,
”
daß man für n unahbhängige
N (0, 1)-verteilte Zufallsvariable Xi : Ω → R zeigen kann, daß
Pn
die Zufallsvariable i=1 Xi2 : Ω → R eine χ2 -Verteilung in n Freiheitsgraden hat. Die Ideee
der Herleitung ist ähnlich, wie im Falle der Gleichverteilung in Beispiel 35 2.
280
Statistik
Beispiel 56 (tn -Verteilung oder Studentverteilung7 ) Die Dichte einer tn -verteilten Zufallsvariablen X : Ω → R ist durch
−(n+1)/2
1 Γ((n + 1)/2)
x2
fX (x) := √
1+
Γ(n/2)
n
nπ
n
gegeben. Sie ist symmetrisch bezüglich µ = E(X) = 0 und für n ≥ 3 ist V (X) = n−2
. Im
weiteren wird noch benötigt werden, daß für eine N (0, 1)-verteilte Zufallsvariable X und eine
χ2n -verteilte Zufallsvariable Y der Quotient √X eine tn -Verteilung hat.
Y /n
Anmerkung 57 Die Anwendung von tn - und χ2n -Verteilung beruht auf folgenden Fakten
für eine beliebige, reellwertige N (µ, σ)-verteilte Zufallsvariable X:
• Das Stichprobenmittel
n
1X
Xi
X̄ =
n
i=1
ist für unabhängig durchgeführte Experimente N (µ, √σn )- verteilt (siehe Beispiel
44).
• Die normierte Stichprobenvarianz
n
1 X
(Xi − X̄)2
Y := 2
σ
i=1
erweist sich als χ2n−1 -verteilt. Das ist deshalb interessant, weil die Stichprobenvarianz
n
1 X
S :=
(Xi − X̄)2
n−1
2
i=1
in der Gleichung
Y =
(n − 1)S 2
σ2
vorkommt.
• Die Stichprobenfunktion
X̄ − µ √
√
n,
S2
(welche erwartungstreuer und konsistenter Schätzer der normierten Zufallsvariablen
√
Z = X̄−µ
n ist – das Z ist wie im zentralen GWS Anmerkung 48), ist tn−1 -verteilt.
σ
• Quantile von N (0, 1), χ2n−1 und der tn−1 -Verteilung sind für viele Werte n tabelliert
(z.B. in [1]), bzw. in Statistiksoftware, wie z.B. R, zugänglich.
7
Sie wurde von W.S. Gosset auf empirischem Weg gefunden und er hat sie unter dem Pseudonym Student“
”
1908 publiziert, da er von seiner Firma keine Erlaubnis hatte, sie unter eigenem Namen zu veröffentlichen.
10.2. Schätz- und Testverfahren
281
Beispiel 58 Nun zu Schätzungen von σ bzw. µ, bei denen man χ2n−1 und tn−1 benützt.
1. (Schätzung von µ bei Unkenntnis von σ für eine N (µ, σ)-verteilte Zufallsvariable)
Es sind für vorgegebene Irrtumswahrscheinlichkeit α Stichprobenfunktionen θ : Rn → R
und θ : Rn → R für µ (vgl. den Beginn, Unterabschnitt 10.2.2) gesucht, wobei über σ
nichts bekannt ist, derart daß durch nach n-maligem unabhängigen Zufallsexperiment
vorliegendem Datenmaterial x = (x1 , . . . , xn ) ∈ Rn mit Konfidenzniveau (1 − α) die
Aussage
P (µ ∈ (θ(x), θ(x)) ≥ 1 − α
getroffen werden kann.
√
Antwort(findung): Wie in Anmerkung 57 ausgeführt, genügt X̄−µ
n einer tn−1 -Verteilung.
S
Ist (der Kürze halber) F die Verteilungsfunktion (die für viele n tabelliert vorliegt), so
hat man in Analogie zu Beispiel 53, 2.
P (|
X̄ − µ √
n| < z) = F (z) − F (−z) = 2F (z) − 1 = 1 − α,
S
wobei letzteres wegen der Symmetrie der Dichtefunktion von tn−1 gilt (vgl. hiezu die
an Beispiel 44 6. anschließende Erklärung). Nun besorgt man sich mittels Tabelle der
tn−1 -Verteilung ([4]. S.61 ff) die Lösung z = z1− α2 der Gleichung F (z) = 1 − α2 .
Die gleiche Umformung der Ungleichung auf der linken Seite wie in Beispiel 53 2. ergibt
zS
zS
P (µ ∈ (X̄(ω) − √ , X̄(ω) + √ )) ≥ 1 − α.
n
n
P
1 Pn
2
Antwort: θ(x) = x̄ − √zsn , θ(x) = x̄ − √zsn , wobei x̄ := n1 ni=1 xi , s2 = n−1
i=1 (xi − x̄) ,
α
und z die Lösung von Tn−1 (z) = 1 − 2 ist (Tn−1 die Verteilungsfunktion der tn−1 Verteilung).
Wie in Beispiel 53 2., soll das unbekannte µ aus der Meßtabelle von Beispiel 50 2.
analog wie dort für Irrtumswahrscheinlichkeiten α ∈ {0.01, 0.1} geschätzt werden, wo
es um die Länge l einer als normalverteilten Zufallsvariablen (weil mit Fehler behaftet
– vgl. den Abschnitt nach Anmerkung 48) ging.
Antwort(findung): Der Bequemlichkeit halber sei die Meßtabelle nochmals angeführt.
Aus ihr ging hervor, daß n = 10 und x̄ = 13.01 war.
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Es ist s̄2 = 19 (4×0.092 +3×0.112 +0.192 +0.212 +0.012 ) ≈ 1.65×10−2 . also s̄ = 1.3×10−1 .
Nun wird das 1 − α2 Quantil der t9 -Verteilung bestimmt, es ergibt sich aus einer Tabelle
(z.B. in [4] S 61 ff)
z9;1− 0.01 = z9;0.995 ≈ 3.250 z9;1− 0.1 = z9;0.95 ≈ 1.833.
2
2
282
Statistik
Dementsprechend ergibt sich der Term
−2
zs̄
√
n
zu
−2
3.250×3.96×10
√
10
≈ 4.07 × 10−2 ≈ 0.041
√
für α = 0.01 und zu 1.833×3.96×10
≈ 0.023 für α = 0.1. Entsprechend ergeben sich als
10
zs̄
zs̄
√
√
Intervalle (s̄ − n , s̄ + n ) im 1.ten Fall (12.93, 13.08) und im 2.ten Fall (12.94, 13.14).
Antwort: Unter der Annahme einer N (µ, σ)-Verteilung ist die Länge l mit 99%-iger Sicherheit im Intervall (12.93, 13.08), bzw. mit 90%-iger Sicherheit im Intervall (12.94, 13.14).
Die Normalverteilungsannahme ergibt somit ein klein wenig mehr Genauigkeit als Beispiel 53 2.
2. (Intervallschätzung für σ einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R
bei nicht bekanntem µ. ) Diese Schätzung ist vorallem dann interessant, wenn man
nur wissen will, ob die Meßwerte stark streuen.
Man bestimme Stichprobenfunktionen θ, θ : Rn → R, sodaß bei gegebener Irrtumswahrscheinlichkeit α und entsprechender Tabelle von n unabhängigen Meßdaten mit
Konfidenzniveau 1 − α die Varianz σ 2 im Intervall (θ(x), θ(x)) liegt.
Antwortfindung: Man will aus den Daten einen Näherungswert σ̂ von σ und ein z, sodaß
die Ungleichung
|σ 2 − σ̂ 2 | < z
mit P
Wahrscheinlichkeit ≥ 1 − α gültig ist. Es bietet sich die Stichprobenvarianz S 2 =
n
1
2
i=1 (Xi − X̄) an, weil sie erwartungstreu und konsistent ist, und nach Auswerten
n−1
mittels der Daten einen Schätzwert σ̂ 2 von σ 2 ergibt.
P
Wegen Anmerkung 57 ist Y := σ12 ni=1 (Xi − X̄) gemäß χ2n−1 verteilt. Deshalb ist
P (a ≤ Y ≤ b) = F (b) − F (a),
wobei F die Verteilungsfunktion von tn−1 ist. Da die Ungleichung a ≤ Y ≤ b wegen
2
1 Pn
2
Y = (n−1)S
(zur Erinnerung, S 2 = n−1
i=1 (Xi − X̄) ) in äquivalenter Form als
σ2
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
b
a
angeschrieben werden kann, ergibt sich
P(
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
) = F (b) − F (a) = 1 − α,
b
a
sodaß man jede Lösung (a, b) von F (b) − F (a) = 1 − α zur Konstruktion eines Intervallschätzers heranziehen kann. Es ist gebräuchlich, b aus der Gleichung F (b) = 1 − α2
und a aus F (a) = α2 zu bestimmen. Das ist nicht die einzig mögliche Lösung, sie erfüllt
aber F (b) − F (a) = 1 − α.
Antwort: Eine (sehr gebräuchliche) Lösungsmethode ist wie folgt. Es seien b und a die
1 − α2 bzw. α2 Quantile der χ2n−1 -Verteilung. Danach bildet man in gewohnter Weise die
(n−1)s2
1 Pn
1 Pn
Funktionen s2 = n−1
i=1 (xi − x̄) (wobei x̄ := n
i=1 xi ) und findet θ(x) =
b
und θ(x) =
(n−1)s2
.
a
Hat man die konkreten Datenwerte x = (x1 , . . . , xn ) vorliegen, so
10.2. Schätz- und Testverfahren
283
wertet man die beiden Funktionen aus und kann sagen, daß σ 2 mit Wahrscheinlichkeit
≥ 1 − α in diesem Intervall liegt.
Es soll für die im vorigen Beispiel angegebene Meßreihe ein Konfidenzintervall mit
Irrtumswahrscheinlichkeit α = 0.1 bestimmt werden.
Antwortfindung: Wie eben gesagt, brauchen wir das α2 = 0.05 Quantil a, bzw. 1 − α =
0.95 Quantil b für die χ9 -Verteilung (weil es 10 Meßpunkte sind). Man findet a = 3.325
und b = 16.92 aus einer entsprechenden Tabelle ([4], S 61ff). Das s2 = 1.66 × 10−2
wurde schon im vorangehenden Beispiel bestimmt.
Die Intervallgrenzen ergeben sich zu
9×1.66×10−2
≈ 0.0448.
3.325
(n−1)s2
b
=
9×1.66×10−2
16.92
≈ 0.0088 und
(n−1)s2
a
=
Antwort: Die Varianz σ 2 liegt mit 90%-iger Sicherheit im Intervall (0.009, 0.045).
Es soll zum Abschluß eine mit 90%-iger Sicherheit geltende obere Grenze für σ 2 angegeben werden. (Es genügt mir, zu wissen, daß die Streuung i.A. nicht größer als dieser
Wert ist.)
Antwortfindung: Man braucht nur das a als Lösung der Gleichung F (a) = α = 0.1. Es
ergibt sich a = 4.168 aus der gleichen Tabelle der χ29 Verteilung. Danach ergibt sich das
−2
rechte Intervallende zu 9×1.66×10
≈ 0.036.
4.168
Antwort: Mit 90%-iger Wahrscheinlichkeit ist die Varianz σ 2 < 0.036 ist.
10.2.3
Statistische Testverfahren
Hier soll nur ein Einblick für 1-dimensionale Zufallsvariable bzw. Parametertests für 1parametrige Verteilungen behandelt werden.
1. Es sei eine Zufallsvariable X : Ω → R gegeben, über deren Verteilung eine Aussage,
die sogenannte Nullhypothese H0 vorliegt. (z.B. X hat einen Erwartungswert ≥ 50“,
”
konkreter Die Partei XY wird demnächst mindestens 50% der Parlamentssitze bekom”
men“) oder Die Strahlungskonzentration um die Unglücksstelle ist mit der Entfernung
”
exponentialverteilt mit Exponent λ > 50“.
Ein Testverfahren zur Widerlegung einer Nullhypothese im ersten Fall heißt Parametertest (hier wäre der Parameter θ := µ = E(X)), im anderen Fall spricht man vom Anpassungstest (nämlich ob die Meßdaten einer Exponentialverteilung angepaßt“ sind).
”
Beim Parametertest besteht die Nullhypothese in der Aussage θ ∈ Θ0“ (im obigen
”
Fall ist Θ0 = [50, ∞)) und die Alternativhypothese in θ ∈ Θ1“ für Parameterbe”
reiche Θ0 , Θ1 ⊆ R, von der man die Unvereinbarkeit mit H0 fordert (also z.B. H0 :
θ ∈ Θ0 := [45, 55]“ und H1 : θ ∈ Θ1 := [0, 30]“).
”
”
In abstrakter Fassung: Man weiß, FX ∈ F, einer Menge von Verteilungen. H0 bedeutet
die Aussage FX ∈ F0“ für eine gewisse Teilmenge F0 ⊂ F und H1 , daß FX ∈ F \ F0
”
ist.
Parametrische Form: F = {Fθ | θ ∈ Θ} und F0 = {Fθ | θ ∈ Θ0 }
284
Statistik
2. Grundsätzlich sollte H0 widerlegt werden (auch wenn das nicht immer der Fall ist)
und man gibt zunächst ein Signifikanzniveau α (meist in {0.1, 0.01, 0.001}, manchmal
auch kleiner) vor, nämlich dafür, daß man H0 im Zuge des Verfahrens ungerechtfertigt
verwirft (sogenannter Fehler 1.Art).
Nun konstruiert man eine Testfunktion T : Rn → R, deren Verteilung F unter der Annahme von H0 bekannt ist. Weiters wird ein Ablehnungsbereich oder kritischer Bereich
Kα ⊆ R konstruiert (meist ein Intervall), und zwar durch die Bedingung
P (T X ∈ Kα ) ≤ α,
wobei die bekannte Verteilung F zur Berechnung herangezogen
R ∞wird. Etwa, wenn f eine
Dichte der Verteilung F von T X ist, durch P (T X ∈ Kα ) = −∞ T (x)f (x) dx.
Abstrakt: Man konstruiert T : Rn → R, sodaß T X eine Verteilung F besitzt, die sich
für jedes F0 ∈ F0 mittels T berechnen läßt.
Im parametrischen Fall ist F = Fθ als Funktion von θ ∈ Θ0 ausdrückbar. Insbesondere
ist P = Pθ von diesem θ abhängig.
3. Es werden n unabhängige Messungen der Variablen X gemacht. Beschrieben wird das
durch einen Zufallsvektor X : Ω → X mit Realisierung x ∈ Rn (die gemessene Tabelle).
Danach wird mittels der konreten Stichprobe x ∈ Rn getestet: ist T (x) ∈ Kα (d.h., wenn
der Wert der Testfunktion im kritischen Bereich liegt), so lehnt man H0 ab, andernfalls
gilt sie als aufgrund des statistischen Befundes nicht abzulehnen.
4. Wird H0 aufgrund der Daten nicht verworfen, obwohl H0 falsch ist, begeht man einen
Fehler 2.Art.
Als Gütefunktion bezeichnet man g : F → [0, 1] definiert durch
8
g(F ) := PF (T X ∈ Kα )
Für F ∈ F0 ist g(F ) die Wahrscheinlichkeit dafür, einen Fehler 1.Art, für F ∈ F \F0 die
Wahrscheinlichkeit dafür, daß der Test das erkennt, m.a.W., daß auf F die Alternative
Hypothese H1 zutrifft und die Nullhypothese H0 zurecht verworfen wurde.
Die Einschränkung von g auf F0 heißt Irrtumswahrscheinlichkeit 1.Art, und 1 − g das
Konsumentenrisiko.
Die Einschränkung von g auf F \ F0 heißt Trennschärfe (auch Macht, Power) des
Testverfahrens und 1 − g Irrtumswahrscheinlichkeit 2.Art.
Auf die Gütefunktion soll hier nicht eingegangen werden. Siehe hiezu z.B. [6].
Beispiel 59 (Parametertests) Die einfache Nullhypothese lautet H0 : θ = θ0 . Dabei kann
θ eine Wahrscheinlichkeit, eine Streuung, etc. sein. Getestet wird üblicherweise gegen eine
der folgenden Alternativen H1 :
8
Es ist PF ((−∞, x)) = F (x), somit PF das von der Verteilungsfunktion bestimmte Maß.
10.2. Schätz- und Testverfahren
285
• θ 6= θ0 : wenn z.B. das Werkstück das Ausmaß θ0 und weder zu lang oder kurz sein darf;
• θ < θ0 : wenn z.B. θ0 die vom Werk behauptete Funktionsdauer eines technischen Geräts
ist;
• θ > θ0 : wenn z.B. θ0 die von der Firma behauptete Maximalzahl der Produktionsfehler
einer Lieferung ist;
1. Jemand möchte zeigen, daß eine Münze nicht regelmäßig ist, und möchte sie n mal
(unabhängig) werfen, um die Häufigkeit von K (Kopf), bzw. Z (Zahl) zu ermitteln
(ein Bernoulliexperiment, vgl. Beispiel 46). Dazu werde eine Irrtumswahrscheinlichkeit
α = 0.05 angegeben und, unter der Annahme daß man P ({K}) ∈ (0.4, 0.6) geschätzt
wird, soll die Wahrscheinlichkeit β einen Fehler 2.Art zu begehen, höchstens gleich 0.05
sein. Nach welcher Regel entscheidet man?
Antwortfindung:
Liegt ein parametrischer Test vor? Wie lauten Θ und θ, falls ja?
Antwort: Es liegt ein parametrischer Test mit θ = p ∈ Θ = [0, 1] als Parameter.
Wie formuliert man H0 und H1 ? Wie lauten Θ0 und Θ1 ?
Antwort: Man will die Nullhypothese H0 P ({K}) = 12 “ durch Experiment widerlegen.
”
Θ0 = { 21 }.
Als Alternativhypothese H1 wurde |p− 12 | ≥ 0.1“ formuliert. Demnach ist Θ1 = [0, 0.4]∪
”
[0.6, 1].
Wie können T und der Ablehnungsbereich konstruiert werden?
Antwort(findung): Wie bei allen Bernoulliexperimenten ist lediglich das Eintreten eines
Ereignisses (hier K) von Interesse und somit beobachtet man die Zufallsvariable X :
Ω = {K, Z} mt Wert 1 oder 0, je nachdem, ob K oder Z kommt. Entsprechendes nfaches unabhängiges Werfen
wird durch den Zufallsvektor X : Ω → {0, 1}n beschrieben
1 Pn
und danach ist X̄ := n i=1 Xi : Ω → R jene Zufallsvariable, die nach Auswerten
der Meßergebnisse
die relative Häufigkeit kn0 annimmt. Sie gibt Anlaß, die Funktion
1 Pn
T (x) := n i=1 xi : Rn → R als Testfunktion heranzuziehen.
Den Ablehnungsbereich Kα besorgen wir uns ähnlich, wie man ein Konfidenzintervall
konstruiert: Es genügt z ≥ 0 mit P (|X̄ − 21 | ≥ z) = α = 0.05 anzugeben. Weil |X̄ − 21 | ≥
z ⇔ −z ≤ X̄ − 12 ≤ z ist, ergibt sich
1
1
P (|X̄ − | > x) = 1 − P ((|X̄ − | ≤ x) = 1 − (FX̄− 1 (x) − FX̄− 1 (−x)).
2
2
2
2
Unter der Annahme von H0 kann die Verteilung von T X = X̄ mittels des zentralen
X̄− 1 √
GWS (Anmerkung 48) approximativ bestimmt werden, weil ja Z = 1/22 n approximativ N (0, 1)-verteilt ist. Das ergibt
√
√
√
1 − α = FX̄− 1 (x) − FX̄− 1 (−x) = Φ(2x n) − Φ(−2x n) = 2Φ(2x n) − 1,
2
2
286
Statistik
√
also die Gleichung Φ(2x n) = 1 − α2 , die nach Ermittlung des entsprechenden Quantils
z1− α2 = z0.975 = 1.960 auf
√
2x n = 1.960
führt, sodaß sich in Abhängigkeit von n als Ablehnungsbereich
1 0.98 1 0.98
K0.05 = [0, 1] \ ( − √ , + √ )
2
n 2
n
eignet.
Wie formuliert man die Bedingung, daß die Wahrscheinlichkeit, einen Fehler 2.ter Art
zu begehen, höchstens β ist?
Antwort: Dazu benützt man die Gütefunktion g für Werte von Parametern, auf die H1
zutrifft. Die Gütefunktion ist für p ∈ Θ1 = [0, 0.4] ∪ [0.6, 1] definiert durch g(Fp ) =
√ ).
Pp (|T X − 21 | ≥ 0.98
n
2. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable mit bekanntem σ. Weiters sei
H0 die Nullhypothese µ = µ0“. Gegeben sei ein Signifikanzniveau α. Man beschreibe
”
ein Testverfahren für H0 gegen die Alternativhypothese µ 6= µ0“.
”
Antwortfindung: Es liegt nahe, Θ0 = {µ0 } und Θ1 := R \ {µ0 } zu wählen. Nun kan man
das Problem mittels eines Intervallschätzers behandeln: Die Forderung an Kα , nämlich
Pµ0 (X ∈ Kα ) ≤ α
und die Symmetrie der Gaußverteilung um µ legen es nahe, Kα als Komplement eines
Konfidenzintervalls für die Irrtumswahrscheinlichkeit α zu bestimmen.
3. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable und H0 die Hypothese σ = σ0“,
”
sowie H1 die Alternativhypothese σ 6= σ0“. Wie kann für gegebenes Signifikanzniveau
”
α ein Testverfahren konstruiert werden?
Antwort: Auch hier genügt es, Kα als Komplement eines Konfidenzintervalls zur Vertrauensgrenze 1 − α anzunehmen.
4. Es seien X, Y normalverteilte Variable. Es sei H0 die Hypothese µX = µY “ und H1
”
die gegenteilige Aussage. Zum Signifikanzniveau α ist ein Testverfahren zur Ablehnung
von H0 zu entwickeln.
Antwort: Nach dem Additionstheorem für Normalverteilungen erweist sich Z = X − Y
als normalverteilt (vgl.Beispiel 44). Nun betrachtet man das neue Problem Z = 0 versus
Z 6= 0, indem Kα als Komplement eines Konfidenzintervalls zum Konfidenzniveau 1 − α
festlegt.
Als Ergebnis dieser Vorgangsweise findet man den t-Test:
s
X̄ − Ȳ
nX nY (nX + nY − 2)
T (X, Y ) := q
.
nX + nY
2 + (n − 1)S 2
(nX − 1)SX
Y
Y
10.2. Schätz- und Testverfahren
287
Zum Signifikanzniveau ist dann das α-Quantil der tnX +nY −2 -Verteilung zu bestimmen.
Danach wird H0 verworfen, wenn die Realisierung von |T | einen größeren Wert annimmt.
Beispiel 60 (Anpassungstest)
1. (χ2 -Test) Es sei X : Ω → R eine Zufallsvariable mit Verteilung FX , F0 eine Verteilung
(z.B. Normalverteilung oder Gleichverteilung, alle Parameter darin sollen als bekannt
festliegen!) und die Nullhypothese H0 durch FX = F0“ gegeben.
”
Ein Grenzwertsatz der folgenden Art wird benützt:
Es werden mittels einer Tabelle (xk | k = 1, . . . , n) von unabhängig ermittelten Meßwerten von X zunächst Klassen gebildet, d.h. eine Unterteilung von R in paarweise
disjunkte Intervalle Ik = [ak , bk ) und für jedes solche Intervall die theoretische Häufigkeit pk := P (Ik ) = FX (bk ) − FX (ak ) gebildet. Es ist dann
hk :=
|{i | xi ∈ [ak , bk )}|
n
die relative Häufigkeit für Meßwerte im Intervall Ik , von der man erwartet, daß sie
approximativ gleich pk ist. Die Theorie zeigt nun, daß für hinreichend großes n die
Pearsonsche Stichprobenfunktion
χ2 := n
X (hk − pk )2
k
pk
=
X (|{i | xi ∈ [ak , bk )}| − npk )2
npk
k
approximativ χ2m−1 -verteilt ist.
Die Hypothese FX = F0“ wird demgemäß verworfen, wenn bei gegebenem Signifikanz”
niveau α der Wert der Pearsonschen Stichprobenfunktion für dieses Datenmaterial das
α-Quantil χ2α;m−1 überschreitet.
Bei der Klasseneinteilung ist es sinnvoll, für jede Klasse die Ungleichung nk > pk9qk
einzuhalten (wegen der versteckten“ Benützung des zentralen GWS).
”
Ein Würfel wird 1000 mal geworfen und es ergibt sich die Meßreihe
Augenzahl
1
2
3
4
5
6
Häufigkeit 168 173 164 167 162 166
Für das Signifikanzlevel α = 0.005 soll gecheckt werden, ob es sich um Gleichverteilung
handelt (vgl. Beispiel 1 und Definition 5).
Antwort(findung): Hier sind in natürlicher Weise schon 6 Klassen vorgegeben und jede
erfüllt nk > 160 ≥ 95 = 64.8.
36
Die Pearsonsche Stichprobenfunktion kann aus der Tabelle unmittelbar abgelesen werden, wobei noch npk = 1000
6 zu berücksichtigen ist:
χ2 =
1000 2
2 (164 − 1000 )2 (167 − 1000 )2 (162 − 1000 )2 (166 − 1000 )2
(173 − 1000
6 )
6 )
6
6
6
6
+
+
+
+
+
1000
1000
1000
1000
1000
1000
6
6
6
6
6
6
(168 −
288
Statistik
Es ergibt sich als Wert
107
250
= 0.428.
Nun berechnet man das 1 − 0.005-Quantil der χ25 -Verteilung, welches sich zu χ25;0.995 =
16.75 ergibt. Dieser Würfel genügt hohen Standards9 .
2. (Kolmogorow-Smirnow Test) Es besitze die Zufallsvariable X : Ω → R eine stetige
Verteilung FX und es sei F0 eine stetige Verteilungsfunktion. Nun sei H0 die Nullhypothese FX = F0“. Man überprüft dies mittels empirischer Verteilungsfunktion Fn , die
”
sich aus n unabhängiger Messungen (xk | k = 1, . . . , n) von X ergibt.
Der Test beruht auf dem Satz von Gliwenko-Cantelli (Anmerkung 49) in asymptotischer
Form:
∞
X
λ
2
(−1)j e−2(jλ) .
P (Dn < √ ) ≈ Q(λ) := 1 + 2
n
j=0
wobei Dn = maxk |Fn (xk ) − F0 (xk )| als Approximation der Kolmogorowdistanz von FX
und Fn fungiert. Die Funktion auf der rechten Seite kann für viele Zwecke ab λ ≥ 4
2
durch die einfachere Q(λ) ≈ 1 − 2e−λ ersetzt werden, für die meisten praxisnahen
α ∈ {0.1, 0.05, 0.01, 0.005, 0.001} liegt sie in tabellierter Form vor.
Das 1 − α-Quantil λ1−α wird hier als Lösung der Gleichung Q(λ) = 1 − α gefunden und
√
man verwirft H0 FX = F0“, wenn Dn n > λ1−α ist.
”
Wie testet man das vorige Beispiel mit dem KS-Verfahren?
Antwort: Gar nicht, da die Verteilungsfunktion beim Würfel unstetig ist, wie in Beispiel
28 1 ausgeführt worden ist.
Zwei Meßgeräte zur Messung der gleichen physikalischen Größe X ergeben nach n = 5
Messungen folgende Meßreihen
Gerät A 15.1 17.2 19.3 20.4 21.3
Gerät B 15.2 17.1 19.4 20.5 21.2
Auf dem Signifikanzniveau α = 0.05 soll getestet werden, ob die Verteilung für beide
Messungen auf dem Intervall [15, 22] als die gleiche anzusehen ist.
Antwort: Man kennt die Verteilung der Größe X zwar nicht (nicht einmal ob ihre
Verteilung stetig ist). Ihre Differenz sollte jedoch in jedem Intervall den Wert Null mit
gleicher Häufigkeit annehmen, es sollte also eine Rechtecksverteilung auf dem Intervall
[15, 22] sein. Somit ist F0 (x) = 1 auf dem Intervall. Die Berechnung von D5 ergibt
D5 = max{0.1, 0.1, 0.1, 0.1, 0.1} = 0.1
√
und D5 5 ≈ 0.2236. Nun sieht man in einer entsprechenden Tabelle nach und findet
für n = 5 als 0.95 Quantil beim KS-Test den Wert λ0.095 = 0.563. Da 0.2236 < 0.563
kann die Nullhypothese Gerät A und Gerät B messen die gleiche Verteilung“ nicht
”
abgelehnt werden.
9
Gut möglich, daß die Messungen frei erfunden“ sind.
”
10.3. Kovarianz und lineare Regression
289
Was passiert, wenn die Kollegen, die jeweils auf A und B messen, verschieden lange
Meßreihen erzeugen, z.B. der eine mißt für Werte von ca 15 – 22, der andere von 14 –
23?
Antwort: In dieser Situation wird häufig der Wilcoxon-Test verwendet (sieh z.B. [13]).
10.3
a)
Kovarianz und lineare Regression
b)
c)
Im folgenden soll (X, Y ) : Ω → R2 eine vektorwertige Zufallsvariable sein. In der obigen
Skizze würde man für die Dichtefunktion im Fall a) einen glockenartigen Hügel mit kreisförmigen, in b) mit elliptischen und in c) mit extrem schmalen elliptischen Höhenschichtlinien
erwarten. Der Mittelpunkt des Kreises, bzw. der Ellipse ist der Erwartungswert von (X, Y )
und läßt sich nun sehr leicht als Massenmittelpunkt (vgl. Beispiel 28 4.) begreifen. Auch
Varianz und die zu erklärende Kovarianz haben Bezug zur Mechanik – den Trägheits- und
Deviationsmomenten, worauf hier nicht eingegangen werden soll.
In c) hätte man sehr steilem Anstieg an den Flanken der Geraden – eher in Richtung
der Geraden mit einer Gleichung y = ax + b normalverteilt und senkrecht dazu eine Diracverteilung. Insbesondere würde man in c) auf Y = aX + b mit hoher Wahrscheinlichkeit“
”
schließen wollen. Praktische Probleme dieser Art wären z.B. In welchem Maße beeinflußt
”
die Zugabe des Wirkstoffes X das Ertragsaußmaß Y“ (hier vermutet man, kennt jedoch den
direkten Zusammenhang von X,Y im allgemeinen nicht) bzw. das Gesetz für die gleichmäßig
gleichförmige Bewegung s = vt + s0 (Weg = Geschwindigkeit× Zeit), das so lange gültig ist,
bis es durch Tests mit entsprechendem Signifikanzniveau und Gütefunktion falsifiziert wird.
Der nun zu erklärenden Begriff Kovarianz tritt auf, weil in b) die Ellipsen (die approximativen Höhenschichtlinien der Dichtefunktion, die jedoch bei der weiter unten zu erklärenden
2-dimensionalen Gaußverteilung exakte Ellipsen sind) alle gedreht sind:
Beispiel 61 Es sei (X, Y ) : Ω → R2 eine Zufallsvariable mit Erwartungswert (µX , µY ) und
die skalaren Zufallsvariablen haben (natürlich Erwartungswerte µX , bzw. µY ) und Varianzen
V (X), V (Y ). Nun betrachten wir die Zufallsvariablen Za,b := aX + bY für alle Werte (a, b),
d.h., die Verteilung entlang eines Durchmessers“. Sichtlich ist E(Za,b ) = aE(X) + bE(Y )
”
290
Statistik
weil E linear ist (vgl. Anmerkung 34). Für die Varianz bekommt man nach etwas Rechnung
V (Za,b ) = a2 V (X) + 2ab(E(XY ) − E(X)E(Y )) + b2 V (Y ).
Der halbe Koeffizient der gemischt quadratischen Glieder ab ist cov (X , Y ) := E (XY ) −
E (X )E (Y ) und man nennt diese Zahl die Kovarianz von X und Y . Damit wird
V (Za,b ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y )
eine quadratische Form in (a, b), deren geometrische Deutung die folgende ist:
1. Ohne Einschränkung wählen wir ein Koordinatensystem in R2 mit (µX , µY ) = (0, 0).
2. Für einen Vektor (a, b) der Länge 1 ist das innere Produkt
p
aX + bY = X 2 + Y 2 cos((X, Y ), (a, b))
die Projektion von (X, Y ) auf den Fahrstrahl von (0, 0) nach (a, b).
p
3. Nun ist V (aX + bY ) ein Maß dafür, wie stark (X, Y ) entlang der Geraden durch (a, b)
streut. Dies kann wie folgt zu einer bildhaften Darstellung benützt werden: Man plottet
für den Winkel
p θ ∈ [0, 2π) auf dem Radiusvektor durch (a, b) := (cos θ, sin θ) den Wert
von σθ := V (cos θX + sin θY ). Im allgemeinen bekommt man eine (gedrehte) Ellipse,
in ausgearteten Fällen lediglich einzelne Punkte. In Richtung der längeren Ellipsenachse
ist dann die Streuung am größten und kann in konkreten Problemen Aufschluß über
etwa Richtung stärkster Ausbreitung eines Pilzbefalls etc. beschreiben. Dies sieht man
in der obigen Skizze in b) recht deutlich.
4. Analyse der Ellipsen: Als quadratische Form hat
2
2
V (aX+bY ) = a V (X)+2abcov (X , Y )+b V (Y ) = (a, b)
V (X)
cov (X , Y )
cov (X , Y )
V (Y )
unter der Nebenbedingung a2 + b2 = 1 lokale Extrema, deren Auffindung mittels der
Methode von Lagrange Q(a, b, λ) := a2 V (X)+2abcov (X , Y )+b 2 V (Y )−λ(a 2 +b 2 −1 )
und Differenzieren auf
V (X) − λ cov (X , Y )
a
0
=
,
cov (X , Y ) V (Y ) − λ
b
0
und somit auf ein (symmetrisches) Eigenwertproblem führt. Die Lösungen (a, b) des
EWP ergeben die Achsen der Ellipse, sofern die Ausgangsmatrix regulär ist. Damit
kann man in b) der obigen Skizze die Ellipse einzeichnen.
5. Ist genau einer der Eigenwerte Null, so ist die Matrix singulär und es gibt eine lineare
Abhängigkeit zwischen X und Y im stochastischen Sinn: Man kann eine Ausgleichsgerade a0 X + b0 Y = a0 µX + b0 µX 0, bzw.
0 = a0 (X − µX ) + b0 (Y − µY )
a
b
10.3. Kovarianz und lineare Regression
291
angeben, wobei für V (X) 6= 0 man
(a0 , b0 ) = (−cov (X , Y ), V (X ))
bekommt.
6. (Gaußverteilung) Ohne Beweis (der durchaus elementar ist) sei hingewiesen, daß jede
2-dimensionale Gaußverteilung von der Form
f (x, y) =
mit
1
Q(x, y) =
2(1 − ρ2 )
1
p
e−Q(x,y)
2πσX σY 1 − ρ2
(x − µX )2
(x − µX )(y − µY ) (y − µY )2
+
−
2ρ
2
σX σY
σX
σY2
)
ist. Dann erweist sich ρ = covσX(Xσ,Y
. Damit folgt für Normalverteilungen aus der UnY
korreliertheit auch die Unabhängigkeit.
Weiß man nun z.B., daß X, Y beide normalverteilt sind, so verhilft die Lösung des
Eigenwertproblems zur Beschreibung der Verteilung als Gaußverteilung im obigen Sinn.
Deshalb besteht Interesse an der Ermittlung der Kovarianz bzw. Kovarianzen bei mehr
als 2 Variablen.
Definition 62 (Ausgleichsgerade) Es sei (X, Y ) : Ω → R eine 2-dimensionale Zufallsvariable mit V (X) 6= 0. Dann heißt die mit der eindeutige Lösung (a0 , b0 ) ∈ R2 der Aufgabe
E((Y − aX − b)2 ) ⇒ Minimum
gebildete Gerade mit der Gleichung
y = a0 x + b0
die Ausgleichs- oder Regressionsgerade10 von Y bezüglich X zur gemeinsamen Verteilung von
(X, Y ). Man findet (a0 , b0 ), indem man die Kovarianz
cov (X , Y ) := E ((X − µX )(Y − µY )) = E (XY ) − µX µY
berechnet als
a0 =
cov (X , Y )
, b0 = µY − a0 µX
V (X)
in Übereinstimmung mit jenen von Beispiel 61 5. Der Vorteil dort wäre die Verfügbarkeit
etwa der QR-Zerlegung (vorallem im höherdimensionalen Fall wichtig).
10
Regression“, d.i. Rückschritt“, kommt daher, weil die Ausgleichsgeraden um 1900 von Galton und Pear”
”
son zur Überprüfung von Vererbungsmerkmalen benützt worden sind. Die Aussage war, daß ein Merkmal
bei Kindern von Vätern, bei denen es vom Mittelwert abweicht (Größe), wohl auch abweicht, doch in einem
geringeren Ausmaß. Der Zusammenhang des Rückschritts“ wurde linear angenommen. (Aus [13], S 136).
”
292
Statistik
Der Nachweis besteht in 2 Schritten. Im ersten Schritt zeigen wir, daß ein Minimum bestenfalls an der Stelle (a0 , b0 ) angenommen wird: Das obige Beispiel in Betracht ziehend,
schreiben wir
f (x, y) := (y − ax − b)2 = (µY − aµX − b)2 +
lineare Glieder in x − µX und y − µY
+a2 (x − µX )2 − 2a(x − µX )(y − µY ) + (y − µY )2 .
Bildet man nun f (X, Y ) und wendet E an, so ergibt sich die folgende Gestalt der zu minimierenden Funktion
g(a, b) := E(f (X, Y )) = (µY − aµX − b)2 + a2 V (X) − 2acov (X , Y ) + V (Y ).
Da g als Polynom (in a, b) stetig differenzierbar ist, müssen an (a0 , b0 ) die partiellen Ableitungen sowohl naach a bzw. b verschwinden, wodurch das Gleichungssystem
0 = b + aµX − µY + aV (X) − cov (X , Y ) = b + aµX − µY
entsteht, dessen einzige Lösung das obige (a0 , b0 ) ist.
Im zweiten Schritt wollen wir zeigen, daß (a0 , b0 ) ein globales Minimum ist, und das ist
genau dann der Fall, wenn die Funktion h(u, v) := g(a0 + u, b0 + v) − g(a0 , b0 ) > 0 für alle
Werte (u, v) 6= (0, 0) ist. Die völlig elementare Umformung zeigt11 :
V (X) + µ2X µX
u
2
2
2
.
h(u, v) = (V (X) + µX )u + 2µX uv + v = (u, v)
µX
1
v
Da die Hauptminoren, nämlich V (X)+µ2X und V (X) beide positiv sind, ist diese quadratische
Form in (u, v) positiv definit, also gilt die Behauptung.
Anmerkung 63 Es gelten die folgenden Aussagen:
Übliches lineares Ausgleichen (Gaußnotation): Ist (X, Y ) gemäß eines diskreten
Maßes verteilt, so kann man wegen Anmerkung 11
P das Maß durch Punkte (xi , yi )
angeben, denen jeweils ein Gewicht gi > 0 mit i gi = 1 zukommt (es ist gi =
P ({xi })).
Sind alle Punkte gleichwertig, so sind es endlich viele, etwa n, und haben das gleiche
Gewicht n1 , sodaß unter Verwendung der Gaußnotation:
nE(X) =
X
i
xi =: [x], nE(XY ) =
X
i
xi yi =: [xy], nE(X 2 ) =
X
x2i =: [xx]
i
aus den obigen Gleichungen (die in diesem Fall eher direkt hergeleitet werden) 12 die
Normalgleichungen durch Spezialisierung aus Definition 62 folgen:
11
Taylorformel z.B.
10.3. Kovarianz und lineare Regression
a0 =
293
n[xy] − [x][y]
[y][xx] − [xy][x]
, b0 =
.
2
n[xx] − [x]
n[xx] − [x]2
Die allgemeinere Version, bei der die Punkte Gewichte haben, kann z.B. benützt
werden, um manche der Punkte (xi , yi ) beim Approximieren durch eine Gerade
”
wichtiger zu nehmen“.
Regressionskoeffizient: Es heißt
a0 =
cov (X , Y )
,
V (X)
d.i. die Steigung der Ausgleichsgeraden von Y bezüglich X, auch Regressionskoeffizient von Y bezüglich X.
Korrelationskoeffizient: Die dimensionslose Größe
ρ :=
cov (X , Y )
σX σY
heißt Korrelationskoeffizient der Variablen X, Y . Man kann sehr leicht zeigen
−1 ≤ ρ ≤ 1,
indem man hX, Y i := E(XY ) als inneres Produkt interpretiert und die CauchySchwarzsche Ungleichung anwendet.
Man kann zeigen, daß |ρ| = 1 genau dann gilt, wenn Y = aX + b für mit Wahrscheinlichkeit eins gilt. a hat dann das gleiche Vorzeichen wie ρ.
Y = aX + b + Z mit Z ein normalverteilter Fehler: Es sollen a und b aus Stichproben ((xi , yi ) | i = 1, . . . , n) geschätzt werden. In dieser Situation nimmt man an, daß
Z ein N (0, σ)-verteilter Fehler ist. Dementsprechend benützt man die Gaußschen
Normalgleichungen zur Ermittlung von Schätzwerten von a, b. Unter Verwendung
[y]
der arithmetischen Mittel x̄ := [x]
n und ȳ := n bekommt man eine empirische
Ausgleichsgerade in der Form
y − ȳ = a(x − x̄).
Nun verwendet man für die Abweichung Z = Y − (aX + b) als Approximation für
V (Y |X = x) := E((Y − (ax + b))2 ) (die Varianz von Y unter der Bedingung, daß
X den Wert x annimmt),
n
s2 =
1 X
(yi − a − bxi )2 .
n−2
i=1
Ist cov (X , Y ) gleich Null, so heißen die Variablen unkorreliert. Unabhängige Variable sind stets unkorreliert, die Umkehrung ist im Allgemeinen falsch, wenn X, Y
294
Statistik
nicht normalverteilt sind. Ist z.B. Ω := {−1, 0, 1} als Laplaceraum gegeben und
X die Identität, sowie Y := X 2 , so ist V (X) = 3 und cov (X , Y ) = E (X 3 ) = 0 .
Andrerseits sind die Variablen sichtlich nicht unabhängig.
Mehrfaches Messen von yi : Der Fall unterschiedlicher Meßfehler, wenn die xi bekannt, und die yi mehrfach gemessen werden, kann z.B. in [6] nachgelesen werden.
Beispiel 64 (Fehlerfortpflanzungsgesetz) Ist f : U ⊆ R2 → R eine stetig differenzierbare Funktion und ist (X, Y ) : Ω → U Zufallsvariable mit X, Y unabhängig, so werden
Approximationen von E(X,Y ) (f (X, Y )) und V (f (X, Y )) wie folgt ermittelt:
1. Man ermittelt (µX , µY ), welches lt. Annahme in U liegt und denkt sich f durch seine
lineare Approximation ersetzt, wobei der Einfachheit fx := ∂f
∂x etc. geschrieben werde
f (x, y) ≈ f0 (x, y) := f (µX , µY ) + fx (µX , µY )(x − µX ) + fy (µX , µY )(y − µY ),
wobei die Rechtfertigung für dieses Vorgehen meist daher kommt, daß Fehler höherer
Ordnung von f in der Nähe von (µX , µY ) nicht ins Gewicht fallen (ein analytisches
Problem – gute Kenntnis von f gefordert) und daß weiters die Verteilung von (X, Y )
sehr kleine Streuung hat, sodaß man in den Genuß der Linearapproximation kommen
kann.
Deshalb ist E(f (X, Y )) ≈ E(f0 (X, Y )) = f (µX , µY ).
2. Um die weitere Rechnung zu vereinfachen, nehmen wir µX = µY = 0 an. Dann ist
f0 (x, y) = ax + by mit a := fx (0, 0) und b := fy (0, 0). Nun erkennt man die Übereinstimmung mit 4. in Beispiel 61, sodaß
V (f0 ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ),
und wenn man die Ableitungen explizit hinschreibt, ergibt sich das Fehlerfortpflanzungsgesetz
V (f (X, Y )) ≈ fx2 (µX , µY )V (X)+2fx (µX , µY )fy (µX , µY )cov (X , Y )+fy2 (µX , µY )V (Y ).
12
In diesem Zusammenhang ist die obige Methode als Methode der kleinsten Quadrate“, so genannt von
”
Legendre, der sie zuerst publiziert hat, bekannt ist.
Literaturverzeichnis
[1] I.N. Bronstein und K.A. Semendjajew, Taschenbuch der Mathematik, Siehe
http://de.wikipedia.org/wiki/Taschenbuch_der_Mathematik für die diversen
Ausgaben und Buchbesprechung.
[2] H.J. Dirschmid, Skriptum aus Mathematik 2 f. ET, Wien, 2001.
[3] R. Dutter, Statistik und Wahrscheinlichkeitsrechnung für MB, WI-MB und VT, Wien
2004.
[4] K. Grill, Skriptum zur Vorlesung
Mathematical
”
http://www.ci.tuwien.ac.at/~grill
Statistics“,
TU-Wien
2000,
[5] E. Hardtwig, Fehler und Ausgleichsrechung, BI-Taschenbuch 262/262a*, 1968.
[6] J. Heinhold, K.W. Gaede, Ingenieur-Statistik, Oldenburg 1964.
[7] S. Karlin and H.M. Howard, A first course in stochastic processes, Second edition. Academic Press, New York-London, 1975.
[8] K. Krickeberg, Wahrscheinlichkeitstheorie, Teubner 1963.
[9] Mühlbach, Repetitorium der Wahrscheinlichkeitsrechnung und Statistik, ISBN 3-923 92331-7, Binomi, 2000.
[10] G.H. Peichl, Einführung in die Wahrscheinlichkeitsrechung und Statistik, Vorlesungsskriptum, Univ. Graz, 1999.
[11] P. Szmolyan, Mathematik 1 f. ET, TU Wien, 2005.
[12] P. Szmolyan, Mathematik 2 f. ET, TU Wien, 2005.
[13] H. Weber, Einführung in die Wahrscheinlichkeitsrechung und Statistik für Ingenieure,
Teubner Studienskripten, Stuttgart 1983.
[14] Wikipedia, http://de.wikipedia.org/wiki/Hauptseite
295
Herunterladen