Inhaltsverzeichnis

Inhaltsverzeichnis
9 Wahrscheinlichkeitstheorie
9.1 Empirische und mathematische Wahrscheinlichkeit – W-Maße . . . . . . . . .
9.1.1 Relative Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . .
9.1.2 Bedingte Wahrscheinlichkeit und Ereignisgraphen . . . . . . . . . . . .
9.1.3 Totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . .
9.1.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . .
9.2 Zufallsvariable und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.2 Histogramm und Verteilung einer Zufallsvariablen . . . . . . . . . . .
9.2.3 Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V und
Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . .
9.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
9.2.6 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen . . . .
9.3 Approximation mathematischer durch empirische Wahrscheinlichkeit . . . . .
9.3.1 Ungleichung von Tschebischeff und das Bernoulliexperiment . . . . . .
9.3.2 Gesetz der großen Zahlen, Zentraler Grenzwertsatz . . . . . . . . . . .
213
213
213
222
224
226
227
227
229
10 Statistik
10.1 Grundlagen und Kurzbeschreibung
10.1.1 Aufgaben der Statistik . . .
10.1.2 Hauptsatz der Statistik . .
10.2 Schätz- und Testverfahren . . . . .
10.2.1 Parameterschätzung . . . .
10.2.2 Intervallschätzung . . . . .
10.2.3 Statistische Testverfahren .
10.3 Kovarianz und lineare Regression .
267
267
267
269
270
270
275
283
289
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
239
245
246
248
256
256
262
212
Inhaltsverzeichnis
Kapitel 9
Wahrscheinlichkeitstheorie
9.1
9.1.1
Empirische und mathematische Wahrscheinlichkeit – WMaße
Relative Häufigkeit und Wahrscheinlichkeit
Zunächst beschreiben wir in Definition 2 relative Häufigkeit, auch empirische Wahrscheinlichkeit genannt. Im Zuge der Diskussion des Einführungsbeispiels Beispiel 1 werden jene
Annahmen angedeutet, welche zum Begriff Wahrscheinlichkeit führen, und danach die Begriffe endlicher Wahrscheinlichkeitsraum (Definition 4) und Laplace-Wahrscheinlichkeitsraum
(Definition 5) eingeführt. Schließlich folgt die axiomatische Beschreibung des Begriffes Wahrscheinlichkeitsraum in Definition 9.
Beispiel 1 In einer Versuchsreihe wurde die Häufigkeitsverteilung der Augenzahl x eines
Würfels bei mehrmaligem Werfen (x ∈ Ω := {1, 2, 3, 4, 5, 6}) ermittelt. Es wurden die Häufigkeiten für die Augenzahlen in eine Tabelle in Prozenten eingetragen:
Augenzahl
Prozentsatz
1
16.8%
2
17.3%
3
16.4%
4
16.7%
5
16.2%
6
16.6%
Fragen:
1. Wie oft wurde mindestens gewürfelt, wenn man annimmt, daß keine der Prozentzahlen
gerundet oder abgeschnitten wurde?
2. Kann die Tabelle stimmen?
3. Mit welcher Häufigkeit wurde eine gerade Augenzahl x geworfen?
4. . . . eine ungerade Augenzahl geworfen?
5. . . . eine ungerade Augenzahl oder 4 geworfen?
6. . . . weder eine 3, noch eine 4 aber eine 5 geworfen?
213
214
Wahrscheinlichkeitstheorie
7. Kann man eine Aussage über die Prozentsätze unter der Annahme, daß man mit n → ∞
geht, machen. Darf man erwarten, daß sie alle gegen 100
6 % streben?
Auch wenn im Beispiel ziemlich klar ist, was Häufigkeit in Prozenten“ bedeutet, bedarf
”
es einer formalen Definition.
Definition 2 Es sei Ω eine Menge, sowie A eine Teilmenge, n eine positive ganze Zahl. und
(ω1 , . . . , ωn ) eine n-stellige Folge von Elementen in Ω. Dann wird der Quotient
hn (A) :=
Anzahl der i mit ωi in A
n
als relative Häufigkeit bezeichnet.
Die relativen Häufigkeiten in Beispiel 1 sind demnach
A
hn (A)
{1}
0.168
{2}
0.173
{3}
0.164
{4}
0.167
{5}
0.162
{6}
0.166
weil man durch 100 dividieren muß. Bitte auch zu beachten, daß die Augenzahl jetzt als
einelementige Menge angeschrieben ist und daß wir n nicht kennen1 !
Geht man davon aus, daß weder Würfel noch Unterlage manipuliert“ sind, so kann man
”
beim einmaligen Werfen kaum eine Aussage über den Ausgang des Wurfes machen. Ein
weiterer Aspekt, der in den Fragen 3. 4. und 5. im Beispiel 1 auftritt, ist der, daß man sich
dafür interessiert, ob nach dem Wurf die Augenzahl x in einer Teilmenge A von Ω liegt.
Anmerkung 3 Die Auswahl eines Elements ω in einer Menge Ω bezeichnet man als
Experiment. Man bezeichnet es als zufällig, wenn man davon ausgeht, den Ausgang des
Experiments nicht grundsätzlich vorherbestimmen zu können.
Jede Teilmenge A von Ω nennt man zufälliges Ereignis.
In Beispiel 1 ist Ω = {1, 2, 3, 4, 5, 6}, jeder Wurf in diesem Sinne ein zufälliges Experiment
und das Ereignis die Augenzahl ist ungerade“ drückt sich durch das zufällige Experiment
”
”
zur Ermittlung von x ∈ Ω hat x ∈ A = {1, 3, 5} ergeben“ aus. In Beispiel 1 ist es klar, daß die
relative Häufigkeit dafür, daß x sich in A befindet, die Summe der relativen Häufigkeiten der
einelementigen Teilmengen ist, weil man ja einfach Prozente addiert“. Z.B. ist hn ({1, 3, 5}) =
”
16.8+16.4+16.2
= 0.168 + 0.164 + 0.162 = 0.494. Auf diese Art ist Frage 2 beantwortet und man
100
kann es mit Fragen 4–6 genauso machen – werden jedoch in Beispiel 7 etwas mehr Geschick
walten lassen.
1
Siehe jedoch Beispiel ?? und dort die Antwort auf Frage 1
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
215
Definition 4 Ein endlicher Wahrscheinlichkeitsraum (Ω, P ) besteht aus einer endlichen
Menge Ω, und, für jedes ω ∈ Ω, einem vorgegebenen Wert 0 ≤ f (ω) ≤ 1, derart, daß die
die Gesamtsumme fürP
alle ω dieser Werte genau 1 ergibt. Danach ist für jede Teilmenge A
von Ω durch P (A) := x∈A f (x) ihr Wahrscheinlichkeitsmaß, kurz W-Maß, gegeben.
In diesem Sinne ist Ω = {1, 2, 3, 4, 5, 6} mit f (i) := hn ({i}) aus der obigen Tabelle ein
endlicher Wahrscheinlichkeitsraum und die relative Häufigkeit hn (A) ist das W-Maß von A.
Definition 5 Ein endlicher Wahrscheinlichkeitsraum, in welchem P ({ω}) =
Elementarereignis ω ∈ Ω gilt, heißt Laplace-Wahrscheinlichkeitsraum.
Wir vermerken, daß dann stets P (A) = |A|
|Ω| .
1
|Ω|
für jedes
Beispiel 6 Es sei Ω = {1, 2, 3, 4, 5, 6}, wie in Beispiel 1. Danach legt man für jedes Elementarereignis Es wird durch Würfeln der Wert x ∈ {1, 2, 3, 4, 5, 6} ermittelt und er ist i“ mit
”
P ({i}) := 61 fest. Dann ist für jede Teilmenge A von Ω das W-Maß durch |A|
|6| gegeben.
Die Antwort auf Frage 7 wird durch den in Anmerkung 49, dem Satz von Gliwenko-Cantelli
gegeben werden. Dieser Satz ist eine wahrscheinlichkeitstheoretische Formulierung dafür, in
welchem Sinn bei oftmaligem Wiederholen des gleichen Experiments die empirische Wahrscheinlichkeit gegen die mathematische konvergiert. Das noch zu besprechende Bernoulliexperiment (Beispiel 46) und der zentrale Grenzwertsatz (Anmerkung 48) bilden die Grundlage
hiefür. Vom praktischen Standpunkt aus ergeben sich aus dem zitierten Satz statistische
Testverfahren in Beispiel 60 1, die bestenfalls einen Sicherheitsfaktor“ für das tatsächliche
”
Eintreten eines Ereignisses bestimmen. Die absolute Gewißheit ist jedenfalls auf wahrscheinlichkeitstheoretischem Weg nicht nachweisbar. Rechtfertigung (etwa zur Einführung eines
neuen Medikaments) kann bestenfalls durch (weitere) Testverfahren in W-theoretischem Sinn
untermauert bzw. widerlegt werden. Wenn es wissenschaftliche Methoden ermöglichen, sollten
statistische Ergebnisse ( eine signifikant große Zahl Patienten, die das Mittel A eingenom”
men haben, melden gewisse Nebenwirkungen“) entsprechende fachspezifische (analytische)
Untersuchungen (Medizin, Chemie, etc) nach ziehen.
In diesem Sinne sind die Ausführungen in Beispiel 6 eine mathematische Orientierungshilfe zur Beurteilung der Tabelle in Beispiel 1. Würde z.B. die relative Häufigkeit für
das Werfen einer 3“ stark von 16 abweichen, so könnte man das als Hinweis auf manipulierte
”
”
Würfel oder Unterlage“ auffassen – eine Entscheidung, die, soferne der Würfel einer technischen Untersuchung nicht zugänglich ist (oder die Untersuchung viel zu teuer ist) gelegentlich
mittels statistischer Testverfahren (Unterabschnitt 10.1.1) entschieden wird.
Bei der Beantwortung der Fragen 3–6 aus Beispiel 1 zeigt es sich, daß man vorteilhaft mittels Mengenoperationen, wie Durchschnitt, Vereiningung und Komplement Rechnen“ kann:
”
Beispiel 7 2. Die Prozentzahlen müssen zusammen 100% ergeben. Das tun sie. Wenn man
mit relativen Häufigkeiten rechnet, heißt es, daß sie, zusammengezählt, 1 ergeben.
3. Es sind die geraden Zahlen das Komplement der ungeraden Zahlen. Wir haben in der kleinen Rechnung vor Definition 4 hn ({1, 3, 5}) = 0.494 gefunden, also ergibt sich hn ({2, 4, 6} =
216
Wahrscheinlichkeitstheorie
1 − 0.494 = 0.506. Dabei hat man (implizit) die in endlichen W-Räumen (siehe Definition 4)
gültige Formel P (A0 ) = 1 − P (A) benützt.
5. Es ist {1, 3, 5, 4} disjunkte Vereinigung von {1, 3, 5} und {4}. Dann addieren sich die Prozentsätze und somit die relativen Häufigkeiten. Also hat man P ({1, 3, 5, 4}) = P ({1, 3, 5}) +
16.7
66.1
P ({4}) = 49.4
100 + 100 = 100 .
Hiebei benützt man (implizit) die in diskreten W-Räumen gültige Formel P (A ∪ B) =
P (A) + P (B), falls A ∩ B = ∅.
6. Man kann das de Morgansche Mengengesetz A0 ∩ B 0 = (A ∪ B)0 für die Mengen A := {3}
und B := {4} und {5} ∪ {3}0 ∩ {4}0 verwenden. Dann ist {5} ∪ ({3}0 ∩ {4}0 ) = {3, 4}0 , sodaß
sich P ({5} ∪ ({3}0 ∩ {4}0 )) = 1 − P ({3, 4}) = 1 − 0.164 − 0.167 = 0.669 ergibt. Zugegeben,
kaum ein Rechenvorteil!
Bisher hatten wir nur endliche W-Räume. Das nächste Beispiel soll motivieren helfen, auch
unendliche W-Räume zu formulieren.
Beispiel 8 Ein Sandkorn wirbelt, konvektionsbedingt, über einem quadratischen Mikrochip
und bleibt danach zufällig“ darauf liegen. Es soll im folgenden die Ausdehnung des Sandkorns
”
als vernachlässigbar angesehen werden, es somit als Punkt“ angesehen werden. Wir stellen
”
folgende Fragen, deren Präzisierung und Antwort in Beispiel 12 erfolgen soll.
1. Wie groß ist die Wahrscheinlichkeit dafür, daß das Sandkorn genau im Mittelpunkt des
Chips liegt?
2. . . . in einer der vier Ecken liegt?
3. . . . in einem fest vorgegebenen Teilquadrat mit halber Seitenlänge liegt?
4. . . . in einer Teilfläche, die wie folgt konstruiert wird liegt: Über dem unteren linken
Viertelquadrat wird ein Achtelquadrat, darüber ein Sechzehntelquadrat (jeweils Faktor
1
4 ) errichtet, usw.
Zur (Er)klärung mathematischer Begriffe. Sei Ω das Einheitsquadrat (man denke sich die
Längeneinheit entsprechend gewählt), so besteht jedes Elementarereignis darin, daß ein Punkt
X(x, y) aus Ω gewählt wird.
Es sei nun A eine Teilfläche2 von Ω und A(n) die Anzahl der Fälle, in denen bei n-maliger
Ausführung des Experiments das Korn in A zu liegen kommt.
Man erwartet nun, daß für eine Fläche A die relative Häufigkeit, die gemäß Definition 2
sich zu
A(n)
hn ({X(x, y) ∈ A}) =
n
ergibt, nahe am Flächeninhalt liegt (ähnlich wie man in Beispiel 6 die empirische W. approximativ gleich der mathematischen erhofft).
Somit erscheint es sinnvoll, hier die mathematische Wahrscheinlichkeit eines Ereignisses A
durch den Flächeninhalt zu definieren. Man setzt somit P (X(x, y) ∈ A) = P (A) :=Fläche
2
genauer, eine solche mit wohldefiniertem Flächeninhalt – d.h. Jordanmeßbar bzw. Lebesguemeßbar
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
217
von A und nennt P (A) (mathematische) Wahrscheinlichkeit für das Eintreten des Ereignisses
X(x, y) kommt zufällig in A zu liegen“.
”
Somit ergibt sich als Antwort zu Frage 1 und 2 jeweils der Wert Null. In Frage 3 bekommt
man 41 . In Frage 4 ergibt sich wegen der Disjunktheit der Quadrate unter Benützung der
Bezeichnung Q(a) für ein Quadrat der Seitenlänge a
P (A) =
∞
X
i=1
X
∞
1
1
1
=
= .
P Q
i
i
2
4
3
i=1
Um die Zufälligkeit“ von Ereignissen mathematisch zu behandeln, konstruiert man (ein men”
gentheoretisches Modell), d.i. einen Wahrscheinlichkeitsraum Ω, der alle Elementarereignisse
beschreibt, sowie ein Wahrscheinlichkeitsmaß P , das für eine brauchbar große Klasse Σ (sogenannter meßbarer Ereignisse) von aus (durchaus unendlich vielen) Elementarereignissen zusammengesetzten Ereignissen eine mathematische Wahrscheinlichkeit angibt. Bei oftmaliger
Wiederholung ein und des selben Experiments erwartet man eine Annäherung der relativen
Häufigkeit jedes meßbaren Ereignisses an die mathematische Wahrscheinlichkeit, wie wir bei
der Diskussion des Bernoulliexperiments in Beispiel 46 deutlich zu machen beabsichtigen.
Hier die Forderungen an so ein Tripel (Ω, Σ, P ):
Definition 9 Ein Wahrscheinlichkeitsraum (Ω, Σ, P ), kurz W-Raum besteht aus folgenden
Daten:
1. Einer Menge Ω der Elementarereignisse. Jede Teilmenge von Ω heißt Ereignis. Ein
zufälliger Versuch“ besteht in der Auswahl eines Elementes x ∈ Ω.
”
2. Einer Menge Σ von Teilmengen von Ω, genannt Menge der meßbaren Ereignisse. Jede
Menge A ∈ Σ steht für das Ereignis in zufälliger Weise wird ein x ∈ Ω bestimmt, und
”
dieses x liegt dann in A“. Die Menge Σ sei eine Σ-Algebra, d.h.:
(a) Ω gehört zu Σ.
(b) Wenn die Teilmenge A zu Σ gehört, so auch das Komplement A0 := Ω \ A (A0
heißt das zu A komplementäre Ereignis).
(c) Wenn A1 , A2 , . . . eine unendliche Folge von Elementen in Σ ist, so auch die abzählbare Vereinigung
∞
[
Ak = {x | ∃k mit x ∈ Ak }.
k=1
3. Einer Funktion P : Σ → [0, 1], welche die nachstehenden Eigenschaften erfüllt:
(a) Es ist P (Ω) = 1.
(b) Für jedes meßbare Ereignis A gilt P (A0 ) = 1 − P (A).
218
Wahrscheinlichkeitstheorie
(c) Falls A1 , A2 , . . . eine Folge meßbarer Ereignisse ist, und weiters je zwei Mengen
Ai , Aj disjunkt sind (d.h. Ai ∩ Aj = ∅), so gilt:
P(
∞
[
k=1
Ak ) =
∞
X
P (Ak ).
k=1
Man sagt, P ist sigmaadditiv.
Insbesondere (als Spezialfall) gilt für disjunkte Mengen A und B die Additivität,
d.h. P (A ∪ B) = P (A) + P (B).
Man nennt P auch (mathematische) Wahrscheinlichkeitsfunktion (P wie Probability“
”
bzw. Probabilität“) und P (A) die (mathematische)Wahrscheinlichkeit für das Eintre”
ten des Ereignisses A. Falls Σ = P(Ω) (es ist P(M ) stets die Potenzmenge im Sinne
von Definition ??) und es eine abzählbare Teilmenge A von Ω mit P (A) = 1 gibt, heißt
das Maß diskret.
S
Die Mengenoperationen ∪, ∞
k=1 , ∩ und Komplementbildung werden im Sinne von logischen
Operationen mit den Ereignissen beschreibenden Klausen interpretiert:
Anmerkung 10
1. das Ereignis A als x wird zufällig in Ω gezogen und befindet sich
”
in A“. Dann ist P (A) als Wahrscheinlichkeit für das Eintreffen des Ereignisses A
zu interpretieren.
2. A0 = {x ∈ Ω | x 6∈ A} als das Ereignis A tritt nicht ein“.
”
3. A ∩ B = {x ∈ Ω | (x ∈ A) ∧ (x ∈ B)}, somit als zufälliges Ereignis Es tritt sowohl
”
A als auch B ein“.
Ist A ∩ B = ∅, so sagt man Die Ereignisse A und B schließen einander aus.“ oder
”
auch daß sie unvereinbar“ sind.
”
4. A ∪ B = {x ∈ Ω | (x ∈ A) ∨ (x ∈ B)}, somit als zufälliges Ereignis Es tritt
”
wenigstens A oder B ein“.
S
5. ∞
k=1 Ak = {x ∈ Ω | ∃k x ∈ Ak } als ”Wenigstens eines der Ereignisse Ak tritt ein“.
Es kann folgendes gezeigt werden:
Anmerkung 11 In einem diskreten W-Raum mit der abzählbarenSTeilmenge A, welche
P (A) = 1 erfüllt, muß offenbar P (A0 ) P
= 0 sein. Da außerdem A = a∈A {a} eine abzählbare Partition von A ist, gilt P (A) = a∈A P ({a}). Deshalb darf man von A annehmen,
daß jeder Punkt a ∈ A positives Maß hat.
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
219
Ist (Ω, f, P ) ein diskreter Wahrscheinlichkeitsraum im Sinne Definition 4, und Σ die
Menge aller Teilmengen von Ω, so ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum im Sinne von
Definition 9.
Beispiel 12 Es sollen Antworten zu den in Beispiel 8 gestellten Fragen gegeben werden. Als
Ω wählt man das Einheitsquadrat also Q := {(x, y) ∈ R × R | 0 ≤ x, y ≤ 1}. Dieser Wahrscheinlichkeitsraum ist nicht endlich. Die Σ-Algebra Σ sollte aus berechenbaren Flächen“
”
bestehen. Die einfachsten solchen Flächen sind natürlich Rechtecke innerhalb von Q. Nun
wird im Rahmen der Maßtheorie (siehe z.B. [8]) gezeigt, daß diese Rechtecke durch iteriertes
Bilden von Komplement, abzählbaren Vereinigungen und endlich oftmaligem Schneiden auf
eine Σ-Algebra (nämlich der Menge der in Q enthaltenen Borelmengen) von Teilmengen des
Quadrats führen, die ausreichend groß ist, um dort unsere einfach gebildeten Mengen der
Aufgabe wiederzufinden.
Im Zuge der Aufgabe ist es wichtig zu wissen, daß unter den getroffenen Annahmen der
für solche Mengen definierte Flächeninhalt folgende Eigenschaften hat:
1. Punkte und, allgemeiner, abzählbare Mengen haben Maß Null.
2. Geradenstücke haben Maß Null.
3. Dreht oder verschiebt man A, und sind Anfangs- und Ausgangslage Flächen innerhalb
Q, so bleibt der Flächeninhalt erhalten.
4. Ist A eine Teilmenge von Q, deren charakteristische Funktion, definiert durch ξA (x, y) =
1 falls (x, y) ∈ A und Null andernfalls, (uneigentlich) Riemannintegrierbar ist (eine
solche Menge heißt Jordanmeßbar), so gehört A zu Σ.
Mit diesem Wissen ausgestattet, ist P ({( 21 , 12 )}) = 0 und das gilt auch für alle vier Eckpunkte,
z.B. P ({(0, 0)}) = 0. Nun zur Vereinigung der aufeinandergestellten Quadrate. Zunächst sollte
man prüfen, ob die gesamte Figur in Q Platz hat. Dazu darf die Summe aller Seitenlängen
1 1
1 1
+ + ... =
2 4
21−
1
2
=1
nicht größer als 1 sein, was offenkundig der Fall ist.
Nun kommt noch eine Spitzfindigkeit: Die Quadrate haben keinen paarweise leeren Schnitt,
sondern scheiden einander in einem Geradenstück. Dieses hat Maß Null. Entfernen wir alle
solchen Schnitte (bestehend aus abzählbar vielen Geradenstücken, also insgesamt einer Menge
vom Maß Null), so bekommen wir eine Vereinigung randloser“ Quadrate, deren paarweise
”
1 1
Schnitte leer sind, und deren Inhalte eine geometrische Folge { 41 , 16
, 64 , . . .} bilden, sodaß die
Sigmaadditivität und die geometrische Summenformel auf P (A) = 14 1−1 1 = 13 führen.
4
220
Wahrscheinlichkeitstheorie
Laplaceraum
Kodieren Ω1 := {A, B}, Ω2 := {0, 1},
1 für OKAY
Ausfall, wenn mindestens eine Sicherung fliegt. Als Ereignisraum kann
man Paare (A± , B ± ) versuchen, wobei
‘−’ kaputte Sicherung bedeute.
Zunächst hat man für Urne U1
den W-Raum Ω1
:=
{A
⊂
{w1 , w2 , s1 , s2 , s3 } | |A| = 2}
und für U2 hat man Ω2 := {A ⊂
{w, b1 , b2 , b3 , b4 , b5 } | |A| = 2}.
Danach bildet man die disjunkte
Vereinigung Ω := Ω1 ∪ Ω2 , wobei
die Wahrscheinlichkeit von Elementarereignisses, die von U1 stammen,
1
× “15” bzw. für U2 12 × “16” sein
2
Werfen von 3 gleichen Münzen. Wahrscheinlichkeit, daß wenigstens einmal
Zahl erscheint.
Maschine A hat 3% Ausschuß und produziert 70%, B 1% und produziert den
Rest. Wahrscheinlichkeit für Ausschuß
der Gesamtproduktion?
Sicherungen A und B fallen mit 3 bzw.
1 Prozent aus. Wahrscheinlichkeit für
Stromausfall?
Urnen 1,2. In U1 sind 2w und 3 s Kugeln, in U2 sind es 1 w und 5 s Kugeln.
Wahrscheinlichkeit dafür, bei zufälliger
Wahl von U1 oder U2 und danach Auswahl von 2 Kugeln 1w und 1s Kugel in
Händen zu haben.
2
—
Würfeln mit 2 Würfeln. Augensumme=9
2
Laplaceraum
Würfeln mit Würfel. Wahrscheinlichkeit für Werfen von Primzahl
muß.
Anmerkung
Text
P(Ω)
{1, 2, 3, 4, 5, 6} ×
{1, 2, 3, 4, 5, 6}
{K, Z}×{K, Z}×
{K, Z}
{(A+ , B − ),
(A− , B + ),
(A− , B − )}
{{wi , sj } | i =
1, 2 ∧ j = 1, 2, 3} ∪
{{w, bj } | j =
1, 2, 3, 4, 5}
P(Ω)
P(Ω)
P(Ω)
{(A+ , B + ),
(A+ , B − ),
(A− , B + ),
(A− , B − )}
siehe links
{(3, 6),(4, 5),
(5, 4), (6, 3)}
{Z} × {K, Z} ×
{K, Z} ∪ {K} ×
{Z} × {K, Z} ∪
{K} × {K} × {Z}
{(A, 0), (B, 0)}
A
{2, 3, 5}
Ω1 × Ω2
P(Ω)
Σ
P(Ω)
Ω
{1, 2, 3, 4, 5, 6}
+
2
8
=
+
1
9
1
8
=
7
8
1
6
1
5
2 × (5) + 2 × (6) =
2
2
· · · = 19
≈
0.317
60
97
P (A) = 1 − 100
×
99
=
·
·
·
=
100
0.0397, d.h. 3.97%
0.7 × 0.03 + 0.3 ×
0.01 = 0.024
4
8
4
36
1
2
P (A)
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
221
222
9.1.2
Wahrscheinlichkeitstheorie
Bedingte Wahrscheinlichkeit und Ereignisgraphen
Bei der bedingten Wahrscheinlichkeit geht es kurz gesagt darum, daß man in einem W-Raum
(Ω, Σ, P ) zwei Ereignisse A und B betrachtet, derart, daß P (A) 6= 0 ist. Nun fragt man, mit
welcher Wahrscheinlichkeit das Ereignis B in jenen Situationen eintritt, wo A eingetreten
ist. Z.B. kann A das Ereignis ein zufällig aus dem Stall Ω gegriffenes Kaninchen hat weiße
”
Ohren“ und B das Ereignis ein aus dem gleichen Stall zufällig gegriffenes Kaninchen hat
”
rote Augen“. Die bedingte Wahrscheinlichkeit P (B|A) gibt die Wahrscheinlichkeit dafür an,
unter den Kaninchen mit weißen Ohren eines mit roten Augen zu finden. Sind z.B. 100 Hasen
im Stall, also Ω = {1, . . . , 100} so könnte man sich eine Situation wie die folgende vorstellen:
rote Augen
keine r. A.
weiße Ohren
10
30
40
keine w.O.
5
55
60
15
85
100
Also 10 Hasen haben weiße Ohren und rote Augen, etc. Somit ist die Wahrscheinlichkeit
10
P (B|A) = 40
, weil es 40 weiße Hasen und darunter 10 mit roten Augen gibt. Wären die obigen
15
60
Zahlen Prozent- statt Absolutzahlen gewesen, so hätte man P (A ∩ B) = 100
, P (A) = 100
1
und es wäre P (B|A) mit der gleichen Motivation der Wert 4 entstanden. So kommt man zur
üblichen Definition der bedingten Wahrscheinlichkeit:
Definition 13 Es sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum (siehe Definition 9) und A, B
meßbare Ereignisse mit P (A) 6= 0. Die reelle Zahl
P (B|A) :=
P (A ∩ B)
P (A)
heißt bedingte Wahrscheinlichkeit für das Auftreten des Ereignisses B unter der Annahme,
daß A tatsächlich eingetreten ist.
Es kann folgender Sachverhalt gezeigt werden, der die Bezeichnung bedingte Wahrscheinlichkeit rechtfertigt:
Anmerkung 14 Ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und A ein meßbares Ereignis mit P (A) 6= 0, so wird durch B 7→ P (B|A) = P P(A∩B)
ein Wahrscheinlichkeitsmaß
(A)
definiert.
Die häufigste unmittelbare Anwendung besteht darin, festzustellen, ob ein Ereignis
A das Ereignis B bedingt. Etwa, wenn A in der Verabreichung einer Impfung und B
die Heilung einer bestimmten Erkrankung bedeutet. Dazu wählt der Mediziner aus einer
Menge Erkrankter, die er behandelt, eine Gruppe, die ein Placebo, und einen anderen Teil,
dem er A verabreicht. Danach errechnet er P (B|A), bzw. P (B 0 |A) mittels Prozentzahlen.
Die Mediziner müssen eine Norm festlegen, inwieweit P (B|A) > P (B 0 |A) die Wirksamkeit
des Medikaments plausibel erscheinen läßt.
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
P (s|A)= 61
P (A)= 12hhh4A
hh
hhhh
h
h
A 123
h
¿ VV
1
B 202 VVVPVV(B)=
VVVV2
V*
0
223
1
12
P (w, A) = 16
P (r, A) = 14
s 023 P (s, A) =
P (w|A)= 62
```````````0 w 113
123 `````````
P (r|A)= 36
0 r 122
1
1
P (s|B)= 2
0 s 120 P (s, B) = 4
aaaaaaaaaaaaaaaa
a
a
a
a
B 220
P (r|B)= 21
1
/ r 210 P (r, B) = 4
Abbildung 9.1: Ereignisgraph zu Beispiel 15
Im nächsten Beispiel sollen bedingte Wahrscheinlichkeiten in einem Experiment mit Kugeln, die aus Urnen gezogen werden, ein Experiment, wie es auch Laplace, Bernoulli und
andere betrachtet haben, behandelt werden. Die bei der Lösung des Beispiels verwendete
graphische Darstellung wird gelegentlich als Ereignisgraph“ bezeichnet und verdeutlicht die
”
Konstruktion von Ω aus vorgegebenen W-Räumen. Er veranschaulicht die Rolle der bedingten
Wahrscheinlichkeit.
Beispiel 15 Auf einem Tisch stehen die Urnen A und B. Die Urne A enthält 1 s(chwarze),
2 w(eisse) und 3 r(ote) Kugeln. Urne B enthält ebensolche Kugeln, allerdings 2 s und 2 w. Es
soll nun zufällig eine Urne gewählt, und danach aus dieser Urne zufällig eine Kugel gezogen
werden. Wie hoch ist die Wahrscheinlichkeit dafür, daß diese Kugel s ist?
Naiv betrachtet, könnte jemand sagen, Alles in allem, das Verhältnis von s zu allen wähl”
3
baren Kugeln ist wie 3 zu 10, also sollte diese Wahrscheinlichkeit 10
= 0.3 sein.“ Das ist nicht
einsichtig, weil ja die Chance, bei Wahl von Urne A im ersten Durchgang eine schwarze Kugel
zu erwischen lediglich 61 ist. Im zweiten Fall ist sie 12 . Es liegt viel näher, 12 16 + 12 12 = 13 ≈ 0.33
zu nehmen.
Um das besser zu verstehen, verwenden wir die Zeichnung Fig. 9.1. Dort sieht man zunächst
die Wahl von A oder B und danach die möglichen Wahlen von Kugeln. Die rechte Spalte
enthält, richtig gelesen, eine Kodierung von Ω, nämlich
Ω = ({A, B} × {s, w, r}) \ {(B, r)}.
Die Beschriftung der rechten Pfeile (es wurde absichtlich nicht gekürzt!) sind bedingte Wahrscheinlichkeiten der Form P(Elementarereignis in {r, s, w}|A) bzw. B. Deshalb sind die äußerst
rechts stehenden Wahrscheinlichkeitswerte jene der Elementarereignisse in Ω – das ist im Einklang damit, Ω als Laplace-Wahrscheinlichkeitsraum aufzufassen und abzuzählen“. Insbe”
sondere ist die in Definition 13 gegebene Formel für bedingte Wahrscheinlichkeit zu erkennen,
wenn man die Wahrscheinlichkeiten jeweils hintereinanderliegender Pfeile multipliziert.
224
Wahrscheinlichkeitstheorie
9.1.3
Totale Wahrscheinlichkeit, Formel von Bayes
Anmerkung 16 Es sollen {Ai | i ∈ I} und B Ereignisse in eiem W-Raum sein, derart
daß die Ereignisse
Ai ∩ B einander ausschließen3 , d.h. daß Ai ∩ Aj ∩ B = ∅ für i 6= j gilt,
S
und B = i∈I Ai ∩B ist, also {Ai ∩B | i ∈ I} eine Partition von B im Sinn von Definition
??. Weiters soll P (Ai ) > 0 für alle i ∈ I sein. Dann gelten die folgenden Aussagen:
Satz von der totalen Wahrscheinlichkeit:
X
X
P (B) =
P (Ai ∩ B) =
P (B|Ai )P (Ai ),
i∈I
i∈I
wobei der Mittelteil der Herleitung als Folgerung der Sigmaadditivität (Definition
9) und Benützen von Definition 13 dient.
Reziprozität: Ist P (B) > 0, so ist wegen Definition 13 stets
P (Ai |B)P (B) = P (B|Ai )P (Ai ).
Formel von Bayes: Es ist
P (Ai |B) =
P (Ai )P (B|Ai )
P (Ai )P (B|Ai )
,
=P
P (B)
i∈I P (B|Ai )P (Ai )
wobei der mittlere Teil lediglich der Herleitung der Formel aus der Reziprozität und
danach Einsetzen in die Formel von der totalen Wahrscheinlichkeit für P (B) dient.
Beispiel 17
• Wer mag, kann die Formeln anhand von Beispiel 15 nachvollziehen. Sind
z.B. A := Es wird eine Kugel in A gezogen“, B := Es wird eine Kugel in B gezogen“
”
”
und s := Es wird eine schwarze Kugel gezogen“, so findet man P (A) = 12 = P (B) und
”
1
P (s) = 12
+ 14 = 13 . Nun findet man, den Ereignisgraphen verwendend,
1
11 11
= P (s) = P (s|A)P (A) + P (s|B)P (B) =
+
.
3
62 22
Wie groß ist P (A|s) lt. Definition 13, danach gemäß Bayesscher Formel, und wie interpretiert man das?
1/12
1
Antwort: Es ergibt sich P (A|s) = P P(A∩s)
(s) = 1/12+1/4 = 4 . Interpretation: ”Man geht
davon aus, daß die gezogene Kugel s ist und fragt nach der Wahrscheinlichkeit dafür,
daß sie aus Urne A stammt.“ Die Bayessche Formel ergibt im Einklang:
P (A|s) =
3
P (s|A)P (A)
=
P (s|A)P (A) + P (s|B)P (B)
11
62
11
62
+
11
22
1
= .
4
In der Literatur findet man gelegentlich die stärkere Bedingung Ai ∩ Aj = ∅ falls i 6= j.
9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße
225
• Maschinen X,Y und Z erzeugen die gleiche Art elektronischer Bauteile mit
unterschiedlicher Fehleranfälligkeit und Anteil an der Gesamtproduktion.
Wie groß ist die Wahrscheinlichkeit für
das Eintreten des jeweils aufgelisteten Ereignisses:
X Y Z
1. Ein Teil wird zufällig entnommen
% Anteil Gesamt- 30 50 20
und wurde von X produziert?
produktion
2. Ein Teil wird zufällig entnommen
%
Ausschuß
2
4
1
und das Teil ist fehlerhaft?
der
jeweiligen
3. Ein Teil aus den fehlerhaften wird
Produktion
zufällig entnommen und wurde von
X produziert?
Antwort: Es sollen X, Y, Z dafür stehen, daß das Teil von jeweils einer dieser Maschinen
produziert worden ist. F soll heißen fehlerhaft“.
”
30
= 0.3.
1. Aus der Tabelle entnimmt man P (X) = 100
2. Es ist F = (X ∩ F ) ∪ (Y ∩ F ) ∪ (Z ∩ F ) eine Partititon von F , also ist P (F ) =
P (X ∩ F ) + P (Y ∩ F ) + P (Z ∩ F ). Allerdings kennt man z.B. P (X ∩ F ) nicht. Die
zweite Zeile der Tabelle ist im Sinne bedingter Wahrscheinlichkeiten interpretierbar,
2
= 0.02. Etwas formaler: P (F |X) = 0.02.
z.B. P( Teil ist F und stammt von X“)= 100
”
Deshalb kann man P (X ∩F ) = P (F |X)P (X) = 0.3×0.02 ermitteln. Ähnlich entnimmt
man der Tabelle die anderen Werte und es ergibt sich
P (F ) = 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 = 0.028,
also nicht ganz 3 v.T. Teilen sind im Schnitt als fehlerhaft zu erwarten.“
”
3. Hier wird nach P (X|F ) gefragt, weil man von Haus aus“ annimmmt, ein fehlerhaftes
”
Bauteil herauszugreifen und Schuldige sucht. Beim Anwenden von Definition 13 hätte
)
man P (X|F ) = P (X∩F
P (F ) , jedoch kennt man den Wert von P (X ∩ F ) nicht. Verwenden
der Reziprozität und die Kenntnis von P (F ) = 0.28 aus 2. ergibt sofort
P (X|F ) =
P (F |X)P (X)
0.3 × 0.02
3
=
=
≈ 0.214.
P (F )
0.28
14
Wäre P (F ) noch nicht bekannt, und lediglich P (X|F ) gefragt, so benützte man die
Bayessche Formel:
P (X|F ) =
=
P (F |X)P (X)
P (F |X)P (X) + P (F |Y )P (Y ) + P (F |Z)P (Z)
0.3 × 0.02
0.006
=
≈ 0.214.
0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01
0.028
226
Wahrscheinlichkeitstheorie
9.1.4
Unabhängigkeit von Ereignissen
Wenn zwei Ereignisse A und B vorliegen, P (A) 6= 0 ist, und P (B|A) = P (B) gilt, so bedeutet
es, daß offenbar das Ereignis B unter jenen Fällen, wo A eintritt, gleichwahrscheinlich ist,
wie in der Gesamtheit Ω aller Ereignisse. Wenn sich etwa in Anmerkung 14 herausstellt,
daß der Prozentsatz an Heilungen unter den geimpften Patienten gleich jenem der Heilungen
unter allen Probanden (also einschließlich der nicht geimpften) ist, so sagt man, daß die
Ereignisse A und B einander nicht bedingen bzw., daß sie unabhängig sind. Für P (A) 6= 0
sind P (B|A) = P (B) und P (A ∩ B) = P (A)P (B) gleichwertig, wie man aus Definition 13
sofort erkennt. Ist jedoch P (A) = 0, so ergibt die letztere Charakterisierung immer noch
einen Sinn. Deshalb ist folgende Definition üblich:
Definition 18 Zwei meßbare Ereignisse A, B eines Wahrscheinlichkeitsraumes heißen unabhängig, falls P (A ∩ B) = P (A)P (B) gilt.
T
Eine
endliche
Folge
(A
|
i
∈
I)
von
Ereignissen
heißt
unabhängig,
falls
P
(
i
i∈J Ai ) =
Q
i∈J P (Ai ) für jede Teilmenge J von I gilt.
Anmerkung 19 Sind A und B meßbare Ereignisse und ist P (A)P (B) > 0 so sind
folgende Aussagen gleichwertig:
• A und B sind unabhängig,
• P (A|B) = P (A).
• P (B|A) = P (B)
• P (A ∩ B) = P (A)P (B).
• A0 und B sind unabhängig.
• A0 und B 0 sind unabhängig.
Insbesondere ist die Relation A und B sind unabhängig“ symmetrisch.
”
Anmerkung 20
• Im Beispiel mit den Hasen war A weißohrig“ und B rotäugig“. Die
”
”
Wahrscheinlichkeit dafür, unter den weißohrigen Hasen einen rotäugigen zu finden, war
40
15
40×15
3
P (B|A) = 41 , P (A) = 100
, P (B) = 100
. Somit ist P (A) × P (B) = 100×100
= 20
< 14 .
A und B sind nicht unabhängig. Dies wird in der Praxis als Indiz dafür gewertet, daß
weißohrige Hasen eher zu Rotäugigkeit neigen“.
”
Es ist stets P (B|A) ≥ P (A)P (B), je deutlicher die Differenz ausfällt, desto stärker wird
es als Indiz gewertet. Danach würde man versuchen, mit anderen (etwa biologischen,
medizinischen, etc) Methoden tieferen Zusammenhängen auf den Grund zu gehen.
• Ein offenkundiges Beispiel für Unabhängigkeit von Ereignissen A und B beim Werfen von Würfeln W1 und W2, sind A = W1 zeigt eine 6“ bzw. B = W2 zeigt 1,3
”
”
9.2. Zufallsvariable und Verteilungen
227
oder 5“. Dann ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {6} × {1, 2, 3, 4, 5, 6},
B = {1, 2, 3, 4, 5, 6} × {1, 3, 5} und A ∩ B = {6} × {1, 3, 5}. Jedes Elementarereignis
(i, j) ist gleichwahrscheinlich, also liegt ein Laplaceraum im Sinne von Definition 5 vor.
Hieraus ergibt sich durch Abzählen von A, B und A ∩ B und anschließender Division
3
1
= 12
. Die in Dedurch |Ω| = 36, daß P (A) = 16 , P (B) = 63 = 12 und P (A ∩ B) = 36
finition 13 geforderte Gleichung P (A ∩ B) = P (A)P (B) besteht. Die Intuition“, daß
”
die beiden Würfelergebnisse unabhängig“ im Sinne von einander nicht beeinflussen“
”
”
sind, spiegelt sich in der Erfülltheit dieser Gleichung wieder.
• Eine hinterhältige Variation des vorigen Beispiels: Würfeln mit 2 Würfeln und Ereignis
A besteht darin, daß wenigstens 1 Würfel eine ungerade Zahl zeigt, das Ereignis B
darin, daß wenigstens ein Würfel 6 zeigt. Es ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6},
A = {1, 3, 5} × {1, 2, 3, 4, 5, 6} ∪ {2, 4, 6} × {1, 3, 5} und B = {1, 2, 3, 4, 5} × {6} ∪ {6} ×
{1, 2, 3, 4, 5, 6}. Weiters ist A ∩ B = {1, 3, 5} × {6} ∪ {6} × {1, 3, 5}. Aus diesen Daten
9
5
1
11
3
3
1
= 27
ergibt sich sofort P (A) = 36 + 36
36 , P (B) = 36 + 6 = 36 , und P (A∩B) = 36 + 36 = 6
11
1
11
Die famose Gleichung besteht nicht, weil P (A)P (B) = 27
36 36 = 48 > 6 = P (A ∩ B) ist,
also sind die Ereignisse A und B nicht unabhängig.
9.2
9.2.1
Zufallsvariable und Verteilungen
Zufallsvariable
Die Idee der Zufallsvariablen ist die einer Zahl (eines Vektors), der auf einem W-Raum definiert ist, und der Wert durch ein zufälliges Experiment ermittelt wird. Ein einfaches Beispiel:
Es ist Ω eine Personengruppe von 100 Leuten, man wählt eine Person zufällig aus und bestimmt die Schuhgröße (eine Zahl). Ein anderes Beispiel: Die 100 Personen beschließen, Darts
auf eine Kreisscheibe zu werfen. Nun wird jeder Person der Zufallsvektor aus den beiden Koordinaten des Darts zugeordnet (ein Vektor also). Hier ist die formale Definition:
Definition 21 Ist (Ω, Σ, P ) ein Maßraum, so nennt man eine Abbildung X : Ω → Rn eine
zufällige Variable oder auch stochastische Variable mit Werten im Rn .
Sie heißt diskret, wenn sie höchstens abzählbar viele Werte annehmen kann.
Ist f : Rn → Rm , so ist f X eine stochastische Funktionder Zufallsvariablen X, die gelegentlich auch als f (X) geschrieben wird. Sie heißt
meßbar, wenn jede Menge der Form
X −1 (B) = {ω ∈ Ω | X(ω) ∈ B}
für jede Borelmenge B in Σ ist. (Wenn Ω diskret ist, so ist jedes X
meßbar.)
Beispiel 22 Einige konkrete Beispiele mögen der Anschauung dienen:
X / n
R
BB
BB
f
B
f X BB! ΩB
Rm
228
Wahrscheinlichkeitstheorie
1. Es sei (Ω, Σ, P ) durch Ω := {1, 2, 3, 4, 5, 6}, Σ := P(Ω) und P (ω) := 61 gegeben (Werfen
mit einem Würfel). Nun spielt Spieler S gegen die Bank B, indem für jedes Spiel von S
ein Euro an B geht, und bei einem Wurf von 6 5 Euro von B an S gehen.
Der Gewinn X von S kann nun durch X(ω) := −1 falls ω 6= 6 und X(6) := 5 definiert
werden. Dieses X ist eine Zufallsvariable, ihr Wert wird durch das Zufallsexperiment
des Würfelns festgelegt. Die Zufallsvariable ist diskret.
2. Es sei (Ω, Σ, P ) durch Ω := {(x, y) ∈ R2 | x2 + y 2 ≤ 502 }, Σ die Borelmengen innerhalb
von Ω und P der übliche Flächeninhalt“. Man denke an das Werfen mit Darts (oh”
ne jedoch eine weitere Unterteilung der Scheibe vorzunehmen). Nun kann vereinbart
werden, daß Gewinn nach der Formel
p
x2 + y 2 < 10
10 falls
X(x, y) :=
−1.5 sonst
ausbezahlt wird, wobei (in der Formel schon berücksichtigt) einmal Werfen 1 Euro 50
Cent kostet.
Auch dieses X darf als Zufallsvariable angesehen werden, denn ihr Wert wird durch das
durchaus als Zufallsexperiment ansehbare Werfen eines Darts ermittelt (so genau weiß
man ja doch nicht, wo der Dart hingeht!). Die Zufallsvariable ist diskret.
3. Aus sündteurem Material stellt jemand Würfelchen mit der Kantenlänge 1µm her, es
gibt aber zufällige Schwankungen dieser Länge (und wir nehmen einfachheitshalber an,
es werden keine Quaderchen, Parellelepipedchen oder sonst was erzeugt). Gemessen
wird die tatsächliche Kantenlänge, sodaß man Ω = R und P das übliche Längenmaß
wählt.
Was den Hersteller eher interessieren dürfte ist nicht, wie die Kantenlänge schwankt,
sondern, aus Kostengründen, schaut er sich die zufällige Variable X(x) := x3 an. Die
Zufallsvariable ist nicht diskret.
Sie kann als stochastische Funktion der Zufallsvarablen X(ω) = ω ∈ Ω := R angesehen
werden, nämlich, für f (x) := x3 hat man f X(ω) = ω 3 .
4. Jemand möchte, um ein ähnliches Beispiel zu formulieren, die Gravitationskonstante
unter der Annahme des Fallgesetzes s = g2 t2 ermitteln. Er mißt s und t und erzeugt
annahmehalber für t ∈ [0, 10] (in Sekunden) eine Menge von Datenpunkten in [0, 10]×R.
Nun interessiert ihn die Zufallsvariable X : [0, 10] × R → R, nämlich
X(t, s) :=
2s
,
t2
weil diese Größe der Gravitationskonstanten entspricht. Da es eine Meßreihe ist, darf
man von zufälligen Ergebnissen ausgehen. X ist nicht diskret.
Hier kann X als stochastische Funktion von ω := (s, t) ∈ [0, 10] × R = Ω angesehen
werden, wobei f (s, t) = 2s
ist.
t2
9.2. Zufallsvariable und Verteilungen
229
5. Die Spannung an einem Gleichstromgenerator werde während eines festgewählten Zeitraums [0, T ] gemessen und als Kurve (die mit guter Näherung eine horizontale Gereade sein sollte) in einem (t, U )-Diagramm aufgezeichnet. Demnach bietet es sich an,
Ω := [0, T ], Σ die Borelmengen, und schließlich das übliche Längenmaß b − a für ein
Intervall [a, b] (auch wenn die physikalische Deutung Zeit“ ist) zu verwenden.
”
Danach könnte man U : [0, T ] → R als Zufallsvariable ansehen, wenn man kleine
Schwankungen nicht als systematische Fehler ansehen will. U ist nicht diskret.
Nun könnte jemand bei bekanntem Widerstand R auf die Idee kommen I(U ) := U
R als
U (t)
stochastische Funktion anzusehen. Korrekterweise ist das I ◦U (t) := R , und hier sieht
x
mit einer Zufallsvariablen U (t).
man die Zusammensetzung der Funktion f (x) := R
6. Das einfachste Beispiel einer Zufallsvariablen liegt dann vor, wenn Ω ⊆ Rn ist, denn
dann kann die identische Funktion X(ω) := ω als Funktion von Ω → Rn angesehen
werden. Diese Art Zufallsvariablen findet man in Fülle:
• Werfen mit einem Würfel. Es ist Ω = {1, 2, 3, 4, 5, 6} und X : Ω → R ist die
geworfene Augenzahl.
• Messen der Wandstärke. Es ist Ω = [m, M ] ⊂ R, wobei m und M ein vorgegebener
Minimal- bzw. Maximalwert sind. X : Ω → R ist die gemessene Wandstärke.
• Schießen auf eine Zielscheibe. Hier wird (durchaus zufallsbehaftet) als Ω eine Kreisscheibe und der Treffer als ω ∈ Ω interpretiert. X : Ω → R2 .
Solches X ist genau dann diskret, wenn P diskretes Maß im Sinne von Definition 9 ist.
7. Schlußendlich kann in jedem W-Raum (Ω, Σ, P ) für eine beliebige Teilmenge A die
Funktion
1 falls ω ∈ A
X(ω) :=
0
sonst
betrachtet werden.
Da diese Funktion ihren Wert (Null oder Eins) jedenfalls in R annimmt, ist sie eine Zufallsvariable. Diese Funktion wird als Indikatorfunktion von A bezeichnet. X ist
diskret.
9.2.2
Histogramm und Verteilung einer Zufallsvariablen
Histogramme trifft man sehr häufig (etwa in der medialen Berichterstattung) an. Angenommen bezüglich einer Erhebung über die Schuhgröße einer Gruppe von 100 Personen ergibt
sich folgende Tabelle:
Größe
Zahl d Personen
36
2
37
3
38
5
39
10
40
25
41
30
42
20
43
4
44
1
230
Wahrscheinlichkeitstheorie
Als grafische Darstellung findet man dann etwas von dieser Bauart, ein Histogramm
36 37 38 39 40 41 42 43 44
Die mathematische Idee besteht darin, auf der Menge Ω = {1, . . . , 100} von Personen
eine diskrete reelle Zufallsvariable X : Ω → R zu definieren, die lediglich der Werte der
gängigen Schuhgrößen fähig ist (deshalb ist sie auch diskret). Die Grafik zeigt nun, wie
”
häufig“ die Variable X einen vorgegebenen Wert annimmmt. Genauer gesprochen werden auf
der Abszisse die Werte von X und der Ordinate die Häufigkeit aufgetragen, mit der dieser
Wert angenommen wird. Hier ist die entsprechende Definition:
Anmerkung 23 Für eine im Sinne von Definition 21 diskrete Zufallsvariable X : Ω →
Rn ist das Histogramm der Funktionsgraph der Funktion f (~x) := P ({ω ∈ Ω | X(ω) = ~x}.
Beispiel 24 Es sollen weitere Beispiele folgen:
1. Ist Ω = {1, 2, 3, 4, 5, 6} ein W-Raum, welcher das Werfen einer Würfels beschreibt, und
X(ω) := ω, so liegt ein Laplaceraum im Sinne von Definition 5 vor. Das Histogramm
1 · · · · · ·
6
von X ist typisch für einen Laplaceraum.
2.
In 1. von Beispiel 22 wurde für 1
Euro gewürfelt und im Falle einer 6
ein Euro ausbezahlt. Somit nimmt
X genau die Werte −1 und 5 mit
den Wahrscheinlichkeiten 56 und 16
an. De facto kann man das Histogramm zur Beschreibung eines neuen W-Raumes mit den Elementarereignissen Ω0 := {−1, 5} mit Wahrscheinlichkeiten P 0 ({−1}) = 65 und
P 0 (5) = 61 auffassen.
1
2
3
4
5
6
5
6
1
6
·
·
X = −1
X=5
/
3. Im 2.ten Beispiel mit den Darts in Beispiel 22 ist es ähnlich. Es ist Ω0 = {−1.5, 10}
2
10 2
und P 0 ({−1.5}) = 1 − 50
und P 0 ({10}) = 10
50 , das Histogramm sieht dem vorigen
sehr ähnlich.
9.2. Zufallsvariable und Verteilungen
231
4. Beim Werfen mit zwei unabhängigen Würfeln interessiert man sich lediglich für die
Zufallsvariable X : {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} → R, definiert durch X(ω1 , ω2 ) :=
ω1 + ω2 , die Augenzahl. Man stelle sich z.B. vor, daß die Höhe des möglichen Gewinns
das 10fache dieser Summe in Euro ist.
Wie groß ist die Wahrscheinlichkeit dafür, daß jemand mindestens 70 Euro gewinnt?
Statt eines Histogramms mit 36 Werten für die Häufigkeiten der Elementarereignisse
reicht jetzt das nachstehende Histogramm, in welchem die Wahrscheinlichkeiten (in
Zwölfteln) für P (X = ω1 + ω2 = i) aufgetragen wurden:
•
6/36
•
•
5/36
•
•
4/36
•
•
3/36
•
•
2/36
•
1/36 •
2
3
4
5
6
7
8
9
10
11
12
·
·
·
·
·
·
·
·
·
·
·
Wir sind lediglich an der Zufallsvariablen X interessiert, somit ist der W-Raum Ω0 :=
{1, 2, . . . , 12} mit dem W-Maß P 0 laut Histogramm ausreichend aufschlußreich (es ist
z.B. 7 = 1 + 6 = 2 + 5 = 3 + 4 = 4 + 3 = 5 + 2 = 6 + 1, also P 0 ({7}) = P ({1, 6}) +
6
· · · + P ({(6, 1)} = 36
= 1 ). Damit kann man die obige Frage durch Addition der WahrP12 60
1
7
= 6×7
scheinlichkeiten j=7 P ({j}) = 6+5+4+3+2+1
36
2 36 = 12 ≈ 0.583 beantworten.
5. In 4. von Beispiel 22 will jemand die Gravitationskonstante unter der Annahme von
√
s = g2 t2 messen. Die Zufallsvariable X( s, t) hat gemäß der 10 Messungen (alle Sekunden) eine Häufigkeitsverteilung, bei der jeder gemessene Punkt die gleiche Häufigkeit,
√
nämlich 1, hat. Deshalb reicht es, das Histogramm als Punktmuster in der ( s, t)-Ebene
zu zeichnen, weil man ja auch spekuliert, eine Gerade zu bekommen. Das Histogramm
ist hier als Bestätigung des Fallgesetzes von Interesse. In dieser Weise entsteht ein Problem der Ausgleichsrechnung (Anmerkung 63).
6. Es werde mit einem Gewehr auf eine Zielscheibe geschossen (100 Schuß). Danach entsteht eine Punktwolke, das Treffermuster“, etwa wie in der Skizze zu Beginn von Ab”
schnitt 10.3 über Kovarianz. Wiederum darf dieses Muster als Histogramm gedeutet
werden. Ähnlich wie im vorigen Beispiel gibt das Histogramm Auskunft über das Zufallsexperiment: bei geübtem Schützen, ob das Gewehr zieht“, bzw., wenn das Gewehr
”
eingeschossen ist, über die gezeigte Treffsicherheit des Schützen.
Statt eines Histogramms benützt der Statistiker eher die Verteilungsfunktion oder kurz Verteilung, die zunächst am Beispiel mit den Schuhgrößen erzählt werden soll. Dabei produziert
man folgende Tabelle aus der bereits gehabten
Größe
Zahl d Personen
<36
0
<37
2
<38
5
<39
10
<40
20
<41
45
<42
75
<43
95
< 44
99
< 45
100
232
Wahrscheinlichkeitstheorie
Diese Tabelle enthält genau die selbe Information wie das Histogramm, weil man ja alle
(relevanten) Schuhgrößen aufgeführt hat und z.B. P ({X = 43}) = P ({X < 44}) − P ({X <
43}) = 0.95 − 0.75 = .20. Es ist offenbar P (X < 43) = .95 die Wahrscheinlichkeit dafür, daß
eine zufällig aus der Personengruppe gewählte Person eine Schuhgröße kleiner als 43 hat. Die
Besonderheit ist, daß aus der Tabelle eine reellwertige Funktion, die Verteilungsfunktion von
X ablesbar ist, deren Graph hier skizziert ist:
◦ •◦
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
◦ •
•◦ •
36 37 38 39 40 41 42 43 44 45
Dies ist der Graph der Verteilungsfunktion FX (x) der Variablen X (Schuhgröße), die durch
FX (x) = P (X(ω) < x) festgelegt ist, also durch die Wahrscheinlichkeit dafür, eine Person
zufällig auszuwählen und ihre Schuhgröße ist < x. Die Abszisse ist x und Ordinate der Wert
von FX (x). Man beachte die Sprungstellen, aus deren Höhe man das Histogramm rekonstruieren kann.
Histogramme sind grundsätzlich an diskrete Zufallsvariable gebunden, weil für eine nicht
diskrete Zufallsvariable für alle ~x der Wert P ({ω | X(ω) = ~x}) = 0 sein kann (etwa beim
Beispiel des als Punkt gedachten Sandkorns). Verteilungsfunktionen sind hingegen auch für
nicht diskrete Zufallsvariable formulierbar. Ist z.B. X die durchaus von (Witterungs)einflüssen
abhängige Länge eines Stabes, so darf man annehmen, daß grundsätzlich alle reellen Zahlen
als Länge dem Stab zugeordnet werden könnten. Läßt man nun 100 Personen so einen Stab
messen, so mißt wohl jede Person eine Länge und man kann wie vorhin Häufigkeiten zählen
(wie es tatsächlich in der Meßtechnik gemacht wird). Allerdings sind die gewonnen Zahlen
eigentlich kontinuierlich vieler Werte fähig, lediglich unsere Meßverfahren lassen oft nur eine
gewisse Anzahl Kommastellen zu und führen dazu, die Variable als diskret anzunehmen. Der
9.2. Zufallsvariable und Verteilungen
233
Meßtechniker zerlegt die reellen Zahlen in kleine, disjunkte, linksabgeschlossene, rechts offene
Intervalle, und zählt Häufigkeiten, wie oft das Meßergebnis in eines der Intervalle fällt. Es
könnte etwa [1m, 1.001m) ein solches Intervall sein. Wird nun die Genauigkeit erhöht, so
müßte er die neuen Messungen irgendwie mit den alten vergleichen können. Hiebei ist die
Verteilungsfunktion hilfreich:
Definition 25 1-dimensionale Verteilung(sfunktion) Ist X : Ω → R eine 1dimensionale Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P, Σ), und ist X : Ω → R
meßbar in dem Sinne daß für alle Zahlen a, b ∈ R mit a < b die Menge {ω ∈ Ω | a ≤ X(ω) < b}
zu Σ gehört, so ist Ihre Verteilung FX : R → [0, 1] durch
FX (x) := P ({ω | X(ω) < x})
festgelegt.
Die Schreibweise FX (x) = P (X < x) ist gebräuchlich, bedeutet jedoch die eben gegebene
Definition. Die Meßbarkeitsbedingung ist mathematisch-technischer Natur. Sie ist z.B. erfüllt,
wenn Ω eine Teilmenge des Rn und X stetig ist.
Die im Schuhgrößenbeispiel“ vorgestellte Verteilung(sfunktion) entspricht genau dieser
”
Definition.
Anmerkung 26 Das Schuhgrößenbeispiel hilft durchaus, die nachstehenden Eigenschaften einer 1-dimensionalen Verteilung(sfunktion) F = FX einzusehen“.
”
1. F (∞) := limx→∞ F (x) = 1, F (−∞) = 0.
2. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y).
3. F ist linksseitig stetig, d.h. F (x) = F (x− ) := limh→0,h>0 F (x − h).
4. Erfüllt F die Eigenschaften 1.–3., so kann ein W-Raum (R, B, Q), durch Q((a, b)) :=
F (b) − F (a) für Intervalle und entsprechende Erweiterung auf alle Borelmengen B
konstruiert werden, daß F : R → [0, 1] als Zufallsvariable aufgefaßt werden kann
und F zudem die Verteilung dieser Zufallsvariablen ist.
Rb
Ist überdies F stetig differenzierbar mit F 0 = f , so ist4 P (a ≤ X < b) = a f (x) dx =
F (b) − F (a).
1
◦
•
◦
•
0
234
Wahrscheinlichkeitstheorie
Die Hilfe für den Meßtechniker, bei Verfeinerung die Meßreihen zu vergleichen, sei hier nur
kurz in Worten geschildert: Verfeinert man die Teilung weiter und weiter, so entstehen immer neue Verteilungsfunktionen, welche mehr und mehr Sprungstellen haben, jedoch (beim
bißchen Augenzukneifen) immer mehr einer Linie, also stetigen Verteilungsfunktion ähneln,
von der man erhofft, daß sie Grenzwert“ bei ständigem Verfeinern ist (etwa so ähnlich wie
”
beim Riemannintegral). Eine Präzisierung dieser Idee ist der Hauptsatz der Statistik von
Gliwenko-Cantelli (Anmerkung 49).
Auch die weiteren, öfter noch benötigten Eigenschaften 1-dimensionaler Verteilungsfunktionen sind am Schuhgrößenbeispiel“ nachvollziehbar.
”
Anmerkung 27 Ist F an den Intervallenden a, b stetig, so ergibt sich wegen [a, b) =
(−∞, b) \ (∞, a) die Rechnung: PX ([a, b)) = PX ((a, b)) = PX ((a, b]) = P ([a, b]) = F (b) −
F (a), also
P (a ≤ X < b) = F (b) − F (a).
Ist F an der Stelle b unstetig, so ergibt sich PX ([b, b]) = PX ({b}) = F (b+ ) − F (b),
insbesondere ist die Wahrscheinlichkeit, daß X den Wert b annimmt, positiv. Dann ergibt
sich wegen [a, b] = (−∞, b) \ (−∞, a) ∪ {b} die Rechnung PX ([a, b]) = PX ((−∞, b)) −
PX ((−∞, a)) + PX ({b}) = F (b) − F (a) + F (b+ ) − F (b) = P ({b}) + F (b) − F (a), also
P (a ≤ X ≤ b) = P ({b}) + F (b) − F (a).
Es wird sich in Anmerkung 34 herausstellen, daß zur Berechnung von Erwartungswert,
Varianz, Schiefe einer Zufallsvariablen X lediglich Kenntnis von deren Verteilung im
Rn erforderlich ist. Schließlich
P sollte nicht verschwiegen werden, daß für diskretes P die
Funktion F durch F (x) = {ω|X({ω})<x} P ({ω}) und für stetig differenzierbares F mit
Rx
Ableitung (Verteilungsdichte) f durch F (x) = −∞ f (t) dt darstellbar ist.
Ist insbesondere F
stetig, so läßt sich für alle Intervalle (a, b]
durch P ((a, b])
:=
F (b) − F (a) ein W-Maß auf R bestimmen.
1
γ_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
·
·
·_ _ _ _ _ _ _ _ _·
·
·
0
b = γ − Quantil
b
Ist F stetig und streng monoton, so ist die Gleichung α = F (z) für jedes γ ∈ (0, 1)
eindeutig lösbar. Die eindeutig bestimmte Lösung heißt γ-Quantil und wird üblicherweise
mit zγ bezeichnet. Definitionsgemäß ist dann P (X < zγ ) = γ, d.h., die Wahrscheinlich”
keit, daß X einen Wert < zγ annimmt, ist dann γ“. Ist γ = 21 = 0.5, so wird z0.5 als
Median, ist γ = 41 = 0.25, so wird z0.25 als Quartil bezeichnet. In der Schätztheorie (siehe
4
als unmittelbare Folgerung des HS der Differential- u. Integralrechnung
9.2. Zufallsvariable und Verteilungen
235
Unterabschnitt 10.2.2) spielen z0.9 , z0.95 , z0.99 , manchmal auch für γ noch näher an 1
liegende Quantile zγ eine Rolle.
Bevor mehrdimensionale Verteilungsfunktionen erörtert werden, noch Beispiele zum Vorangegangen.
Beispiel 28 Hier Skizzen zu einigen Verteilungsfunktionen, Weitere, wie etwa die Normalverteilung (Skizze von Verteilungsfunktion und Dichte) Beispiel 44s folgen später:
1. In 1. von Beispiel 24, wo X : {1, 2, 3, 4, 5, 6} → R durch X(i) := i definiert war, ergibt
sich die Verteilungsfunktion F (x) als Summe aller Elementarwahrscheinlichkeiten 16 , für
die ω < x ist, somit:
/
◦
1
◦ •
5/6
◦ •
4/6
◦ •
3/6

◦
•
2/6
0 falls x ≤ 0


 j
1/6 ◦ •
j ∈ {1, 2, 3, 4, 5, 6}
6 falls
F (x) =
·o •· · · · · ·

∧ 0≤j−1<x≤j ≤6


1 2 3 4 5 6
1 sonst.
Unstetigkeiten sind an den Stellen 1, 2, 3, 4, 5 und 6, die jeweilige Sprunghöhe“ ist 61 .
”
Sichtlich ist F linksstetig. All dies kann ganz unmittelbar aus dem Histogramm abgelesen
werden.
2. Auch in 2. von Beispiel 24, wo X(ω) = −1 für ω ∈ {1, 2, 3, 4, 5} und X(6) = 5, liest
man die Verteilungsfunktion direkt aus dem Histogramm ab:
◦
1
5
◦
•
6
F (x) =

 0
5
6

1
x ≤ −1
−1 < x ≤ 5
5<x
•
−1
·
5
3. (Gleichverteilung auf [a, b], Rechtecksverteilung) Die jetzt zu präsentierende Zufallsvariable ist nicht diskret. Eine zu messende Größe X soll jeden Wert zwischen
0 < a ≤ X(x) < b mit gleicher Wahrscheinlichkeit annehmen können, etwa den Durchmesser einer Scheibe mit Sollgrenzen a und b. Es liegt nahe, Ω := [a, b] und X(ω) := ω
zu wählen. Danach ist P ([α, β]) = β−α
b−a für jedes in [a, b] enthaltene Intervall [α, β]. Dies
vor Augen, erkennt man
236
Wahrscheinlichkeitstheorie
1
F (x) = P ({ω | ω < x}) =

 0
x−a
b−a

1
x<a
a≤x<b
b≤x
•
•
·
a
b
Es ist nicht schwierig, die Verteilungsdichte mit f (x) = 0 für x 6∈ (a, b) und f (x) =
zu erraten“, weil sie im offenen Intervall (a, b) die Steigung der Geraden ist.
”
1
◦
•
Die vorliegende Verteilung heißt
b−a
Gleichverteilung auf [a, b], bzw.
Rechtecksverteilung, weil ihre Dichtefunktion, die man in den Punkten a, b beliebig definieren darf, ein
•
·
·
Rechteck beschreibt:
a
b
·
1
b−a
4. (Massenverteilung als Zufallsvariable). Es sei ρ(x, y) ≥ 0 die Massendichte eines
2
2
Rebenen Bereichs K in R (d.h. einer Teilmenge K des R ) mit Gesamtmasse M =
K ρ(x, y) d(x, y) = 1. Nun interessiert uns lediglich der Träger des Maßes, also alle
jene Stellen, wo ρ(x, y) > 0 ist (man denke an an die Oberfläche einer Schale K mit
Nährlösung und Mikroben, so besteht dieser Träger aus den Mikroben – etwa erkennbar
an Verfärbung der Oberfläche, sodaß ρ proportional zum Grad“ der Verfärbung sein
”
Rkann). Die Masse einer Borelmeßbaren Teilmenge B ⊆ K ist dann durch P (B) :=
B ρ(x, y) d(x, y) gegeben. Offenkundig hat P alle Eigenschaften eines W-Maßes auf der
Sigmaalgebra aller in K enthaltenen Borelmengen.
Interpretation im W-theoretischen Sinn?
Antwort: Das Ereignis in der Borelmenge B befindet sich ein Punkt des Trägers von ρ“
”
hat die Wahrscheinlichkeit P (B). Im Mikrobenbeispiel ist P (B) die Wahrscheinlichkeit
dafür, in B Mikroben zu finden. M.a.W., die Zufallsvariable X : K → R2 , definiert
durch X(ω1 , ω2 ) = (ω1 , ω2 ) hat die Verteilungsdichte ρ.
Wenn die Verteilung an einer etwaigen Verfärbung nicht ohneweiters sichtbar ist, steht
der zufällige“ Aspekt des Beispiels sicher stärker im Vordergrund, weil man wissen
”
will, wie sich z.B. die Kultur ausbreitet.
5. (Quantile) Im folgenden Beispiel sollen Quantile berechnet werden. Im Fall der Gaußschen Normalverteilung, wie sie allermeist in der Statistik vorkommt (Beispiel 44),
aber auch bei vielen anderen gebräuchlichen Verteilungen benötigt man dazu Numerik
oder Tabellen – man kann nicht in elementarer Weise vorgehen, so wie im vorliegende
akademischen Übungsbeispiel“:
”
Eine Zufallsvariable X : Ω → R habe die Vertei? 1)
·?(0,
lungsdichte fX (x) = 0, falls |x| ≥ 1, und 1 − |x|,
???

falls |x| < 1 ist. Man berechne die Verteilungs·
·
·
funktion FX (x), sowie den Median z0.5 und das
(−1, 0)
(1, 0)
0.99-Quantil z0.99 .
9.2. Zufallsvariable und Verteilungen
237
Rx
Antwort(findung): Die Verteilungsfunktion FX (x) = −∞ fX (t) dt. Ist x < −1 so ist
Rx
Rx
FX (x) = 0. Ist nun −1 ≤ x < 0, so ist sichtlich FX (x) = −∞ fX (t) dt = −1 (1 −
Rx
|t|) dt = −1 (1 + t) dt = 12 (x + 1)2 . Entsprechend ist F (0) = 21 . Für positives x < 1
Rx
R0
Rx
ist fX (x) = 1 − x und somit ist FX (x) = −∞ fX (t) dt = −1 fX (t) dt + 0 fX (t) dt =
R
x
1
1
2
2 + 0 (1 − t) dt = 2 (1 + 2x − x ).
Da das γ-Quantil jene Abszisse zγ ist, für die die Gesamtfläche γ beträgt, ergibt sich
in elementarer Weise z0.5 = 0 (das gilt für jede am Nullpunkt zentrierte, symmetrische
Dichte, z.B. auch für N (0, σ), Beispiel 44). Um z0.99 zu bestimmen, muß man die
quadratische Gleichung 0.99 = 12 (1 + 2z − z 2 ) lösen, wobei lediglich 1 > z > 0 in Frage
kommen kann, weil ja 0 = z0.5 und 0.5 < 0.99 < 1 ist. Die völlig elementare Rechnung
ergibt z0.99 ≈ 0.8.
Bei symmetrischen Verteilungen mit µ = 0, wie dieser hier, aber auch bei N (0, σ)
interessiert man sich im Zuge der Intervallschätzung (siehe Unterabschnitt 10.2.2) bei
gegebener Irrtumswahrscheinlichkeit“ α für ein symmetrisches Intervall (−, ) mit
”
P (|X| < ) = F () − F (−) > 1 − α. Es sei α := 0.1 und man bestimme ein solches .
Antwort: Zunächst ergibt sich sofort FX ()−FX (−) = 12 (1+2−2 )− 12 (1−)2 ) = 2−2 .
√
Nun ergibt die Forderung 2 − 2 ≥ 1 − α die äquivalente |1 − | ≤ α, und diese
√
Forderung ist für alle ≥ 1 − α ≈ 0.68 erfüllt.
Welche W-theoretische Aussage läßt sich nun machen?
Antwort: Die Wahrscheinlichkeit, daß eine gemäß unserem FX verteilte Zufallsvariable
(definiert auf welchem Ω auch immer, jedoch Werten in R) einen Wert im Intervall
(−0.68, 0.68) annimmt, ist zumindest 0.9.
Im Falle nicht diskreter Zufallsvariabler X : Ω → Rn (etwa, wenn, wie in Beispiel 22 3.,
wo U (t) die Zufallsvariable Spannung zum Zeitpunkt t ist, oder wenn, wie in Beispiel 8,
n = 2 und X(ω) = (ω1 , ω2 ) die Position des Staubkorns auf dem Chip ist), könnte man
grundsätzlich danach fragen, wie groß denn die Wahrscheinlichkeit
P ({ω ∈ Ω | X(ω) ∈ I1 × · · · × In })
ist, wobei jedes Ij = [aj , bj ) ein (üblicherweise) halboffenes Intervall ist. Wenn n = 1, so
wäre das ein Intervall, für n = 2 ein achsenparalleles Rechteck, für n = 3 ein achsenparalleler
Quader. Man kommt mit weniger Information aus, als alle solchen Hyperquader:
Dazu benützt man die diesbezüglich wichtigste Eigenschaft der Σ-Algebra der Borelmengen: Für n = 1 kann jedes Intervall [a, b) in der Form
[a, b) = (−∞, b) \ (−∞, a)
geschrieben werden, und für n = 2 ist (siehe Skizze und beigefügte Legende)
[a, b)×[c, d) = ((−∞, c)×(−∞, d)\(−∞, a)×(−∞, d))∪((−∞, b)×(−∞, d)\(−∞, a)×(−∞, c)).
(Ähnliches gilt bezüglich Hyperquadern im n-dimensionalen Raum).
238
Wahrscheinlichkeitstheorie
Es ist [a, b) × [c, d) das mit ausgezogenen Linien umrandete Rechteck. Das strichlierte Rechteck ist
(−∞, a) × (−∞, d), das punktierte
(−∞, b) × (−∞, d), und der Durchschnitt der beiden Rechtecke ist
(−∞, a) × (−∞, c).
d_
c
_ _ _ _ _ _ _ _ _ _·
·
·a
·
·
·b
Definition 29 Ist X : Ω → Rn eine Rn -wertige Zufallsvariable, und für jedes n-Tupel a =
(a1 , . . . , an ) ∈ Rn die Menge {ω ∈ Ω | (∀i) (1 ≤ i ≤ n) ∧ Xi (ω) ≤ ai } in Σ (man sagt X
ist Σ − B-meßbar), so nennt man
F (a1 , . . . , an ) := P ({ω | X1 (ω) < a1 ∧ . . . ∧ Xn (ω) < an })
= P ({ω | X(ω) ∈ (−∞, a1 ) × · · · × (−∞, an })
= P (X −1 ((−∞, a1 ) × · · · × (−∞, an )))
die Verteilung(sfunktion) von X. Die Meßbarkeitsbedingung ist für diskretes W-Maß P automatisch erfüllt (weil ja dann Σ = P(Ω) ist).
Es ist durchaus üblich, in salopper Manier“ P (X ∈ B) := P ({ω | X(ω) ∈ B}) zu schreiben
”
und als (Aufenthalts)wahrscheinlichkeit von X in B“ zu interpretieren.
”
X −1 /
Ist (Ω, Σ, P ) ein W-Raum und X : Ω → R eine Zufallsvariable,
Σ
B
und sind B die Borelmengen, so ergibt sich mit PX := P X −1 das
PX
P
nebenstehende kommutative Diagramm.
! [0, 1]
Es erweist sich (R, B, PX ) als W-Raum, wobei man lediglich die Definition von PX hernehmen muß und die Axiome in Definition 9 nachzuvollziehen
hat.SZ.B. ist PX (R)
= P (X −1 R) =
S
S
P (Ω) = 1, bzw. sind Bi ∩ Bj = ∅ so ist PX ( i Bi ) = P (X −1 ( i Bi )) = P ( i X −1 (Bi )), und
da alle X −1 (Bi ) auch paarweise leeren Schnitt haben, ergibt sich weiters
X
X
=
P (X −1 (Bi )) =
PX (Bi ),
i
i
also ist PX sigmaadditiv.
Im Nachfolgenden sollen die wichtigsten Eigenschaften von Verteilungen (der Fall n = 1
ist hier miteingeschlossen) zusammengestellt werden:
Anmerkung 30 Es gelten folgende Fakten:
1. F ist in jedem seiner Argumente linksseitig stetig, wenn die übrigen Koordinaten
festgehalten werden.
2. F ist in jedem seiner Argumente nicht fallend, wenn die übrigen Koordinaten festgehalten werden.
9.2. Zufallsvariable und Verteilungen
239
3. F strebt gegen Null, bzw. Eins, wenn man mit allen Argumenten gegen −∞, bzw.
+∞ geht.
4. Erfüllt F die Eigenschaften 1.–3., so kann durch die Festsetzung Q((−∞, x1 ) ×
· · · × (−∞, xn )) := F (x1 , . . . , xn ) und entsprechendes Erweitern von Q auf ganz
B ein W-Raum (Rn , B, Q) konstruiert werden, derart, daß F die Verteilung der
Zufallsvariablen F wird.
Entsteht F als Verteilung der Zufallsvariablen X, so ist es üblich, Ω0 := Rn , Σ0 := B, die
Borelmengen zu setzen, und das W-Maß PX := Q als durch X auf Rn induziertes Maß
zu bezeichnen (in Beispiel 24 ist PX = P 0 jedesmal!).
9.2.3
Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V
und Schiefe
Der Begriff Erwartungswert ist im 17.Jhdt im Zuge der Bewertung von Spielen entstanden.
Im 1. von Beispiel 24 wurde X : {1, 2, 3, 4, 5, 6} → R mit X(i) = −1 für i ∈ {1, 2, 3, 4, 5} und
X(6) = 5 festgesetzt, und zwar als Verlust bzw. Gewinn. Wenn nun jemand hinreichend oft
spielt, so wird er im mit Wahrscheinlichkeiten gewichteten Mittel“
”
X
5
1
X(ω)P ({ω}) = (−1) × + 5 × = 0
6
6
ω
Euro gewinnen (allerdings kann es rauf- und runtergehen, dem Spieler also zwischendurch die
Luft ausgehen“). Diese Größe ist ein erstes Beispiel eines Erwartungswertes.
”
Eine gänzlich andere Deutung der gleichen Daten könnte darin bestehen, in den Punkten 1, 2, 3, 4, 5 jeweils Ladungen der Stärke −1 und im Punkt 6 Ladung der Stärke 5 anzubringen. Danach erweist sich das gewichtete Mittel bei zufälliger Wahl einer Zahl i aus
Ω = {1, 2, 3, 4, 5, 6} und notieren der Ladung P ({i}) als im Mittel gefundene“ Ladung.
”
In Beispiel 22 5., dem Beispiel mit der Spannung würde der über den Zeitraum [0, T ] gemitR
T
telte Wert, also E(U ) := T1 0 U (t) dt versucht werden, im Einklang mit der Normalspannung
zu halten, vorallem, wenn T von gewisser (offenbar nicht zu großer) Dauer ist.
Im Falle Beispiel 28 3., wo mit gleicher Wahrscheinlichkeit eine Zufallsvariable die Werte
0 < a ≤ X(ω) = ω ≤ b annimmt, stellt
Z b
1
a+b
x dx = · · · =
b−a a
2
einen Mittelwert aller möglichen Werte von X(ω) dar.
Noch deutlicher ist in Beispiel 28 4., für die Schale mit den Mikroben
Z b
ω1
ρ(t) dt
ω2
a
als Mittelwert einzuschätzen, nämlich als Ort, um welchen herum die Mikroben sich zu konzentrieren erwartet werden.
240
Wahrscheinlichkeitstheorie
Das nun folgende Beispiel verdeutlicht diese Auffassung und erlaubt die Interpretation
des Erwartungswertes einer vektorwertigen Zufallsvariablen als Massenmittelpunkt wie in der
klassischen Mechanik. Dieses Bild von Massenverteilung“ kann hilfreich sein, vorallem in
”
Abschnitt 10.3, wo es um die Kovarianz geht.
Beispiel 31 Es sei M eine Teilmenge im R3 . Zunächst soll diese Menge abzählbar sein und
aus Vektoren bestehen, d.h., M = {~xi | i ∈ N}. Angenommen, jedes ~xi ist die Position eines
Massenpunkts mit der Masse mi , derart daß
X
mi = 1
i
ist (Gesamtmasse = 1). Dann lernt man, daß
X
~ :=
S
mi ~xi
i
der Massenmittelpunkt des Systems ist.
In dieser Form erlaubt das eine W-theoretische Interpretation: Dazu betrachten wir ein
Teilchen (=Massenpunkt) ω ∈ Ω := R3 , das mit Wahrscheinlichkeit mi sich im Punkt ~xi
aufhält, m.a.W., P (ω = ~xi ) = mi . In diesem Sinne liegt das Diracmaß
X
P =
mi δ~xi
i
vor, und dann ist
~
~ = E(X),
S
~
wobei X(ω)
= ω die Identität auf R3 ist.
Nun sei M nicht notwendig
abzählbar. Ist die Menge z.B. ein Würfel mit entsprechender
R
Massendichte ρ, sodaß (x,y,z)∈M ρ(x, y, z) d(x, y, z) = 1 ist, so beschreibt man den Massenmittelpunkt analog durch Integrale
Z
~
~
S = E(X) =
~xρ(x, y, z) d(x, y, z).
M
Beispiel 32 (Verteilungsfunktion für Münzwurf)
Man skizziere die Verteilungsfunktion für den Laplace-W-Raum (Ω, P(Ω), P ) für Ω := {0, 1},
wobei P ({i}) := 21 für i ∈ {0, 1} sein soll (Werfen einer Münze). Wie kann F (1+ ) − F (−2),
bzw. F (1) − F (0) gedeutet werden?
Antwort: Man definiert eine Zufallsvariable X : Ω → R durch X({i}) := i. Nun ist
F (−∞, a) := P (X −1 (−∞, a)) = |{i∈Ω|X(i)<a}|
= |{i∈Ω|i<a}|
. Dann ergibt sich folgende Skizze
2
2
und Rechnung:
9.2. Zufallsvariable und Verteilungen
241
O
−∞ o
/
◦
1
1
2
◦
0
•
•
/ +∞
0
1
F (1+ ) − F (−2) = P (−2 < i < 1+ ) = 1 (mit 1+ ist man ein bißchen rechts von 1,
”
also sind alle Werte von i im Intervall“), bzw. F (1) − F (0) = P (0 < i < 1) = 12 , weil
F (1) − F (0) = PX ((−∞, 1)) − PX ((−∞, 0)) = PX ((−∞, 1) \ (−∞, 0)) = PX ([0, 1)) = P (0 ≤
i < 1) = P ({0}) = 21 .
Im Eingangsbeispiel wurde
schon angedeutet, daß für eine Zufallsvariable X im endlichen
P
Fall der Wert E(X) := ω∈Ω X(ω)P ({ω}) als mit den Wahrscheinlichkeiten des Auftretens
der Werte gewichteter Mittelwert betrachtet werden kann, der bei hinreichend oftmaligem
Wiederholen des Zufallsexperiments zu erwarten“ ist. E(X) läßt sich durch F ausdrücken,
”
nämlich, wenn S die Menge aller Sprungstellen ist, so hat man wegen P ({X = s}) = F (s+ ) −
F (s)
X
E(X) =
s(F (s+ ) − F (s))
s∈S
und der Nutzen dieser Formel liegt darin, daß man lediglich F kennen muß!
Definition 33 (Erwartungswert, Varianz) Es sei (Ω, Σ, P ) ein W-Raum und X : Ω → R
eine Zufallsvariable. Ihre Verteilungsfunktion sei F bis auf einer höchstens abzählbaren Menge
S stetig differenzierbar mit Ableitungsfunktion F 0 = f . Weiters sei
Z ∞
X
|x|f (x) dx +
|s|P ({s}) < ∞,
−∞
s∈S
so heißt
Z
∞
µX = E(X) :=
xf (x) dx +
−∞
X
sP ({s})
s∈S
Erwartungswert von X. Es heißt f Verteilungsdichte.
Es heißt
V (X) := E((X − µX )2 )) = E((X − E(X)2 ) = E(X 2 ) − E(X)2
Varianz von X und
σX :=
p
V (X) =
p
E((X − E(X)2 )
242
Wahrscheinlichkeitstheorie
die Streuung oder Standardabweichung.
Schließlich nennt man E((X − µ)3 ) die Schiefe der Verteilung.
Anschaulich ist der Erwartungswert ein Mittelwert“, die Varianz besagt etwas, wie weit
”
die Werte der Zufallsvariablen vom Mittelwert weg variieren“, und die Schiefe ist ein grobes
”
Maß, inwieweit die Verteilung nicht symmetrisch“ um µ gelegen ist.
”
Anmerkung 34
1. Im diskreten Fall ergibt sich die zu Beginn schon benützte Formel
P
E(X) = x xP (X = x);
R∞
2. Wenn F stetig differenzierbar ist, ergibt sich E(X) = −∞ xf (x) dx.
3. Sind X und Y Zufallsvariable auf Ω, a, b ∈ R, und existieren E(X) und E(Y ), so
auch E(aX + bY ) und es ist
E(aX + bY ) = aE(X) + bE(Y ). ( E ist ein lineares Funktional“)
”
4. E(X) ist charakterisiert als jene Zahl µ für die E(X − µ) = 0 gilt.
X
5. Hat man Ω
"
g
A
"
2 R , wobei A ⊆ R ist, so ist gX Zufallsvariable auf Ω und
gX
für diskretes X
E(gX) =
X
g(x)P (X = x) = EX (g).
x∈X
6. (Transformation für 1-dimensionales g)
Es sollen Zufallsvariable X, Y : Ω → R mit stückweise
stetigen Dichten fX , fY und g : R → R stetig differenzierbar und streng monoton sein, welche die Rolle
einer Transformation spielt, d.h. Y = gX. Weiters soll
w : R → R eine integrierbare Funktion bezüglich der
Dichte fX sein. Die Situation ist jene im Diagramm.
Als Konsequenz der Substitutionsregel für Integrale
ergeben sich folgende Beziehungen:
Für die Dichten gilt:
Ω?
??

??Y

g
/R
R?
??

w ?
−1
wg
X
fX (x) = fY (g(x))g 0 (x) bzw. fY (y) = fX (g −1 (y))
R
1
g 0 (g −1 (y))
Für die Verteilungsfunktionen gilt:
FX (x) = FY (g(x)), bzw. FY (y) = FX (g −1 (y))
Für die Erwartungswerte der Zufallsvariablen wX und wg −1 Y gilt:
EY (wg −1 ) = EX (w).
.
9.2. Zufallsvariable und Verteilungen
243
7. Ist X : Ω → Rk eine Zufallsvariable und g : Rk → R stetig differenzierbar, und ist
fX Dichte der Verteilung von X, so kann die Verteilung von gX durch
Z
FgX (z) =
fX (x) d(x)
{x|g(x)<z}
bestimmt werden.5
Beispiel 35 Einige Beispiele zur Transformation von Zufallsvariablen, vorallem 6. und 7.
Skalierungen“ von der Form g(x) = ax + b werden für Normalverteilungen benützt (vgl.
”
Beispiel 44). Der Gebrauch von 7. wird ebenso dort für die Berechnung der Verteilung von
g(X, Y ) = X + Y benötigt. Bei der Herleitung der χ2 - und der t-Verteilung (Beispiel 55 und
Beispiel 56) spielt diese Formel auch eine wichtige Rolle, auch wenn dies in diesem Skriptum
nicht vorgeführt werden soll.
1. Die Zufallsvariable X : Ω → R sei gleichverteilt in [−1, 1]. Wie sieht ihre Verteilungsfunktion aus? Für Y = g(X) = aX + b mit a > 0 berechne man die Verteilungsfunktion
FY . Man berechne EX (X 2 ) und den Erwartungswert EY (Y ).
Antwort(findung): X hat die Dichte fX (x) = 12 (weil [−1, 1] die Länge 2 hat). Somit
ist FX (x) = 0, 12 (x + 1), 1 je nachdem, ob x < −1, −1 ≤ x < 1 bzw. 1 < x ist. Es ist
R∞
R1
3 1
EX (X 2 ) = −∞ x2 fX (x) dx = −1 x2 12 dx = 12 x3 = 13 .
−1
Im ersten Fall ist y = g(x) = ax + b. Die Monotonie ist für a > 0 erfüllt. Für die
Verteilungsfunktion ergibt die Transformationformel für y = ax + b
fX (x) = fY (ax + b)g 0 (x) = fY (ax + b)a = fY (y)a,
und weil y = g(x) = ax + b sofort g −1 (y) = y−b
a ergibt, bekommt man fY (y) =
y−b
1
1
a fX ( a ), aus dem Intervall [−1, 1] wird das Intervall [−a+b, a+b], auf dem fY (y) = 2a
ist. Ansonst ist fY (y) = 0.
Für die Verteilungsfunktion benützen wir die entsprechende Formel in 6., um FY (y) =
FX (g −1 (y)) = FX ( y−b
a ) zu bekommen. Die Fallunterscheidung in der Definition von FX
überträgt sich auf eine solche für FY , weil die Werte −1 und 1 unter g in die Werte
−a + b und a + b übergehen.
Deshalb ist FY (y) = 0, 12 ( y−b
a + 1), 1, je nachdem ob y < −a + b, −a + b ≤ y < a + b,
bzw. a + b ≤ y ist.
Nun zu EY (Y ). Man kann die Substitutionsregel für die Funktion w := g verwenden.
Damit bekommt man (die Integration über die ungerade Funktion x im symmetrischen
Intervall [−1, 1] liefert keinen Beitrag):
Der Nachweis benützt FgX (z) = P ((gX)−1 (−∞, Rz)) = P (X−1 g −1 (−∞, z)) = PX (g −1 (−∞, z)), sowie
(−∞, z) = {x | g(x) < z} und schließlich PX (A) = A fX (x) d(x).
5
g
−1
244
Wahrscheinlichkeitstheorie
EY (Y ) = EY (gg −1 Y ) = EX (gX) =
R1
−1 (ax
+ b) 12 dx =
1
2
R1
−1 b dx
= b.
Wer es nicht glaubt oder gerne rechnet“, berechnet EY (y) auf direktem Weg:
”
R a+b 1
1 1 2 a+b
1
((a + b)2 − (a − b)2 ) = b.
EY (Y ) = −a+b y 2a dy = 2a 2 y −a+b = 4a
2. Es sei X eine auf [0, 1] gleichverteilte Zufallsvariable im Sinne von Beispiel 28 3. Welche
Dichte fY bzw. welche Verteilung FY hat die Variable Y = X 2 ? Welche Verteilung hat
sie, wenn sie auf dem Intervall [−1, 2] gleichverteilt ist?
Antwort(findung):
Offenbar ist g(x) = x2 auf dem Intervall [0, 1] streng monoton mit Ableitung g 0 (x) = 2x.
Der Rest von R darf außer acht gelassen werden, man könnte g durch g(−x) = −x2 so
fortsetzen, daß die Voraussetzungen der Substitutionsregel erfüllt sind. Deshalb ergibt
√
sich für die Dichten wegen g −1 (y) = y:
√
fX (x) = fY (g(x))g 0 (x) = fY (y)2x = 2fY (y) y,
also fY (y) =
1
√
2 y,
sofern y ∈ (0, 1] und Null sonst.
Für die Verteilungsfunktion FY ergibt die Transformationsformel in 6. sofort FY (y) =
√
FX (g −1 (y)) = y falls y ∈ [0, 1] ist, bzw. Null für y < 0 und 1 für y ≥R 1. (Das gleiche
y
Resultat findet man auf direktem Weg: Für y ∈ [0, 1] ist FY (y) = −∞ fY (y) dy =
R y du
√
√
y.)
0 2 u =
Jetzt zu [−1, 2]. Nun ist g(x) = x2 nicht mehr monoton, sodaß der Gebrauch der
Substitutionsregel für Integrale mittels 7. zu erledigen geht. Es ist k = 1 und die Menge
√ √
{x ∈ R | x2 < z} = (− z, z). Nun ist fX = 1 genau auf [−1, 2] und man muß nur
mehr das Integral auszuwerten, um für z ∈ [−1, 2] (für z < 0 ist das Integrationsintervall
√
leer weil z nicht reell ist, d.h. F (z) = 0, und für z > 2 ist F (z) = 1!):
Z min{2,√z}
Z
√
√
fX (x) dx =
1 dx = min{2, z} − max{−1, − z},
FgX (z) =
√ √
√
(− z, z)
max{−1,− z}
was im ersten Moment erschreckend aussieht, jedoch allerhand Fallunterscheidungen in
geschlossener Form wiedergibt. Es darf angemerkt werden, daß für die Normalverteilung
die gleiche Aufgabe auf die Chiquadratverteilung (siehe Beispiel 55) führt.
3. Es sei A ⊆ Ω ein Ereignis, dessen Eintrittswahrscheinlichkeit P (A) = p ist. Nun sei
X : Ω → R definiert als 1 falls das Ereignis eintritt, bzw. Null, wenn nicht (die Indikatorfunktion von A). Man berechne E(X), E(X 2 ) und V (X) := E(X 2 ) − E(X)2 .
P
Antwortfindung: In Anmerkung 34 4., sei g(x) := x. Dann ist E(X) = x∈R xP (X =
x) = 0 · P (X = 0) + 1 · P (X = 1) = P ({ω | X(ω) = 1}) = P (A) = p.
P
Analog, wenn g(x) = (x − p)2 , findet man E(gX) = x∈R (x − p)2 P (X = x) = (0 −
p)2 P (A0 ) + (1 − p)2 P (A) = pq, wobei, wie meist üblich q := 1 − p ist.
Antwort: Es ist E(X) = p und V (X) = pq. Das Ergebnis wird für die Bernoulliverteilung in Beispiel 40 nützlich sein.
9.2. Zufallsvariable und Verteilungen
9.2.4
245
Unabhängigkeit von Zufallsvariablen
Sind X und Y zufällige Variable auf einem Raum Ω, so kann es vorkommen, daß sie ihre Werte voneinander unbeeinflußt“ in zufälliger Weise annehmen. So etwa wird beim 5
”
maligen Würfeln hintereinander die Augenzahl in keinem der 5 Versuche jene der anderen
Versuche beeinflußen. Umgekehrt würde beim 2 maligen Würfeln die Summe der Augenzahlen und das Ergebnis des ersten Wurfes nicht unabhängig sein (vgl. die dritte, hinterhältige“
”
Situation in Anmerkung 20. Um zu präzisen Begriffen zu gelangen, erinnern wir an die Unabhängigkeit von Ereignissen A und B (Definition 18), nämlich P (A ∩ B) = P (A)P (B).
Es erscheint natürlich, diese Definition dazu zu verwenden, daß X und Y bei belieber Vorgabe von A und B unabhängig ihre Werte in A und B annehmen, also P ({ω | X(ω) ∈
A ∧ Y (ω) ∈ B}) = P ({ω | X(ω) ∈ A)})P ({ω | Y (ω) ∈ B}). Glücklicherweise muß man
diese Forderung nicht für alle Paare von Mengen A, B prüfen. Ist A das Ereignis X < x“
”
und B das Ereignis Y < y“, so ergibt die Definition der Verteilungsfunktion F(X,Y ) , daß
”
F(X,Y ) (x, y) = P (X < x ∧ Y < y) = P (A ∩ B) und wegen der Unabhängigkeit von A und
B ergibt sich hieraus F(X,Y ) (x, y) = P (A)P (B) = FX (x)FY (y). Umgekehrt kann man aus
F(X,Y ) (x, y) = FX (x)FY (y) die Unabhängigkeit im obigen Sinn ableiten. Deshalb wird üblicherweise die folgende einfachere Definition der Unabhängkeit von Zufallsvariablen gegeben:
Definition 36 Die zufälligen Variablen X, Y : Ω → R heißen (stochastisch) unabhängig, falls
die Zufallsvariable (X, Y ) : Ω → R × R die Verteilungsfunktion F(X,Y ) (a, b) = FX (a)FY (b)
besitzt.
Die Folge Xi : Ω → R mit i ∈ I heißt stochastisch unabhängig, falls jede endliche Teilfolge
stochastisch unabhängig ist. Ist I endlich, so muß die Verteilungsfunktion der Folge (Xi | i ∈
I) von der Form
Y
F(Xi |i∈I) (ai | i ∈ I) =
FXi (ai )
i∈I
sein.
Anmerkung 37 Sind A und B Ereignisse in Ω, so sind sie genau dann unabhängig,
wenn die Indikatorfunktionen stochastisch unabhängig sind.
Haben insbesondere FX und FY Dichten fX und fY , so ist zur Unabhängigkeit hinreichend und notwendig, daß F(X,Y ) als Dichte das Produkt f(X,Y ) (x, y) = fX (x)fY (y)
hat.
Ist (Xi | i ∈ I) eine endliche Folge von Zufallsvariablen mit Dichten, so sind sie genau
dann stochastisch unabhängig, wenn die stochastische Variable (Xi | i ∈ I) : Ω → RI
eine Dichte hat, und diese die Gleichung
Y
f(Xi |i∈I) ((xi | i ∈ I)) =
fXi (xi )
i∈I
erfüllt.
246
Wahrscheinlichkeitstheorie
Im Falle der Unabhängigkeit von X und Y ergibt sich
µXY = EXY (XY ) = EX (X)EY (Y ) = µX µY
und hieraus nach ein wenig Rechnung
V (XY ) = V (X)V (Y ) − µ2X V (Y ) − µ2Y V (X).
Beispiel 38 Einige Beispiele hiezu
1. Ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} (Werfen mit 2 unabhängigen Würfeln) und
X, Y : Ω → R die Projektionen, die jedem Wurf (i, j) die Wert X(i, j) = i, bzw.
Y (i, j) = j zuordnet, sind unabhängig: Es ist P ({(i, j) | i = i0 } = 16 , sodaß die Verteilungsfunktionen FX (x) genau jene in Beispiel 28 1. (jene für die Augenzahl mit
einem Würfel) wird. Analog ergibt sich FY . Die Verteilung von (X, Y ) bekommt man,
1
indem man zunächst P ({(i, j) | (i, j) = (i
ergibt sich
P0 , j0 )})
P = 36 ermittelt. Danach
P
P
1
F (i0 , j0 ) = P ({(i, j) | i < i0 ∧ j < j0 }) = i<i0 j<j0 P ({(i, j)}) = i<i0 j<j0 36
=
P
P
P
P
1
1
i<i0 6
j<j0 6 =
i<i0 P ({i}
j<j0 P ({j}) = FX (i0 )FY (j0 ).
2. Ist Ω und X wie vorhin, jedoch Y (i, j) := i+j, so genügt es, P ({(i, j) | (X(i, j), Y (i, j)) =
(5, 2)}) = P ({(i, j) | i = 5 ∧ i + j = 2}) = 0 und P ({(i, j) | X(i, j) = 5}) = 16 , sowie
1
1
P ({(i, j) | i+j = 2}) = 36
, also P ({(i, j) | X(i, j) = 5}×P ({(i, j) | i+j = 2}) = 216
6= 0
zu vermerken.
3. Beim Fehlergesetz (im Anschluß an Anmerkung 48) werden Annahmen über die Unabhängigkeit von Fehlern gemacht.
9.2.5
Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2
Es sei (X, Y ) : Ω → R2 eine 2-dimensionale Zufallsvariable, etwa zufälliges Werfen von
Darts auf eine Zielscheibe. Dann haben die Zufallsvariablen X, Y und (X, Y ) entsprechend
Verteilungen FX , FY und F(X,Y ) . Ist die Verteilung von (X, Y ) bekannt, so ergibt sich die
Verteilung von FX durch
X
P(X,Y ) ({(x, y)})
FX (x) =
y∈Y
im diskreten Fall und falls f(X,Y ) eine Dichte ist, ergibt sich
Z ∞
fX (x) =
f (x, y) dy = EY (f ).
−∞
Man nennt FX und FY die Randverteilungen der Zufallsvariablen (X, Y ).
Man bezeichnet im diskreten Fall den Bruch
P(X,Y ) (x, y)
PX (Y | x) := P
x P(X,Y ) (x, y)
9.2. Zufallsvariable und Verteilungen
247
als bedingte Wahrscheinlichkeit dafür, daß die Variable Y den Wert y annimmt, wenn X den
Wert x angenommen hat.
Analog nennt man, falls (X, Y ) eine Dichte f(X,Y ) besitzt, den Quotienten
fY |x (x, y) :=
f(X,Y ) (x, y)
fX (x)
bedingte Wahrscheinlichkeitsdichte für Y = y falls X = x gilt.
Im diskreten Fall heißt
E(g(X, Y ) | x) :=
X
x
g(x, y)PX (Y | x)
248
Wahrscheinlichkeitstheorie
und im Falle von Dichten
Z
∞
E(g(X, Y ) | x) :=
g(x, y)fY |x (x, y) dy
−∞
bedingter Erwartungswert von g(X, Y ), wenn X den Wert x angenommen hat.
Es ergibt sich unmittelbar E(g(X, Y )) = EX (E(g(X, Y ) | x)) in beiden Fällen.
Die angeführten Konzepte sind für vektorwertige Variable X.Y sinnvoll formulierbar. So
z.B. können für eine Zufallsvariable (X, Y, Z) : Ω → R3 aus der gemeinsamen Verteilung
von X, Y , und Z (d.i. F(X,Y,Z) ) Randverteilungen FX , FY , FZ , F(X,Y ) , F(X,Z) , F(Y,Z) gebildet
werden und entsprechend bedingte Erwartungswerte und -dichten.
Diese Begriffe sind von großer Wichtigkeit etwa zur Formulierung von Bedingungen an
stochastische Prozesse (vgl. Unterabschnitt ??), etwa in der Signalverarbeitung.
9.2.6
Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen
In den nachstehenden Tabellen finden sich die Daten der entsprechenden Verteilungen. Hier
sollen einige Aufgaben das Auftreten von Zufallsvariablen mit den entsprechenden Verteilungen repräsentieren.
Beispiel 39 (Dirac- oder Punktverteilung) Es sei Ω ⊆ Rn und ~x0 ∈ Ω, sowie Σ := P(Ω),
sowie P ({~x0 }) = 1 und P ({~x}) = 0, falls ~x 6= ~x0 ist. Die Verteilungsfunktion von X(~
ω ) := ω
~
ist gegeben durch
0 ∃i xi < x0i
F (x1 , . . . , xn ) =
1 ∀i xi ≥ x0i
Ist gX mit g : A ⊆ Rn → R und ~x0 ∈ A eine Zufallsvariable, so ist E(gX) = g(~x0 ) und
V (gX) = 0. Es ist oft üblich, dieses Maß in der Form δ~x0 zu schreiben.
Allgemeiner kann jedes diskrete Punktmaß im Rn in der Form
X
P =
ai δ~xi
i
P
beschrieben werden, wobei lediglich ai ≥ 0 und i ai = 1 gewährleistet sein muß.
Ist n = 1, so sind
X
µ=
xi ai
i
und
σ2 =
X
ai x2i − µ2 .
i
Beispiel 40 (Bernoulliverteilung6 ) Es sei (Ω, Σ, P ) ein beliebiger W-Raum, und A ∈
Σ ein Ereignis mit P (A) = p. Dann ist klarerweise P (A0 ) = 1 − p, welches hinfort mit
q bezeichnet werde. Wie in Beispiel 35 3. ausgeführt, ist die Verteilungsfunktion FX der
Zufallsvariablen X : Ω → R mit X die Indikatorfunktion (Wert=1, falls ω ∈ A, also das
6
Auch Binomialverteilung
9.2. Zufallsvariable und Verteilungen
249
Ereignis A eintritt, bzw. Null, wenn nicht) genau jene des Diracmaßes δp auf R, d.h. 0 für
x ≤ 0 und 1 für x > 0. Wie dort ausgeführt wurde, ist E(X) = p und V (X) = pq, wobei
q := 1 − p ist.
Nun soll (in Gedanken) das Experiment zur Ermittlung von P (A) = p (bzw., gleichbedeutend von E(X)) in unabhängiger Weise mehrfach, nämlich n mal durchgeführt werden. Jedem
solchen Versuch entspricht auf Ω eine Zufallsvariable Xi : Ω → {0, 1} ⊆ R mit FXi = FX
(gleiche Verteilung wie X). Hiedurch wird eine Zufallsvariable (X1 , . . . , Xn ) : Ω → Rn festgelegt, die wegen der Unabhängigkeit der Xi eine Produktverteilung hat, d.h., es ist für jede
Wahl der xi ∈ {0, 1}
P(
n
\
{ω | Xi (ω) = xi }) =
i=1
n
Y
P ({ω | Xi (ω) = xi }) = pk q n−k
i=1
wobei k die Anzahl der Indizes i ist, für die xi = 1 ist, oder, was auf das Gleiche hinausläuft,
die Anzahl jener Indizes i, für die das Ereignis APim i.ten Versuch eintritt.
Nun sei S : Ω → R die Zufallsvariable S := i Xi , welche offenkundig den Wert k ∈ N
genau dann annimmt, wenn in genau k der n Experimente das Ereignis A eingetreten ist.
Dementsprechend ist
n k n−k
P ({ω | S(ω) = k}) =
p q
,
k
weil es genau nk Möglichkeiten, eine k-elementige Teilmenge der n-elementigen Menge der
Indizes {1, . . . , n} zu wählen.
In Übereinstimmung mit der allgemeinen Theorie ist PS ein diskretes W-Maß auf R,
nämlich
n X
n k n−k
p q
δk .
PS =
k
k=0
Als harmlose Übung hat man unter Anwendung des binomischen Lehrsatzes
X
X n pk q n−k = (p + q)n = (p + 1 − p)n = 1.
PS ({k}) =
k
k
k
Für den Erwartungswert von S findet man gemäß Anmerkung 34
P
E (S) = Px∈R S(x)P ({ω | S(ω) = x})
= Pnk=0 kP
= k})
({ω | S(ω)
n k
n−k
=
p)
k k k p (1 −
p k
P
n
n
= q
k≥1 k k
q
und man kann z.B. durch etwas langwierige vollständige Induktion zeigen (ein recht flotter
Nachweis wird sich im M3-ET Skriptum als Anwendung des Rechnens mit Polynomen finden),
daß
µ = E (S) = np.
250
Wahrscheinlichkeitstheorie
Um V (S) zu berechnen, verwenden wir E(X 2 ) = V (X) + p2 = p und die Unabhängigkeit der
Xi , die nach sich zieht, daß E(Xi Xj ) = E(Xi )E(Xj ) = p2 für i 6= j ist. Danach ergibt sich
P
V (S) = E(S 2 ) − E(S)2 = E( i,j Xi Xj ) − n2 p2
= nE(X 2 ) + n(n − 1)p2 − n2 p2
= np − np2 = npq.
Jede Zufallsvariable, welche wie S verteilt ist, heißt B(n; p)-verteilt. Es ist die Binomialoder Bernoulliverteilung. Offenbar hat die Zufallsvariable Sn , die man bei realen Experimenten empirisch ermittelt, gemäß der eben behandelten Theorie den Erwartungswert p und
Varianz pq
n . Die W-theoretische Deutung des wiederholten Experiments besteht darin, daß
bei wachsendem n die Wahrscheinlichkeit dafür, daß die relative Häufigkeit hn (A) = nk mit
immer kleinerer Varianz die Wahrscheinlichkeit p = P (A) approximiert, gegen 1 geht. Hierauf soll im Bernoulliexperiment (Beispiel 46) und schließlich beim zentralen Grenzwertsatz
(Anmerkung 48) eingegangen werden (Grundlagen der Statistik)!.
Am Ende dieses Beispiels möge eine konkrete Situation stehen:
• Es ist eine Lieferung mit 500 Sicherungen angekommen und man weiß, daß es 5%
fehlerhafte dabei gibt, weil man die Firma schon kennt. Wenn man in zufälliger Weise 5
Sicherungen entnimmt, wie groß ist die Wahrscheinlichkeit, daß mindestens eine davon
kaputt ist?
Man kennt die Wahrscheinlichkeit des Ereignisses A, Sicherung kaputt“, sie ist p =
”
5
100 . Nun wird das Experiment, eine Sicherung herauszunehmen, und zu testen, ob
sie zu A gehört, n = 5 mal gemacht. Somit ist unsere Frage nach mindestens einer
kaputten Sicherung gleichbedeutend zu S = X1 + . . . + X5 ≥ 1. Die Annahme der
Unabhängigkeit ist nicht grundsätzlich gerechtfertigt, weil das Herausnehmen der 5
Sicherungen grundsätzlich nicht unabhängig voneinander ist (man legt die Sicherungen
nicht zurück), da jedoch die Anzahl der Sicherungen groß ist, ist das vernachlässigbar.
5
Somit ist die Verteilung B(5; 100
) und somit ergibt sich als Wahrscheinlichkeit
5 0 5
1 − PS (0) = 1 −
p q = 1 − (1 − 0.05)5 ≈ 0.226,
0
was gar nicht so klein ist!
Beispiel 41 (Poissonverteilung) Wenn in der Binomialverteilung p sehr klein (etwa für
das Auftreten eines Produktionsfehlers) und n groß ist (etwa die Anzahl der entnommenen
Stichproben), so ist PS ({k}) etwas mühsam zu berechnen. Deshalb sind unter Benützung von
λ := np folgende Approximationen einer B(n; p)-verteilten Zufallsvariablen X gebräuchlich:
n k n−k
E(X) = λ, V (X) = λq, PX ({k}) =
p q
≈ λk e−λ .
k
Während die Formeln für E(X) und V (X) lediglich durch Einsetzen entstehen, bedarf jene
9.2. Zufallsvariable und Verteilungen
251
für PX ({k}) etwas Erklärung. Es ist
PX ({k}) =
≈
≈
≈
Es erweist sich PX ({k}) :=
λk −λ
k! e
PX (R) =
X
k
n−j+1 k
λ n−k
j=1
jn λ 1 − n
−k
Qk 1 k
λ n
1 − nλ
j=1 j λ 1 − n
λ n
λk
k! 1 − n
λk −λ
.
k! e
Qk
als W-Maß auf R, weil jeder dieser Werte positiv und
PX ({k}) =
X λk
k
k!
ke−λ = eλ e−λ = 1
ist. Eine Zufallsvariable X mit solcher Verteilung heißt Poissonverteilt mit dem Parameter
λ. Solche Variable treten beim Poissonprozess auf (z.B. radioaktiver Zerfall, aber auch Warteschlangentheorie – Serverrequests, Telefonkunden, etc. seltene Ereignisse“).Inwieweit die
”
Näherungen für B(n : p) brauchbar sind, sei auf einschlägige Literatur verwiesen. In [13]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen, die Bernoulliverteilung
durch die Poissonverteilung brauchbar zu approximieren.
Hier ein Beispiel aus [13]:
Eine Fabrik produziert Werkstücke mit p = 0.001 Fehlerwahrscheinlichkeit (d.i. ein Promille). Wie groß ist die Wahrscheinlichkeit, in einer Lieferung von 500 Stück mindestens 2
unbrauchbare vorzufinden?
1
Antwort: Wie in Beispiel 40 kennt man die Fehlerwahrscheinlichkeit p = 1000
dafür, ein einzelnes, fehlerhaftes Werkstück zu entnehmen. Um die Anzahl X der fehlerhaften Werkstücke
zu bekommen, denkt man sich dieses Experiment 500 mal wiederholt und läßt X die Anzahl
der Versuche sein, bei denen fehlerbehafteten Werkstücken gefunden würden. Dieses X ist
1
B(500, 1000
) verteilt und somit ist
500
500
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − 0.999 −
0.999499 ≈ 0.090128.
1
Es ist np = 0.5 < 10 und n = 500 > 1500p = 1.5, und die Approximation ergibt
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − e−0.5 − 0.5e−0.5 ≈ 0.090204.
Beispiel 42 (Hypergeometrische Verteilung) Eine Zufallsvariable X : Ω → R heißt
hypergeometrisch mit den Parametern m, N, n ∈ N mit m ≤ N und s ≤ N verteilt, im
Zeichen, H(m, N, s) wenn sie auf R das diskrete W-Maß
1 m N −n
PX ({k}) = N k
m−k
s
besitzt. Wie im weiteren ausgeführt werden wird, handelt es sich um die Wahrscheinlichkeit,
aus einer N -elementigen Menge mit einer gewissen m-elementigen Teilmenge (Elemente mit
252
Wahrscheinlichkeitstheorie
bestimmtem Merkmal) bei vorgegebenem s eine s-elementige Teilmenge S von N mit |S ∩
M | = k zu finden.
Weiters sind Erwartungswert und Streuung:
X
s s N −m
s
1−
.
E(X) =
kPX ({k}) = M , V (X) = m
N
N
N
N −1
k
Zunächst der auch für konkrete Anwendungen (etwa das nachfolgende Beispiel) nicht uninteressante Hintergrund: Es sei M eine Teilmenge der endlichen Menge N . Man darf sich
vorstellen, daß dieses M aus Elementen der Menge N mit einem gewissen Merkmal besteht.
Nun wird eine Zahl s vorgegeben und aus M in zufälliger Weise eine eine s-elementige Teilmenge S herausgenommen, die man sich als Stichprobe vorstellt, und interessiert sich für die
W-Verteilung der Zufallsvariablen X(S) = |S ∩ M |, die angibt, wieviele Elemente in S zu M
gehören, also auch das besagte Merkmal haben.
Etwas präziser, man betrachtet den Ereignisraum Ω := {S ⊆ N | |S| = s}, bei dem
jedes Elementarereignis in der Auswahl einer s-elementigen Teilmenge S ⊆ A besteht. Die
Annahme der Zufälligkeit bedingt, Ω zu einem Laplace W-Raum im Sinne von Definition
5 zu machen (jedes Elementarereignis ist gleichwahrscheinlich), somit ist Σ die Menge aller
Teilmengen von Ω und
1
P ({S}) := |N | .
s
Wie lautet die Verteilung von X?
Antwort: Um die Verteilung von X zu bestimmen, bestimmen wir, ähnlich wie in den
vorigen Beispielen PX ({k}) = P ({S | X(S) = k}). Jede Auswahl S ist disjunkte Vereinigung
S = (S ∩ M ) ∪ (S ∩ M 0 ). Deshalb läßt sich jedes S mit |S ∩ M | = X(S) = k durch Vorgabe
einer k-elementigen Teilmenge T von M und und einer s − k-elementigen Teilmenge U von
M 0 eindeutig festlegen, nämlich S = T ∪ U .
N
|M |
Für ein festes k-elementiges T gibt es k , danach für
0 |
|M | = m
M
M0
die Wahl des Komplementanteils U |M
s−k Möglichkeiten ein k-elementiges S zusammenzustellen“:
”
1
|M | |N | − |M |
.
PX ({k}) = |N |
k
s−k
s
|T | = k
|U | = s − k S
T =S∩M
U = S ∩ M0
Konkretes Anwendungsbeispiel:
Aus einer Lieferung von 490 funktionierenden und 10 defekten Bauteilen werden (in zufälliger Weise) 50 Stück als Stichprobe S ohne Zurücklegen herausgenommen. Wie groß ist die
Wahrscheinlichkeit daß die Stichprobe S keine defekten Bauteile enthält?
Antwort: Die abstrakt anmutende Herleitung ist hier nachzuvollziehen. N ist die Menge der
500 Bauteile, S die 50-elementige Stichprobe (also s = 50), M ist die 10-elementige Menge
der fehlerhaften Teile. X(S) = |M ∩ S| ist die Anzahl der defekten Bauteile in der Stichprobe
9.2. Zufallsvariable und Verteilungen
253
S. Danach genügt es, in die obige Formel einzusetzen, wobei wir uns für k = 0 interessieren:
10 490
490 · 489 · · · · 441
1
≈ 0.34516.
= ··· =
PX ({0}) = 500
500 · 499 · · · 451
0
50
50
Anderes Beispiel:
Wie groß ist die Wahrscheinlichkeit, bei 6 aus 45“ wenigstens eine Zahl richtig zu erraten?
”
Antwort: Jetzt wählt man N := {1, . . . , 45} und M eine feste Auswahl von 6 Zahlen
(nämlich die Gewinnzahlen). Der Spieler trifft eine Auswahl einer 6-elementigen Teilmenge S
durch Ausfüllen und Abgabe des Lottoscheins. Nun gibt X(S) = |M ∩ S| genau die Anzahl
der Richtigen“ an. Es ist bei uns PX ({1, 2, 3, 4, 5, 6}) = 1 − PX ({0}) gefragt, sodaß man
”
11951
1 6 39
39 · · · 33
=
.
PX ({0}) = 45
=
45 · · · 39
35260
0
6
6
Es ergibt sich ein Wert ≈ 0.599 für die gesuchte Wahrscheinlichkeit.
Beispiel 43 (Exponentialverteilung) Eine Variable X : Ω → R ist λ-exponentialverteilt,
wenn ihre Dichte für positive x durch fX (x) = λe−λx , mit λ > 0 und durch fX (x) = 0 für
x ≤ 0 gegeben ist. Man findet FX (x) = 0 für x ≤ 0 und FX (x) = 1 − e−λx für positive x.
Man bekommt durch elementares Integrieren E(X) = λ1 und V (X) = λ12 .
Diese Verteilung tritt (als Spezialfall der sog. Weibull-Verteilungen) in der Lebensversicherung auf. Auch einfache Modelle des radioaktiven Zerfalls benützen diese Verteilung ( expo”
nentieller Zerfall“).
Beispiel 44 (Gaußverteilung) Eine Variable X : Ω → R ist normal- bzw. Gaußverteilt,
falls es µ ∈ R und ein positives σ gibt, sodaß PX eine W-dichte der Form
2
1 (x−µ)
1
fµ,σ (x) = √ e− 2 σ2
σ 2π
Rx
hat. Es sei Φµ,σ (x) = −∞ fµ,σ (t) dt die Verteilungsfunktion, und Φ(x) := Φ0,1 (x). Man
sagt auch, X ist N (µ, σ)-verteilt. Diese Verteilung wurde von De Moivre ca 1725 eingeführt,
C.F.Gauß hat jedoch erst um 1820 die Bedeutung dieser Verteilung im Zusammenhang mit
dem Fehlergesetz (vgl. den Abschnitt über den zentralen Grenzwertsatz in Anmerkung 48)
klarlegen können. Bedeutung hat die Verteilung auch, weil viele Zufallsvariable approximativ
normalverteilt sind, wie z.B. Bernoulliverteilte (vgl. Beispiel 40).
Es gelten folgende Aussagen:
1. Die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist die Funktion Φ(x) :=
R x − t2
√1
e 2 dt, die sowohl tabelliert vorliegt (z.B. in [1]), als auch numerisch in Stan2π −∞
dardpaketen zugänglich ist (etwa in den Statistikpaketen R7 oder S8 ). Der Nachweis
7
8
Free Software
Komerzielles Produkt
254
Wahrscheinlichkeitstheorie
für Φ(∞) = 1 wird üblicherweise mittels Doppelintegral geführt (Polarkoordinaten
x = r cos φ, y = r sin φ, d(x, y) = rd(r, φ), Bereich (r, φ) ∈ [0, ∞) × [0, 2π))
Z
∞
2
2
− t2
e
dt
Z
=
− 12 (x2 +y 2 )
e
Z
d(x, y) =
R2
−∞
∞ Z 2π
2
− r2
e
0
0
2 ∞
− r2 r dφ dr = −2π e
= 2π,
0
woraus Φ(∞) = 1 folgt.
2. Für eine N (µ, σ)-verteilte Zufallsvariable X sind E(X) = µ und die Standardabweichung V (X) = σ 2 .
3. Ist X gemäß N (µ, σ)-verteilt, so ist die standardnormierte Zufallsvariable Z :=
gemäß N (0, 1)-verteilt, genauer,
x−µ
.
Φµ,σ (x) = Φ
σ
X−µ
σ
All dies folgt unmittelbar aus Anmerkung 34 6.
4. Ist X eine N (µ, σ)-verteilte Zufallsvariable, so ist aX gemäß N (aµ, aσ)-verteilt.
5. Sind die unabhängigen Zufallsvariablen
√ X, Y jeweils N (µ, σ) und N (ν, τ )-verteilt, so
ist X + Y verteilt gemäß N (µ + ν, σ 2 + τ 2 )9 . Allgemeiner ergibt sich hieraus (durch
Induktion) das Additionstheorem unabhängiger
N (µi , σi )-verteilter Zufallsvariabler
Pn
Pn Xi :
Ω → R, demzufolge
die
Dichte
von
X
gemäß
N
(µ,
σ)-verteilt
mit
µ
=
i=1 i
i=1 µi
Pn
2
2
und σ = i=1 σi ist.
6. Sind X, Y : Ω → R unabhängige Zufallsvariable mit N (µX , σX ) und N (µY , σY )1 −Q(x,y)
Normalverteilung, so ist die Zufallsvariable gemäß einer Dichte f(X,Y ) (x, y) := 2π
e
mit Q(x, y) = σ12 (x − µX )2 + σ12 (y − µY )2 verteilt. Diese Dichte hat die bekannte
X
Y
Glockenform, mit Höhenschichlinien Ellipsen mit Mittelpunkt (µX , µY ) und Halbachsen im Verhältnis der Streuungen. Dreht man das Koordinatensystem, so erscheinen
in Q gemischt quadratische Glieder, die von der Kovarianz der neuen Koordinaten
herrührt, siehe hiezu 10.3.
7. Für eine N (0, 1)-verteilte Zufallsvariable ist P (|X| < a) = 2Φ(a) − 1.
9
Um dies zu beweisen, benützt man die Faltung zweier Funktionen, wie sie auch im Kontext mit Laplaceund Fouriertransformation
bekannt ist. Um die Faltung zu sehen, benützen wir Anmerkung 34 7. Demgemäß
R
hat man FX+Y (z) = Az f(X,Y ) (x, y) d(x, y) mit Az := {(x, y) | x + y < z}. Das führt wegen der Unabhängigkeit zunächst auf f(X,Y ) (x, y) = fX (x)fY (y) und somit nach Umwandlung in ein Doppelintegral, Verwenden
der Substitution
t − x, dy = dt, neueR Grenzen=−∞,
z“, Vertauschen
R z der
R ∞ Integrationsreihenfolge zu
R ∞ y R=z−x
”
∞ Rz
FX+Y (z) = −∞ dx −∞ fX (x)fY (y) d(y) = −∞ −∞ fX (x)fY (t − x) dt = −∞ −∞ fX (x)fY (y − x) dy. Diese
R∞
Formel hat die Integralform einer Verteilungsfunktion und daher ist fX+Y (z) = −∞ fX (x)fY (z − y) dz, was
identisch mit der Faltung (fX ∗ gY )(z) ist. Nun kann man im Falle der Normalverteilung(en) die oben angegebene Form von fX+Y (z) mittels länglicher, aber völlig elementarer Rechnung bekommen. Üblicherweise
gelingt ein kurzer Beweis unter Benützung von charakteristischen Funktionen, d.s. die Fouriertransformierten
der Dichten.
9.2. Zufallsvariable und Verteilungen
255
Für den letzten Punkt soll kurz der Nachweis erbracht werden (der ganz allgemein für
beliebige Verteilungen F mit bezüglich des Nullpunktes symmetrischer Verteilungsdichte f
geht), wobei an geeigneter Stelle die Substitution u = −t, dt = −du und neue Integralgrenzen
∞ bzw. a, und schließlich die Symmetrie f (u) = f (−u) = f (t) benützt wird: Es ist P (|X| <
a) = P ({ω | X < a} ∩ {ω | X > a}) = P ({ω | X < Ra} \ {ω | −a < X}) =R P ({ω | X <
a
∞
a}) − P ({ω | −a < X}) = F (a) − F (−a) = F (a) − −∞ f (t) dt = F (a) − a f (u) du =
F (a) − (1 − F (a)) = 2F (a) − 1.
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Normalverteilung N(0,1)
256
Wahrscheinlichkeitstheorie
1
0,8
0,6
0,4
0,2
0
-3
-2
-1
0
1
2
3
Verteilungsfunktion N(0,0.5)
9.3
9.3.1
Approximation mathematischer durch empirische Wahrscheinlichkeit
Ungleichung von Tschebischeff und das Bernoulliexperiment
Das nach Johann Bernoulli benannte, von ihm um 1720 vorgeschlagene Gedankenexperiment
ist Grundlage jeden statistischen Arbeitens und soll hier beschrieben werden. Es gibt eine Wtheoretisch formulierte Antwort auf die in Beispiel 1 aufgeworfene Frage, inwieweit man denn
erwarten darf, daß die relativen Häufigkeit hn (A) als gute Approximation einer womöglich
mathematisch vorausberechneten Wahrscheinlichkeit p gelten kann. Noch entscheidender ist
eine solche Frage, wenn p durch statistische Erhebung geschätzt“ werden soll, also von
”
vorneherein unbekannt ist. Mehr darüber in den Beispielen 50 und 53.
Wir werden die Ungleichung von Tschebischeff dabei benützen:
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
257
q
◦
◦
•
0
•
0
1
1=p+q
Abbildung 9.2: Theoretische“ Verteilungsfunktion beim Bernoulliexperiment
”
Anmerkung 45 (Ungleichung von Tschebischeff) Es sei X : Ω → R eine Zufallsvariable und > 0, so gelten folgende Aussagen:
• P (|X| ≥ ) ≤
E(|X|)
.
• P (|X − E(X)| ≥ ) ≤
V (X)
.
2
Beweis: Um die erste Behauptung zu zeigen, darf X ≥ 0 angenommen werden. Danach
definieren wir Y (ω) als X(ω), wenn X(ω) ≥ ist, und Null sonst. Man überlegt sich, daß Y
auch eine Zufallsvariable ist. Danach folgt aus X(ω) ≥ Y (ω) für alle ω ∈ Ω die Ungleichung
E(X) ≥ E(Y ) ≥ P ({ω | X(ω) ≥ }) = P (X ≥ ),
und hieraus durch Umformen die erste Behauptung.
Wir wollen die zweite Behauptung zeigen, und nennen dort das X jetzt Y , wollen also
P (|Y − E(Y )| ≥ ) ≤ V (Y2 ) zeigen. Nun sei X := V (Y ) = |Y − E(Y )|2 , so ergibt sich
P (|Y − E(Y )|2 ≥ 2 ) ≤
V (Y )
,
2
und weil links definitionsgemäß das Maß der Menge
{ω | |Y − E(Y )|2 ≥ 2 } = {ω | |Y − E(Y )| ≥ }
ermittelt wird, ist alles gezeigt.
w.z.b.w.
Beispiel 46 (Bernoulliexperiment) Die Situation beim B.E. ist die folgende: Jemand
geht, theoriegestützt“ von der Annahme (H) aus, daß (Ω, Σ, P ) ein W-Raum und X : Ω →
”
{1, 0} eine Zufallsvariable mit P (X = 1) = p und P (X = 0) = q := 1 − p sind. Das sei z.B.
durch Wahrscheinlichkeitsrechnung ermittelt worden, es sind also (mathematische) Wahrscheinlichkeiten. Somit ist die Verteilungsfunktion FX von der in Fig. 9.2 angegegebenen
Form.
Beim Münzwurf etwa wäre Ω := {K, Z} und X(K) := 0, bzw. X(Z) := 1. Weiters würde
man sich gerne auf (H), d.h. p = 1 − p = 21 aufgrund mathematischer Betrachtungen stützen
können.
Nun ermittelt jemand relative Häufigkeiten durch ein Zufallsexperiment folgender Art:
258
Wahrscheinlichkeitstheorie
a) Der Versuch wird parallel n mal unter unabhängigen Bedingungen wiederholt,
b) oder n mal (unabhängig voneinander) hintereinander ausgeführt.
Die beiden Denkweisen werden als gleichartig angesehen und drücken lediglich die Forderung aus, daß keines der n Zufallsexperimente das andere beieinflußt, d.h. die n Zufallsexperimente legen unabhängig voneinander Werte der Zufallsvariablen Xi : Ω → {1, 0} fest
für i = 1, . . . , n. In dieser Weise, wie in Beispiel 40 (Bernoulliverteilung) genauer ausgeführt
worden ist, ergibt sich für die Zufallsvariable Sn : Ω → R, definiert durch
Sn (ω) :=
n
X
Xi (ω) = |{i | Xi (ω) = 1}|,
(9.1)
i=1
welche abzählt, in wievielen der n Experimente das Ereignis eintrifft, eine B(n, p)-Verteilung
mit E(Sn ) = np und V (Sn ) = npq.
Schließlich kommt die Ungleichung von Tschebischeff (Anmerkung 45) zum Zug, indem
wir dort X := n1 Sn einsetzen und V n1 Sn = n12 V (Sn ) beachten:
1
pq
P Sn − p ≥ ≤ 2 .
(9.2)
n
n
Falls die Wahrscheinlichkeit p unbekannt ist (etwa die Ausfallshäufigkeit eines Bauteils),
welchen Näherungswert würde man nach n Versuchen für p benützen?
Antwort: Es empfiehlt sich x̄ := nk = n1 Sn , wobei, die Bedeutung von Sn rekapitulierend,
k die Anzahl der Versuche ist, bei denen das Ereignis eingetreten ist, dessen (unbekannte)
Wahrscheinlichkeit p ist.
Zahl von Versuchen: Es sei α ∈ (0, 1) eine eher kleine Zahl, die Irrtumswahrscheinlichkeit“.
”
Wieviele Versuche sollte man anstellen, um die Wahrscheinlichkeit dafür, daß | n1 Sn − p| ≥ ist, kleiner als α ist?
Antwort: Da pq = p(1 − p) = p − p2 das Maximum an 12 , nämlich 41 annimmt, ist
pq
1
≤
,
2
n
4n2
1
1
sodaß es hinreichend ist, 4n
2 ≤ α, m.a.W., n ≥ 4α2 zu wählen. Sind z.B. α = = 0.1 (also
10% Genauigkeit bei der Approximation), so ist n = 250.
Jemand hat eine feste Anzahl n von Versuchen gemacht, die recht groß ist (viel größer als
250, etwa n := 10000 – Massenproduktion). Dabei wurden unter den 10000 Stücken k :=
300
300 fehlerhafte entdeckt. Er nimmt jetzt an, daß nk = 10000
≈ p als Approximation der
Fehlerwahrscheinlichkeit ist.
Jetzt will er wissen, wie genau sein p approximiert worden ist, zumindest ist eine Wtheoretische Auskunft gesucht. Dazu gibt er eine Irrtumswahrscheinlichkeit α (meist ist
α ∈ {0.05, 0.02, 0.01}, manchmal noch kleiner) vor und stellt folgende Frage:
Gesucht sind Schranken θ und θ, sodaß P (p ∈ [θ, θ]) ≥ 1 − α gilt.“
”
Antwortfindung: Zunächst läßt sich Glg.(9.2) in äquivalenter Form als
1
pq
P (| Sn − p| ≤ ) ≥ 1 − 2
n
n
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
259
schreiben, indem man zum komplementären Ereignis übergeht. Der Ausdruck
1
| Sn − p| ≤ n
pq
ist äquivalent zu p ∈ [ n1 Sn − , n1 Sn + ]. Die Bedingung an muß sich aus 1 − n
2 ≥ 1 − α
pq
1
ergeben – in äquivalenter Form – aus α ≥ n2 . Da letzteres aus α ≥ 4n2 folgt, kann man
1
:= √4αn
setzen und so ergibt sich (für dieses ):
1
1
P (p ∈ [ Sn − , Sn + ]) ≥ 1 − α.
n
n
Sehr angenehm ist hier, daß die Schranken θ(X1 , . . . , Xn ) := n1 Sn − und θ(X1 , . . . , Xn ) :=
1
n Sn + Zufallsvariable sind, die einen (zufälligen) Wert erst im Rahmen der Versuchsserie
zu n events annehmen. Diese Schranken passen sich also dem n an!
300
= 3 × 10−3 als Näherung
Antwort: Man betrachtet die relative Häufigkeit p̂ := n1 Sn = 10000
1
für die Wahrscheinlichkeit p des Auftretens eines Fehlers, setzt := √4αn
= √4×101−1 ×105 =
5 × 10−3 und bekommt
k
k
P (p ∈ [ − , + ]) ≥ 1 − α,
n
n
und in unserem Beispiel ist somit mit 90%-iger Wahrscheinlichkeit die Wahrscheinlichkeit für
das Auftreten von Produktionsfehlern im Intervall [0, 8 × 10−3 ].
(Diese Aussage gibt Anlaß zu sagen, daß mit 90 prozentiger Sicherheit höchstens etwa
1% Fehler auftreten können. Konfidenzniveau α = 90% und diese obere Schätzung von p
können Ausgangspunkt für die Berechung von Erwartungswerten für Schäden werden. Danach können Versicherungssummen ausgelegt werden.)
Inwieweit führt die Approximation der Binomialverteilung durch die Gaußverteilung zu besseren Abschätzungen?
Antwort: wird am Ende von Beispiel 53 1. gegeben werden.
a) = 1
Punkt- oder
Dirac-V. δa
an a
= k) =
= k) =
Hypergeometrische-,
M , N , n aus
N
−M
(Mk )(Nn−k
)
N
(n)
λk −λ
k! e
xk)
=
n k n−k
p
q
k
BernoulliBinomialBn (p),
sei
0 < p < 1
und
q := 1 − p
Poisson-, sei
λ>0
xi ) =
Gleichmäßige
1
n
P (X =
Name d. V.
λk
k!
x≤0
0<x
x ≤ x1
xk−1 < x ≤ xk ,
2≤k≤n
xn ≤ x
0
P
e−λ k<x
1
k.A.
k−1
n
0
FX (x) =
0 x≤a
1 x>a
nM
N
λ
i=1
Pn
np
1
n
a
E(X)
xi
nM
N 1−
λ
npq
M
N
N −1
N −n
E(X 2 ) − E(X)2
0
V (X
Ziehen von Stichproben ohne Zurücklegen, Beispiel
42
Poissonprozess,
Beispiel 41
n-maliges
Durchführen
eines Experiments,
Beispiel 40
Laplace W-Raum
X = a ist ein sicheres Ereignis
Anwendungsbereich
260
Wahrscheinlichkeitstheorie
Student-, tn ∈ N, n >
0
χ2 - n ∈ N,
n>0
Gauß,
N (µ, σ 2 ),
µ, σ > 0
Exponentialλ>0
Rechteck,
Intervall
a<b
Name d. V.
1
0
Rx
Γ( n+1
2
√1
)
nπ Γ( n
2
n
2 2 Γ( n
)
2
h
n
− 12
u−µ 2
σ
du
” n+1
−∞ “
2
u2
1+ n
R∞
e− 2 u− 2 −1 du
u
−∞ exp
Rx
i
du
1
x−µ 2
2σ
i
1
“
” n+1
2
x2
1+ n
x≤0
x
n
e− 2 x− 2 −1 x > 0
h
exp − 21
n
2 2 Γ( n
)
2
n+1
Γ( 2
√1
)
nπ Γ( n
2
0
√1
σ 2π
0
x≤0
λe−λx x ≤ 0 < x
0
x≤0
1 − e−λx 0 < x
√1
σ 2π
FX0 (x) = f (x)
0
x<a
1
b−a a < x ≤ b,
0
b≤x
FX (x)
0
x<a
x−a
a
< x ≤ b,
b−a
1
b≤x
0 (f n ≥
2)
n
µ
1
λ
3)
n
n−2
2n
σ2
1
λ2
(f n ≥
− a)2
1
12 (b
1
2 (a
+ b)
V (X)
E(X)
standardisierte
normalverteilte Daten nicht
normalverteilt
bei unbekannter
Varianz Beispiel
55
Beispiel 55
Beispiel 44
Lebensdauer,
Zerfallsdauer,
Beispiel 43
Beispiel 28 3.
Anwendungsbereich
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
261
262
9.3.2
Wahrscheinlichkeitstheorie
Gesetz der großen Zahlen, Zentraler Grenzwertsatz
Beim Bernoulliexperiment (Beispiel 46) kommt man zur Aussage, daß sich bei wachsenden
Anzahl n unabhängiger Versuche die gemessenen relativen Häufigkeiten hn (A) = nk , wobei
A ein spezifisches Ereignis mit Wahrscheinlichkeit p ist, diesem Wert für n → ∞ zustreben,
zumindest in folgendem Sinn: Aus der Ungleichung Glg.(9.2) ergibt sich
1
lim P (| Sn − p| ≥ ) = 0
n→∞
n
für jedes positive . Experimentatoren schließen, daß für großes n der Wert nk gut“ sein sollte
”
im Sinne, daß die Wahrscheinlichkeit dafür nahe bei 1 liegt, man also nahezu sicher“ sein
”
darf, daß hn (A) = nk ≈ p.
Als Verallgemeinerung davon gilt der Satz von Gliwenko-Cantelli, nämlich Anmerkung 49,
der als Hauptsatz der Statistik bezeichnet wird und zeigt, daß die empirischen vermessene
Verteilungsfunktionen bei n → ∞ in einem wahrscheinlichkeitstheoretischen Sinn gegen die
gesuchte Verteilungsfunktion streben. Er folgt aus dem weiter unten vorzustellenden Satz von
Kolmogorov Anmerkung 47.
Hier sollen sie ohne Beweise, die maßtheoretischer Natur sind10 , vorgestellt werden.
Anmerkung 47 (Kolmogorov) Ist Xn : Ω → Rk eine Folge unabhängiger Zufallsvariabler, deren Varianzen existieren und
∞
X
V (Xn )
n2
n=1
erfüllen, so ist
<∞
n
1 X
P ({ω | lim (
Xj (ω) − E(Xn )) = 0}) = 1.
n→∞ n
j=1
Insbesondere, wenn alle Xn identisch wie X verteilt sind, so ist die Bedingung erfüllt und
es ergibt sich aus dem vorigen
n
1X
P ({ω | lim
Xj (ω) = E(X)}) = 1.
n→∞ n
j=1
Die Konvergenzaussage wird auch als Xn gehorcht dem starken Gesetz der großen Zahlen“
”
ausgedrückt, während die schwächere, aus ihr folgende:
n
1 X
lim P ({ω | Xj (ω) − E(Xn ) > }) = 0
n→∞
n
j=1
10
etwa [8]
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
263
für alle positiven als schwaches Gesetz der großen Zahlen bezeichnet wird. Ist Xn = n1 Sn
wie im Bernoulliexperiment, so bekommt man die eingangs gemachte Aussage als Spezialfall,
nämlich, daß die Folge ( n1 Sn | n ∈ N) dem schwachen Gesetz der großen Zahlen genügt.
Der zentrale GWS wird auch in allgemeinerer Form und unter technischen Bedingungen
(von Lindeberg, siehe S. 111 in [8] ff.) formuliert. Eine vereinfachte (oft zitierte und benützte)
Version ist die folgende:
Anmerkung 48 (Zentraler Grenzwertsatz; standardisierte Zufallsvariable) Haben die Zufallsvariablen Xn alle die gleiche Verteilung wie X mit E(X) = µ und
V (X) = σ, so ist die standardisierte Zufallsvariable
Pn
X̄(ω) − µ √
j=1 (Xj (ω) − µ)
√
n,
Z(ω) :=
=
σ
σ n
P
mit X̄ := n1 ni=1 approximativ N (0, 1)-verteilt, d.h. bei festem a < b strebt Fn (b)−Fn (a)
Rx
2
gegen Φ(b) − Φ(a) bei n → ∞, wobei wie in Beispiel 44, Φ(x) := √12π −∞ e−x dx ist.
In diesem Sinne ist das Fehlermittel
n
1X
(Xj (ω) − µ)
X̄(ω) − µ =
n
j=1
auf jedem festen Intervall [a, b] für hinreichend großes n approximativ N (0, √σn )-verteilt11 .
Satz von De Moivre-Laplace: De Moivre veröffentlichte 1730 für p = 21 und Laplace
1812 für beliebiges 0 < p < 1 das Resultat, daß im Bernoulliexperiment (vgl. Beispiel
46) zur Ermittlung der Wahrscheinlichkeit p = P (A) für die Bernoulliverteilung B(n, p),
welcher die Zufallsvariable Sn : Ω → R, definiert durch Sn (ω) = nk , wenn in k von n
unabhängigen Versuchen das Ereignis A eingetreten ist, dem Gesetz
k − np
P a≤ √
< b → Φ(b) − Φ(a)
npq
für n → ∞ gleichmäßig bei festem a, b genügt. Hieraus ergeben sich die in der Praxis
gelegentlich benützten Faustregeln np > 4 und nq > 4 ([6], Seite 160), bzw. in [13]
wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen.
Man kann den Satz von De Moivre-Laplace aus dem zentralen GWS unmittelbar her√
leiten, weil jedes Xi (wie in Beispiel 46) Erwartungswert µ und Streuung σ = pq (vgl.
√
Beispiel 35 3.) hat. Danach wird das Z zu Z = S√n −µ
n, was nach wenig Rechnung zur
pq
Behauptung führt.
11
Vgl.Beispiel 44 4.
264
Wahrscheinlichkeitstheorie
Gaußsches Fehlergesetz (phys. Praktikum): Wird eine Strecke l mehrfach, etwa n mal
gemessen, so geht man von Meßfehlern aus. Dabei gibt es systematische Meßabweichungen (z.B. instrumentbedingt), grobe Fehler (z.B. Verwerfen von Daten) und zufällige
Fehler (Messunsicherheiten). Nach Sicherstellung, daß lediglich noch zufällige Fehler im
Spiel sind, wird das Ergebnis der n-fachen Messung, etwa der Höhe eines Tisches (das
l) mit l = 80.8 ± 1.4 cm angegeben, nachdem sich, nach Messungsserie und Fehlerrechnung x̄ = 80.7682 und als Maß der Unsicherheit ±1.4327 cm ergeben hat. M.a.W.,
die Meßunsicherheit wird auf eine signifikante Stelle aufgerundet, außer wenn die erste
signifikante Stelle 1 ist.
Der zufällige Fehler veranlaßt, statt des wahren, unbekannten Wertes l zu einer Zufallsvariablen X auf Ω := R überzugehen. Die Erfahrung lehrte:
1. kleine Fehler sind häufiger als große,
2. positive und negative Fehler heben einander nahezu auf,
3. Fehler, nahe bei Null, sind am häufigsten.
Diese Umstände haben die Frage nach einer Formulierung eines Fehlergesetzes nach sich
gezogen (siehe die ausführliche Diskussion in [5]). Gauß schließlich postulierte das nach
ihm benannte Fehlergesetz, welches besagt, daß der Meßfehler approximativ normalverteilt angenommen werden darf.
Eine gelegentlich zu findende Motivation dafür ist die Einbeziehung des zentralen GWS
wie folgt:
Zunächst wird angenommen, daß jeder Meßfehler F sich aus einer Vielzahl n von kleinen, stochastisch unabhängigen Elementarfehlern Xi zusammensetzt, d.h.
F =
n
X
Xi
j=1
und daß er endliche Varianz V (F ) hat. Nimmt man von jedem Elementarfehler an, daß
er die gleiche (nicht näher bekannte) Verteilung mit Mittelwert 0 und Streuung σ hat,
√
so ist F nach dem zentralen GWS approximativ N (0, σ n)-verteilt. Da n zwar groß,
aber nicht beliebig groß, und σ sehr klein ist, betrachtet man somit den Gesamtfehler
F approximativ N (0, σF )-verteilt, wobei σF2 ≈ V (F ) gelten muß.
Verbesserung der Meßgenauigkeit durch Mittelbildung: Eine andere, gänzlich unterschiedliche Situation zur vorigen stellt das wiederholte (n-fache) Messen, etwa ein
und derselben Distanz l dar, die wie vorher durch eine Zufallsvariable X repräsentiert
wird. Dabei nimmt man die Unabhängigkeit der wie X identisch verteilten Zufallsvariablen Xj für j = 1, . . . , n an. Dementsprechend wird µ := E(X) als Wert für die
Länge l genommen. Das n-fache Messen soll nun approximativ die VerteilungpF von
X ermitteln, wobei man grundsätzlich nur an l ≈ µ und der Streuung σ = V (X)
interessiert ist, wobei σ als Fehlermaß (Unsicherheit) gewertet wird. In 3. von Beispiel
50 wird der Physikpraktikumsübliche Näherungswert σ̂ beschrieben.
9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit
265
Es ist Xj − E(X) eine plausible Annahme für den j.ten Meßfehler (nämlich tatsächliche unbekannte Länge l minus Wert der j.ten Messung). Das in Anmerkung 48 genannte Fehlermittel X̄ − µ ist eine Zufallsvariable, die, wie schon gesagt, approximativ
N (0, √σn )-verteilt ist. Deshalb geht man davon aus, daß sich der Meßfehler mit ausreichender Wahrscheinlichkeit bei oftmaligem Messen besser eingrenzen läßt, weil das
Stichprobenmittel zu einer guten Approximation von µ = E(X) (und somit l) wird. In
Unterabschnitt 10.2.1 wird µ, bzw. σ die Rolle eines Parameters“ spielen, der anhand
”
gemessenen Datenmaterials geschätzt werden soll.
Hauptsatz der Statistik – Gliwenko-Cantelli: Im Bernoulliexperiment wurde die Konvergenz der empirischen Wahrscheinlichkeit gegen die mathematische“ betrachtet. Das
”
kann auch als Konvergenz der empirischen Verteilungsfunktionen gegen die dem p entsprechende Verteilungsfunktion in Fig. 9.2 angesehen werden. Beim Satz von GliwenkoCantelli geht es ganz allgemein um die gleichmäßige Konvergenz empirischer Verteilungsfunktionen gegen eine (nicht näher bekannte) Verteilung. Siehe Anmerkung 49.
Man kann zeigen, daß dieser Satz, ähnlich wie die vorigen Ergebnisse, eine recht einfache
Folgerung aus dem zentralen GWS ist (z.B. in [4]).
266
Wahrscheinlichkeitstheorie
Kapitel 10
Statistik
10.1
Grundlagen und Kurzbeschreibung
10.1.1
Aufgaben der Statistik
Details, die hier möglicherweise beim ersten Durchlesen schwer verständlich sind, werden in
den nachstehenden Kapiteln behandelt. Einfach weiter lesen und später diese grobe Übersicht
durchsehen.
Beschreibende Statistik. Sie befaßt sich mit der übersichtlichen Aufbereitung von (großen)
Datenmengen, die durch Messungen im weitesten Sinne zustandekommen. Dazu gehören
etwa Histogramme, die manchmal in Prozenten, manchmal in Absolutzahlen – oft auch
in Klassen zusammengefaßt – Datenmaterial veranschaulichen.
Schließende Statistik. Es geht darum, für eine nicht näher oder nur zum Teil bekannte
~ : Ω → Rk (z.B. ist k = 2 beim
Verteilung F einer (vektorwertigen) Zufallsvariablen X
Dartschießen, nämlich x- und y-Koordinate) durch folgende Methode eine Näherung zu
gewinnen:
Man gibt eine natürlich Zahl n vor, mißt“ n-mal und faßt jede Messung als Festle”
~ verteilten
~ i : Ω → Rk auf. Die
gen eines Wertes einer wie X
zufälligen Variablen X
Messung ist so auszuführen, daß keine die andere beeinflußt, und das bedingt, daß die
~ i unabhängig sind. Das Meßergebnis ~xi (der Variablen X
~ i ) heißt dann deren
Variablen X
Realisation.
Einfache Beispiele des Messens: n-malige Wiederholung eines Zufallsexperiments im
Bernoulliexperiment, n-maliges Abmessen einer Strecke (z.B. in der Geodäsie). Aus
einer Population, d.i. Gesamtheit, n-mal hintereinander in zufälliger Weise“ Elemente
”
herausgreifen, die Größe (oder nur das Vorhandensein eines Merkmals, d.i. Wert der
Zufallsvariablen nur Null oder Eins) messen, das Element zurücklegen“.
”
Die n Messungen stellen ein zufälliges Experiment dar, bei dem die vektorwertige Zu~ 1, . . . , X
~ n ) : Ω → (Rk )n als Wert ( Realisierung“) den Vektor
fallsvariable X := (X
”
x := (~x1 , . . . , ~xn ) ∈ (Rk )n annimmt. Nun geht es in der schließenden Statistik darum,
267
268
Statistik
die experimentell ermittelte Verteilungsfunktion Fn : Rk → [0, 1], nämlich
Fn (~x) :=
|{i | ~xi < ~x}|
,
n
wobei das <“ koordinatenweise zu lesen ist, als Näherungsfunktion von F (~x) anzuse”
hen. Insofern wird hier das Bernoulliexperiment (Beispiel 46) verallgemeinert, als dort
die Verteilungsfunktion eine recht einfache Treppenfunktion (Fig. 9.2) darstellt.
Als theoretische Grundlage dafür wird der in Anmerkung 49 noch zu besprechende Satz
von Gliwenko-Cantelli angesehen.
In vielen Situationen kennt man die Verteilung F zum Teil, sei es, daß sie von einer
bestimmten Form ist, oder daß z.B. plausible Annahmen über die Größe ihrer Varianz
gemacht werden können. Oft will man auch nur Kenngrößen von F schätzen, wie z.B.
den Erwartungswert der nach F verteilten Zufallsvariablen X. Entsprechend gibt es
folgende Teildisziplinen der schließenden Statistik:
• Parameterschätzung1 . Man hat genügend Gründe dafür, anzunehmen, daß die
Verteilung F eine spezifische Form F (x, θ) hat, bei der θ ∈ Θ ein Parameter in
einem Parameterbereich Θ ⊆ Rd ist. Typisches Beispiel ist die Verteilungsfunktion
der Normalverteilung N (µ, σ), bei der θ := (µ, σ) ∈ Θ := R2 die Rolle des Parameters spielt. Nun wird eine plausible“ Näherung θ̂ des unbekannten Parameters θ
”
mittels der Meßreiheergebnisse x ∈ (Rk )n bestimmt. Zu diesem Zweck konstruiert
man eine Schätzfunktion2 Z : (Rk )n → Rd , und berechnet θ̂ := Z(x).
Die häufigsten Methoden zur Auffindung einer geeigneten Schätzfunktion Z sind
die Momentenmethode3 und die der Maximum Likelihood Schätzung.
• Intervallschätzung für einen skalaren Parameters θ mit Konfidenzniveau4 α. Jetzt ist d = 1 und es geht genau wie vorher um die Schätzung eines
nunmehr skalaren
Parameters θ, (etwa θ = µ = E(X), der Erwartungswert, oder
p
θ = σ = V (X), die Standardabweichung). Allerdings wird jetzt α (meist ist
α ∈ {0.05, 0.02, 0.01}) vorgegeben. Danach konstruiert man skalarwertige Schätzfunktionen θ, und θ von (Rk )n → R derart, daß der zu schätzende Parameter
θ
θ(x) < θ < θ(x)
mit (1−α)×100%iger Wahrscheinlichkeit erfüllt. Die Größe 1−α ist das Konfidenzniveau, die Intervallgrenzen θ(x) und θ(x) sind die Vertrauensgrenzen. Wird dabei
die Anzahl der Messungen erhöht, darf man hoffen, daß diese Vertrauensgrenzen
enger zusammenrücken.
• Prüfen von Hypothesen. Es wird, nicht unähnlich zu vorher, diesmal als Signifikanzniveau bezeichnetes α (meist in {0.05, 0.02, 0.01}) gewählt. Als Hypothese
1
Anderer Name: Punktschätzung.
Stichprobenfunktion, Punktschätzer
3
soll hier nicht vorgeführt werden, siehe z.B. [6]
4
Auch Konfidenzschätzung genannt.
2
10.1. Grundlagen und Kurzbeschreibung
269
bezeichnet man eine Aussage, daß für eine vorgegebene Schätzfunktion Z die Zufallsvariable ZX in einem vorgegebenen Bereich liegt (z.B. Null ist, oder in einem
Intervall ist). Dem Neyman-Pearson Paradigma folgend, wird die Hypothese H0 als
Nullhypothese und eine weitere, sie ausschließende, als Alternativhypothese bezeichnet, und man möchte durch eine Stichprobe festlegen, ob man die Nullhypothese
verwerfen kann.
Nun wird eine neue Schätzfunktion T konstruiert, die Testfunktion und man ermittelt einen Ablehnbereich A durch die Bedingung
P (T ∈ A) ≤ α,
was insbesondere dann geht, wenn die Verteilung von T X bekannt ist. Wegen der
Annahme von H0 kann man P (T ∈ A) ausrechnen“ und deshalb den Ablehnungs”
bereich im vorhinein festlegen. Nun wird, wie schon angedeutet, eine Einzelmessung t für T X ermittelt. Fällt dieses t in den Ablehnungsbereich A, so wird die
Hypothese abgelehnt, andernfalls wird sie nicht abgelehnt. Je kleiner α ist, desto
geringer wird die Wahrscheinlichkeit dafür, die Hypothese abzulehnen, obwohl sie
richtig ist (Fehler 1.Art). Um den Fehler 2.Art, nämlich ein falsches H0 nicht abzulehnen, möglichst unwahrscheinlich werden zu lassen, wird, abhängig vom speziellen Testverfahren, A entsprechend gewählt. Gebräuchliche Testverfahren sind tTest, Wilcoxontest, χ2 -Anpassungstest und Kolmogorow-Smirnow-Anpassungstest,
auf die noch einzugehen ist.
• Schätzung von Korrelations- und Regressionsgrößen. Im einfachsten Fall
geht es um eine R2 wertige Zufallsvariable (X, Y ), von der eine Meßreihe (xi , yi ) als
Realisierung vorliegt. Dann liegt eine Punktwolke“ von Daten vor. Nun versucht
”
man, insbesondere wenn man Normalverteilung annimmt, eine Dichtefunktion zu
erraten, deren Graph konzentrische Ellipsen als Schichtlinien auffweist. Darüber
gibt die Kovarianz Auskunft. Im Extremfall können diese Ellipsen faktisch Geraden werden, wodurch man in natürlicher Weise zum Ausgleichen durch Regressionsgerade kommt. Meßreihen helfen, die für diese Fragen relevanten Korrelationsund Regressionsgrößen zu schätzen.
10.1.2
Hauptsatz der Statistik
~ : Ω → Rk eine Zufallsvariable, deren Verteilungsfunktion F : Rk → [0, 1] nicht
Es sei X
näher bekannt ist (beim Dartschießen ist k = 2, die x- und die y-Koordinate). Nun wird
ein natürliches n vorgegeben und n einander nicht beeinflussende Messungen ausgeführt, die
~ verteilter Zufallsvariabler X
~ i : Ω → Rk
man als Realisierungen n unabhängiger genau wie X
k
auffaßt. Dann wird, wie in der Einleitung angesprochen, für jedes ~x ∈ R die Zufallsvariable
Fn (~x, ·) : Ω → [0, 1] durch
~ i (ω) < ~x}|
|{i | X
Fn (~x, ω) :=
n
definiert, wobei das <“ koordinatenweise zu lesen ist. Diese Zufallsvariable beschreibt die
”
~ i unterhalb des Wertes ~x (koorHäufigkeit der Experimente, in denen die jeweilige Variable X
dinatenweise von 1 bis k) liegt und wird durch Zufallsexperiment (dem Meßvorgang) ermittelt.
270
Statistik
Nämlich, das n-fache Messen ergibt eine empirische Häufigkeitsverteilung Fn : Rk → [0, 1],
die durch
|{i | xi < x}|
Fn (x) :=
n
gegeben ist, und die man als Realisierung der Zufallsvariablen Fn (x, ·) : Ω → [0, 1] auffaßt.
Erfahrungsgestützt erwartet man, daß Fn (x) eine gute Approximation von F (x) ist und im
Falle eines die Verteilungsfunktion die Stufenform wie in Fig. 9.2 hat, wissen wir das eben
durch das Bernoulliexperiment (Beispiel 46). Im allgemeineren Fall kann man sich auf den
Hauptsatz der Statistik“ stützen:
”
Anmerkung 49 (Gliwenko-Cantelli, 1933) Es sei
Dn (ω) := sup |Fn (x, ω) − F (x)|
x∈R
so ist P ({ω | limn→∞ Dn (ω) = 0}) = 1.
In Worten: die Wahrscheinlichkeit dafür, daß Fn im Sinne der Supremumsnorm eine
gute Approximation von F ist, geht mit wachsendem n gegen Eins.
Je mehr Messungen macht, desto unwahrscheinlicher“ sind größere“ Differenzen zwischen
”
”
Fn und F auf R zu erwarten. Also, genau wie beim Bernoulliexperiment ergibt sich beim
Erhöhen von n eine immer näher an Eins liegende Wahrscheinlichkeit dafür, daß die aus der
Meßreihe abgeleitete Verteilungsfunktion Fn (x) eine brauchbare Approximation für F (x) ist.
Wohlgemerkt, keine Gewißheit, lediglich sich erhöhende Wahrscheinlichkeit“.
”
10.2
Schätz- und Testverfahren
10.2.1
Parameterschätzung
Von einer zufälligen Variablen X : Ω → Rk hat man Grund zur Annahme, daß sie einer
Verteilung F (x, θ) genügt, wobei θ ∈ Θ ⊆ Rd ein Parameter ist (z.B. das p im Falle eines Laplace-W-Raumes, (a, b) ∈ R2 im Falle der Rechtecksverteilung, (n, p) ∈ R2 für die
Bernoulliverteilung, oder (µ, σ) ∈ R2 im Falle der Gaußschen Normalverteilung).
Nun wird eine Stichprobe x := (x1 , . . . , xn ) ∈ (Rk )n ermittelt, d.h., es werden n Messungen
der Variablen X durchgeführt. Dann wird ein Punktschätzer konstruiert, d.i. eine Funktion Z :
(Rk )n → Θ und θ̂ := Z(x1 , . . . , xn ) als Näherungswert betrachtet. Bei der Konstruktion von
Z spielen folgende Argumente eine Rolle, bei der man den Vergleich mit der Zufallsvariablen
ZX(ω) = Z(X1 (ω), . . . , Xn (ω)) heranzieht:
1. Z heißt erwartungstreu, falls E(ZX) = θ. Die Differenz B := E(ZX) − θ heißt Bias
oder Verzerrung. Man wünscht sich einen erwartungstreuen Schätzer.
10.2. Schätz- und Testverfahren
271
2. Z ist konsistent5 , wenn Z = Zn als Folge von Schätzern gesehen wird (abhängig von n),
und wenn für jedes positive der Grenzwert limn→∞ P (|Zn (X1 , . . . , Xn ) − θ| > ) = 0
ist. Man kann zeigen, daß es dazu ausreicht, daß limn→∞ V (Zn (X1 , . . . , Xn )) = 0 ist.
3. Der erwartungstreue Schätzer Z ist effizienter als der erwartungstreue Schätzer Z 0 ,
falls für die Varianzen V (ZX) < V (Z 0 X) gilt. Man wünscht sich möglichst effiziente
Schätzer.
Beispiel 50 Konkrete Beispiele sollen folgen.
1. (Schätzung von p). Es soll das Bernoulliexperiment, wo genau das auch getan wurde
(Beispiel 46) in einer Anwendung gezeigt werden: Um laufend die Produktionsgüte eines Betriebes zu testen, werden üblicherweise regelmäßig 5 Stück aus jeder Lieferung
genommen und getestet. Im einfachsten Fall soll lediglich die Tauglichkeit geprüft werden und sieht sich veranlaßt, einfachheitshalber anzunehmen, daß p% fehlerhafte Stücke
produziert werden. Deshalb werden pro Woche (oder Monat) die Anzahl der fehlerhaften Stücke gezählt. Es entsteht eine Zahlentabelle, bei der übungshalber 30 Lieferungen,
also 150=100%, betrachtet werden sollen.
Eine Strichliste oder Urliste entsteht, und schließlich die
rechts abgebildete Häufigkeitstabelle, deren Spalten angeben, wie viele Fünferauswahlen jeweils 0–5 fehlerhafte
Stücke enthalten.
0
5
1
3
2
5
3
2
4
1
5
0
Als Ereignisraum Ω nehmen wir die Menge aller erzeugten Stücke innerhalb eines festen
Zeitraumes. Die Zufallsvariable X : Ω → R soll durch X(ω) := 1, falls ωP
defekt, und
1
Null sonst sein. Würde man alle Elemente in Ω testen, so hätte man p = |Ω|
ω∈Ω X(ω).
Da wir lediglich die Stichprobe von 150 Stück testen, ist uns bestenfalls ein Näherungswert p̂ zugänglich. Wie zu erwarten, wird man dies durch die Häufigkeit eines Fehlers
in unseren Proben tun. Dabei wird durchaus geschwindelt: Die 150 Stück werden im
Vergleich zur Produktion so klein angesehen, daß man bei der Entnahme der Proben
keine Beeinflussung von p annimmt.
In diesem Sinne ist Z(x1 , . . . , xn ) := |{i|xni =1}| eine auf dem Rn definierte Funktion,
die als Schätzer benützt werden soll, die bis auf das n mit dem Ausdruck in Glg.(9.1)
übereinstimmt. In unserem Fall ist n = 150 und als Schätzung für θ := p bekommt man
mittels der obigen Häufigkeitstabelle
p̂ := Z(x1 , . . . , x150 ) =
5+3+5+2+1+0
7
=
≈ 0.093.
150
75
2. (Messwerte). In Fortsetzung der Anwendung des zentralen GWSes (nach Anmerkung
48) beim physikalischen Praktikum“ behandeln wir die Messung einer skalaren Größe,
”
etwa einer Länge l.
Angenommen, es werden 10 Messungen gemacht und systematische Fehler ausgeschlossen:
5
andere Bezeichnung: asymptotisch erwartungstreu.
272
Statistik
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Welche W-theoretische Deutung ist möglich? Welche Stichprobenfunktion bildet man?
Nun faßt man die Länge als Zufallsvariable auf, definiert auf Ω := R. Wäre die exakte
Länge bekannt, so wäre die Verteilung F von X durch F (x) = 0 für x < l und F (x) = 1
für l ≤ x. Um Messfehler berücksichtigen zu können, fasst man die zehn Messungen als
Realisationen von 10 wie X verteilten Zufallsvariablen auf.
1 P10
Antwort: Danach bildet man die Stichprobenfunktion Z(x1 , . . . , x10 ) := 10
i=1 xi , eine
Funktion von R10 → R.
Ist dieses Z erwartungstreu?
Die Zufallsvariable
10
1 X
Z(X1 , . . . , X10 ) :=
Xi
10
i=1
erweist sich als erwartungstreu, weil
10
10
i=1
i=1
1 X
1 X
E(Xi ) =
E(X) = E(X) = l,
E(Z(X1 , . . . , X10 )) =
10
10
diePvon uns gesuchte Länge ist. Das Gleiche gilt für beliebiges n, also für Z(X1 , . . . , Xn ) =
n
1
i=1 Xi .
n
P
Ist Z(X1 , . . . , Xn ) = n1 ni=1 Xi konsistent?
P
Zunächst gilt wegen E(Xi ) = E(X) = µ die Gleichung E(Z(X1 , . . . , Xn )) = n1 ni=1 E(Xi ) =
E(X) = µ. Nun ergibt die Ungleichung von Tschebischeff (Anmerkung 45), indem man
dort statt X unser Z einsetzt:
P (|Z − E(Z)| ≥ ) ≤
V (Z)
.
2
Wenn für wachsendes n der Ausdruck auf der rechten Seite gegen
PNull geht, ist die
Konsistenz erfüllt. Um dies zu zeigen, soll zunächst V (Z) = V ( n1 ni=1 Xi ) berechnet
werden, wobei wegen der Annahme der Unabhängigkeit der wie X verteilten Zufallsvariablen Xi Anmerkung 37 gilt, sodaßE(Xi Xj ) = E(Xi )E(Xj ) = E(X)2 = µ2 berücksichtigt werden kann:
P
V (Z) = E(Z 2P
) − E(Z)2 = P
E(( n1 ni=1 Xi )2 ) − µ2
= n12 E( ni=1 Xi2 + 2 1≤i<j≤n
Xi Xj ) − µ2
n
= n12 nE(X 2 ) + 2 2 µ2 − µ2
= V (X)
n .
Somit enthält die rechte Seite in der Tschebischeffschen Ungleichung den Faktor n1 , der
die gewünschte Konvergenz gegen Null bei n → ∞ bewirkt.
Welche Schätzung ergibt sich für l unter Anwendung des vorgestellten W-theoretischen
Konzepts?
10.2. Schätz- und Testverfahren
273
Antwort: Man setzt die zehn Meßwerte (n = 10) in den Schätzer ein. Eine numerisch
sinnvolle Methode besteht in folgender Rechnung
10
x̄ :=
1 X
1
1
xi = 13+ (0.1−0.1+0.0−0.1+0.2+0.1−0.1+0.1−0.2+0.1) = 13+
= 13.01
10
10
100
i=1
Anmerkung: Auf die Physikpraktikumsübliche Angabe eines Meßfehlers soll in 3. eingegangen werden.
3. (Schätzung von µ bzw. σ für eine Verteilung). Die Tabelle aus dem vorigen Beispiel
soll jetzt folgende Deutung haben: Aus einer Population soll durch die zehnelementige Stichprobe auf den Mittelwert und die Varianz geschlossen werden. Mit ähnlichen
Rechnungen wie vorher zeigt man:
P
(a) Die Schätzfunktion Stichprobenmittel Z(x1 , . . . , xn ) := n1 ni=1 xi (bei uns ist n =
10) ist konsistent und erwartungstreu. Ist die unbekannte Verteilung eine N (µ, 1)Normalverteilung, so ist sie auch eine effizienteste. Die Abkürzung x̄ ist für das
Stichprobenmittel, und X̄ := ZX.
1 Pn
2
(b) Die Schätzfunktion Stichprobenvarianz Z(x1 , . . . , xn ) := n−1
i=1 (xi − x̄) ist
konsistent und erwartungstreu.
Wo kommt das (n − 1) in der Formel für die Stichprobenvarianz her?
1 Pn
2
Antwort: Man betrachtet die Zufallsvariable ZX = n−1
i=1 (Xi − X̄) , in der X̄ :=
P
P
P
n
n
n
1
1
2
2
2
i=1 Xi ist. Es ist E( n−1
i=1 (Xi − X̄) ) =
i=1 (E(Xi ) + E(X̄ ) − 2E(Xi X̄)) =
n
2
2
nE(X 2 ) +nE(X̄ 2 ) − 2nE(X̄ 2 ) = n(E(X
ähnlich wie im vorigen Beispiel
Pn ) − E(2X̄ ). Die
1
2
laufende Rechnung E(X̄ ) = n2 E(( i=1 Xi ) ) = n12 (nE(X 2 ) + n(n − 1)E(X)2 und
Einsetzen ergeben
!
n
1 X
(Xi − X̄)2 = E(X 2 ) − E(X)2 = V (X).
E
n−1
i=1
Das (n − 1) braucht man für die Erwartungstreue!
Welcher Schätzwert σ̂ ergibt sich für die Standardabweichung aus der Tabelle?
Antwort: Es ist n − 1 = 9 und somit kann man unter Benützung von x̄ = 13.01 aus
dem vorigen Beispiel
10
1X
1
σ̂ =
(xi −13.1)2 = (0.092 +0.112 +0.012 +0.112 +0.192 +0.092 +0.112 +0.092 +0.932 +0.092 ) ≈ 0.0166,
9
9
2
i=1
also ist σ̂ ≈ 0.13.
Wie lautet daher die Physikpraktikumsgerechte Antwort auf die Frage, wie lang das l
ist?
Antwort: Es ist l ≈ µ̂ ± σ̂ ≈ 13.0 ± 0.1. Dabei ist µ̂ das Stichprobenmittel und σ̂ 2 die
Stichprobenvarianz, wie oben erklärt.
274
Statistik
Anmerkung 51 (Maximum Likelihood Schätzer - R.A.Fisher). Es sei X eine Zufallsvariable, bei der man Grund zur Annahme hat, daß sie eine Verteilungsdichte (oder im
Falle einer diskreten Verteilung Wahrscheinlichkeitsfunktion) f (x, θ) mit θ ∈ Θ ⊆ Rn hat,
kennt aber den Parameter θ nicht. Gesucht wird eine plausible Schätzung θ̂.
Man verschafft sich durch Messung eine Stichprobe (x1 , . . . , xn ), die als Realisierungen
unabhängiger identisch wie X verteilter unabhängiger Zufallsvariabler aufgefaßt werden
kann.
Deshalb hat die gemeinsame Verteilungsdichte der Zufallsvariablen (X1 , . . . , Xn ) die
Gestalt
n
Y
L(x, θ) :=
f (xi , θ).
i=1
Die Idee, einen Schätzer zu konstruieren, besteht darin, die vorgelegte Stichprobe als
wahrscheinlichste Beobachtung“ zu interpretieren, m.a.W., θ̂ so zu wählen, daß das
”
Maß dafür, der Wert von L, möglichst groß wird, wenn man an der Stelle (x1 , . . . , xn )
auswertet.
Als Maximum Likelihood Schätzer, kurz MLS, bezeichnet man jene Wahl einer Funktion
Z(x1 , . . . , xn ), die als Lösung der Funktionalgleichung
L(x1 , . . . , xn , Z) = max{L(x1 , . . . , xn , θ) | θ ∈ Θ}
gefunden wird.
Unter geeigneten Glattheitsbedingungen von L und wenn das Maximum für jede Wahl
der xi eindeutig ist, kann man die einfachere Gleichung
∂
L(x1 , . . . , xn , θ) = 0
∂θ
nach den θ auflösen, sodaß θ = Z(x1 , . . . , xn ) der gesuchte Schätzer ist. (Ähnliches gilt,
falls θ ∈ Rd ist).
Unter geeigneten Glattheitsbedingungen an f kann man zeigen, daß der MLS konsistent
ist, er ist jedoch nicht immer erwartungstreu bzw. am effizientesten.
Beispiel 52 Beispiele hiezu:
1. Es sei p die nicht näher bekannte Wahrscheinlichkeit für das Eintreten eines Ereignisses.
Es sei möglich, das Bernoulliexperiment (Beispiel 46) auszuführen, d.h. man setzt X :
Ω → {0, 1} gleich 1, wenn das Ereignis eintritt, und Null sonst, und geht davon aus,
daß man n-mal unabhängig voneinander durch Experiment den Ausgang des Ereignisses
feststellen kann. Man bekommt somit eine Stichprobe (x1 , . . . , xn ) ∈ {0, 1}n . Gesucht
ist ein MLS für p.
P
Wie in Beispiel 46 ausgeführt, ist S := ni=1 xi verteilt gemäß L(x1 , . . . , xn , p) = pS (1−
p)n−S . Differenzieren nach p und Nullsetzen ergibt 0 = SpS−1 (1 − p)S−1 − (1 − S)pS (1 −
p)−S , woraus sich S(1 − p) = p(n − S) wird, und man schließlich auf das schon in
10.2. Schätz- und Testverfahren
275
Beispiel 46, bzw. Beispiel 50 2. gefundene Stichprobenmittel
S(x) = Z(x1 , . . . , xn ) =
1
(x1 + · · · + xn )
n
kommt.
2. Es sei X : Ω → R eine auf dem Intervall [a, b] gleichverteilte Zufallsvariable (Beispiel 28
3.). Gesucht ist ein MLS für die Parameter a, b, falls man eine Stichprobe (x1 , . . . , xn ) ∈
Rn hat.
1
Die Verteilungsdichte ist b−a
, falls x ∈ [a, b) ist, und sonst Null. Somit ergibt sich
1
L(x1 , . . . , xn , a, b) = (b−a)n falls alle xi ∈ [a, b) sind, und Null sonst. Die Funktion ist
bezüglich (a, b) nicht differenzierbar, nimmt aber ihr Maximimum dort an, wo b − a
unter der Bedingung (∀i)xi ∈ [a, b) minimal wird, und das passiert für b − a = max{xi |
i = 1, . . . , n} − min{xi | i = 1, . . . , n} der Fall. Somit sind b̂ := max{xi | i = 1, . . . , n}
und â := min{xi | i = 1, . . . , n} Schätzwerte. Der Schätzer ist nicht erwartungstreu.
3. Es sei X : Ω → R eine auf R+ bezüglich einer Exponentialverteilungsdichte (Beispiel
43) f (x, λ) := λe−λx verteilte Zufallsvariable. Es sei möglich, n Stichproben durch
unabhängige Versuche zu ermitteln. Man ermittle einen MLS für λ.
Pn
Die Maximum Likelihood Funktion ist L(x1 , . . . , xn , λ) = λn e−λ i=1 xi , die für λ = 0
verschwindet. Durch Differenzieren P
nach dem Parameter λ ergibt sich zunächst 0 =
nλn−1 e−λS − λn Se−λS , wobei S := ni=1 xi . Elementare Rechnung ergibt den MLS
n
Z(x1 , . . . , xn ) := Pn
i=1 xi
10.2.2
.
Intervallschätzung
Es sei X : Ω → Rk eine Zufallsvariable, deren Dichte die Gestalt f (x, θ) mit x ∈ Rk und
θ ∈ Θ ⊆ R ist. Die Gestalt dieser Verteilungsfunktion ergibt sich aus einer Annahme, die in der
konkreten Situation gemacht werden kann. Allerdings ist θ nicht bekannt, und man versucht
eine Näherung θ̂ aus einer Stichprobe zu finden. Im vorigen Abschnitt wurden Punktschätzer
hiezu verwendet.
Ist der Stichprobenumfang (das n) im Verhältnis zur Gesamtheit klein, so kann die Konsistenz eines Schätzers, nämlich, daß mit Wahrscheinlichkeit Eins die Schätzwerte bei n → ∞
gegen den korrekten Parameter konvergieren, nicht in quantitativer Form in Anspruch genommen werden – man weiß nicht wirklich wie nahe θ̂ am gesuchten θ dran ist.“ Deshalb
”
verzichtet man bei der Methode der Intervallschätzung auf die Berechnung eines solchen
Näherungswertes, sondern macht eine wahrscheinlichkeitstheoretische Aussage über die Lage
von θ indem man folgende Prozedur anwendet:
1. Zunächst wird eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, kann
bei heiklen Problemen auch wesentlich kleiner sein) vorgegeben.
2. Als nächstes bestimmt man Stichprobenfunktionen θ, θ : (Rk )n → R, derart, daß
θ(x1 , . . . , xn ) ≤ θ(x1 , . . . , xn ) für alle i und xi ∈ Rk gilt.
276
Statistik
3. Die beiden Funktionen geben Anlaß, Zufallsvariable θX und θX ins Spiel zu bringen,
für die bei konkreter Stichprobe x = (x1 , . . . , xn ) ∈ (Rk )n Realisierungen θ(x) und θ(x)
vorliegen.
Für diese beiden Zufallsvariablen wünscht man sich die Garantie
P ({ω | θX(ω) ≤ θ ≤ θX(ω)}) > 1 − α.
4. Hat man diese theoretische Vorarbeit“, nämlich 1.–3. geleistet, ermittelt man mittels
”
der vorliegenden Stichprobe x = (x1 , . . . , xn ) Werte θ(x) und θ(x) und hat die Garantie:
Die Wahrscheinlichkeit dafür, daß der gesuchte Parameter θ im Intervall [θ(x), θ(x]
”
liegt, ist zumindest 1 − α. “
Vorteil: erhöht man n, die Anzahl der Messungen, so passen sich die Intervallschranken
an, mit hoher Wahrscheinlichkeit werden sie dabei enger“.
”
5. Die Normalverteilung spielt immer dann eine Rolle, wo die Zufallsvariable annähernd
normalverteilt angenommen werden darf:
(a) Die Binomialverteilung B(n, p) (siehe Beispiel 40) ist es (in der Praxis), wenn
9
n > p(1−p)
(vgl. Satz von De Moivre-Laplace gleich nach Anmerkung 48).
(b) Das Gaußsche Fehlergesetz kommt bei wiederholtem Messen zum Einsatz (vgl.
Anmerkung 48 und dort das Beispiel zum Physikpraktikum.
Beispiel 53 Im Nachfolgenden die häufigsten Situationen von Intervallschätzungen.
1. (Schätzen einer unbekannten Wahrscheinlichkeit p)
Jemand hat n = 10000 mal (in unabhängiger Weise) Proben einer Produktion gezogen,
dabei 300 Fehler gefunden und p̂ := 3 × 10−3 als Näherung für die Wahrscheinlichkeit p
des Auftretens von Fehlern angenommen. Nun soll zu α := 0.1 als Irrtumswahrscheinlichkeit ein p̂− ≤ p̂+ gefunden werden, sodaß P (p− < p < p+ ) ≥ 1 − α, m.a.W., daß mit
90%-iger Wahrscheinlichkeit, die gesuchte Wahrscheinlichkeit p im Intervall (p− , p+ )
liegt.
9
Antwortfindung: Die oben zitierte Faustregel besagt 10000 > p(1−p)
, und für p̂ =
−3
3 × 10
ist das sichtlich der Fall. Allerdings, das ist der Näherungswert, das p ist
unbekannt. Gegen Ende von Beispiel 46 wurde die gleiche Fragestellung mittels der
Ungleichung von Tschebischeff behandelt und
P (0 ≤ p ≤ 8 × 10−3 ) > 0.90
(10.1)
gefunden, also, daß mit 90%-iger Wahrscheinlichkeit p im angegebenen Intervall liegt.
9
Leider ist für p so nahe an Null die Arbeitshypothese n > pq
nicht erfüllt.
Es ist jede der n Variablen Xi (zufälliges Ziehen von Proben mit Zurücklegen) mit nicht
√
näher bekannter Wahrscheinlichkeit p und Standardabweichung σ = pq verteilt (wir
wissen das aus Beispiel 35 3.) verteilt. Nun besagt der zentrale GWS unter Zuhilfenahme
√
√
√
√
von Beispiel 44 4., daß X̄−µ
n = X̄−p
n approximativ N (0, 1)-verteilt ist.
pq
pq
10.2. Schätz- und Testverfahren
277
Um die Methode gut zu verstehen, brauchen wir in Kürze die Ungleichung
in etwas anderer Form beschrieben, nämlich
|X̄−p| √
√
n
pq
<z
6
p ∈ (p̂− (ω), p̂+ (ω)),
wobei p̂− (ω) ≤ p̂+ (ω) die Lösungen der quadratischen Gleichung
z2
z2
2
− 2X̄(ω) +
p + X̄ 2 (ω) = 0
p 1+
n
n
sind.
Anwendung des zentralen GWS (De Moivre-Laplace, vgl. unmittelbar nach Anmerkung
√
48) ergibt wegen Beispiel 44 6. P (| X̄−p
n| < z) ≈ 2Φ(z) − 1 ≈ 1 − α. Lösen der letzten
σ
α
dieser Gleichungen ergibt das 1 − 2 -Quantil z1− α2 .
Dieses z = z1− α2 und ein durch Messung ermitteltes p̂ = X̄ = nk werden in die obige
quadratische Gleichung gesteckt, um danach konkrete Schätzwerte für p mit Vertrauensgrenze 1 − α zu finden, m.a.W., man p− ≤ p+ als Lösungen von
z2
z2
2
p 1+
− 2p̂ +
p + p̂2 = 0.
(10.2)
n
n
Und gibt es jetzt endlich eine Antwort auf die letzte Frage in Beispiel 46, nämlich,
ob die Glg.(10.1) angegebene Schätzung durch Approximation von B(n, p) durch eine entsprechende Normalverteilung verbessert werden kann? Sind die im Satz von De
Moivre-Laplace (gleich nach Anmerkung 48) genannten Approximationsbedingungen
np > 4 und nq > 4 erfüllt?
300
Ja. Es ist p̂ = nk = 10000
= 3 · 10−3 und einer Φ-Tabelle (z.B. in [4]) entnimmt man
z1− 0.1 = z0.95 ≈ 1.645 für die Normalverteilung N (0, 1). Die quadratische Gleichung
2
wird zu
p2 (1 + 2.7 · 10−3 ) − (2 · 3 · 10−3 + 2.7 · 10−5 )p + 9 · 10−10 = 0,
deren Lösungen (etwa mittels MAPLE) auffindbar sind:
> fsolve({p^2*(1+2.7*10^(-3))-(2*3*10^(-3)+2.7*10^(-3))*p+9*10^(-6)=0},{p});
{p = 0.002767527675}, {p = 0.003243243243}
(Lang ersehnte) Antwort: Mit 90%-iger Sicherheit darf gesagt werden, daß die gesuchte
Wahrscheinlichkeit p im Intervall [2.7 · 10−3 , 3.3 · 10−3 ] liegt. Diese Aussage ist präziser
als jene in Glg.(10.1). Es ist n = 104 , p > 2.7 · 10−3 und q = 1 − p > 0.5, also sind die
genannten Approximationsbedingungen erfüllt.
6
2
z
n
Die völlig elementare Herleitung geht so:
p−
2
z
n
p2 ⇔ obige Bedingung.
|X̄−p| √
√
n
pq
< z ⇔ (X̄ − p)2 <
z2
(p(1
n
− p) ⇔ p2 − 2pX̄ + X̄ 2 <
278
Statistik
Wie lauten die in der Einleitung zu diesem Unterabschnitt 10.2.2 genannten Stichprobenfunktionen θ und θ des Intervallschätzers? Welchen Wert hat k?
Antwort: Es ist k = 1, weil die gesuchte Variable p ein Skalar ist. Die oben gebildeten
Zufallsvariablen p− , p+ : Ω → R sind die gesuchten Schätzfunktionen θ, θ. Man findet
sie als Lösungen der quadratischen Glg.(10.2) für p, explizit hat man mit dem aus der
Gleichung 2Φ(z) − 1 = 1 − α gefundenen z := z1− α2 die reellen Funktionen
2
θ(x) :=
z
x̄+ 2n
2
(1+ zn )
+
z
2
(1+ zn )
q
z2
4n2
−
z
2
(1+ zn )
q
z2
n3
2
θ(x) :=
z
x̄+ 2n
2
(1+ zn )
+
+
x̄−x̄2
n
(10.3)
x̄−x̄2
n .
In der Praxis geht man gelegentlich davon aus, daß p ≈ x̄q
ist, also mit 100×(1−α)%-iger
Wahrscheinlichkeit p ∈ (x̄ − , x̄ + ) liegt, wobei :=
z
2
x̄(1−x̄)
n
ist. An Glg.(10.3) er-
z2
n
gegenüber x̄ vernachlässigen kann. Will man mit
kennt man, daß das geht, wenn man
der Theorie im Einklang leben, empfiehlt sich die etwas kompliziertere Form Glg.(10.3)
des Schätzers, in der für die im allgemeinen mäßig großen z die numerische Stabilität“
”
ganz gut berücksichtigt worden ist.
Wie würde man Glg.(10.3) verwenden, um ein Intervall (p− , p+ ) zu finden?
Antwort: Es ist x̄ = nk = 3 · 10−3 die relative Häufigkeit (jene die gemessen worden ist).
Das z = z1− 0.1 wurde schon oben zu 1.645 bestimmt. Danach setzt man in Glg.(10.3)
2
ein und findet das in der Antwort zur vorigen Frage angegebene Intervall.
2. (Schätzung von unbekanntem µ bei bekanntem σ für eine N (µ, σ)-verteilte
Zufallsvariable X : Ω → R.)
Von einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R kennt man einen groben
Richtwert der Streuung σ (etwa als Erfahrungswert). Weiters liegt eine Realisierung
von (X1 , . . . , Xn ) : Ω → Rn vor, konkret gesagt, man hat eine Tabelle (x1 , . . . , xn ) ∈ Rn
von Messungen. Wie kann bei Vorgabe einer Irrtumswahrscheinlichkeit α ein Intervallschätzer θ, θ für µ konstruiert werden?
P
Antwort(findung): Die Stichprobenfunktion X̄ := n1 ni=1 Xi : Ω → R ist wegen Beispiel
2
44 N (µ, σn )-verteilt. Deshalb ist
X̄ − µ √ P n < z = Φ(z) − Φ(−z) = 2Φ(z) − 1.
σ
Ähnlich wie im vorigen Beispiel ist es nützlich, die Ungleichung auf der linken Seite in
äquivalenter Form als
zσ
zσ
X̄ − √ ≤ µ ≤ X̄ + √
n
n
zu lesen. Nun, auch ähnlich wie im vorigen Beispiel, ermittelt man eine Lösung z = z1− α2
der Gleichung 2Φ(z) − 1 = 1 − α.
10.2. Schätz- und Testverfahren
279
Antwort:
Es ist unter Verwendung der Funktion x̄ : Rn → R, definiert durch x̄(x1 , . . . , xn ) :=
1 Pn
i=1 xi das Paar
n
zσ
zσ
θ(x) = x̄(x) − √ , θ(x) = x̄(x) + √
n
n
ein Intervallschätzer, wobei z = z1− α2 das 1 − α2 -Quantil der Normalverteilung, also
die Lösung von Φ(z) = 1 − α2 ist. Demnach hat man eine 100 × (1 − α)%-ige Garanzσ
zσ
, x̄(x) + √
) liegt, wobei x die Tabelle der (durch
tie, daß µ im Intervall (x̄(x) − √
n
n
Zufallsexperiment) ermittelten Werte von X ist.
Es sei die Tabelle aus Beispiel 50 2. gegeben. Weiters sei bekannt, daß die Streuung
der Längenmessung (z.B. wegen der verwendeten Methode) bei 0.1 Einheit liegen kann
und man mache die Annahme, daß der Fehler normalverteilt ist (etwa aufgrund des
Fehlergesetzes). Man gebe für eine Irrtumswahrscheinlichkeit von α := 0.01 und α = 0.1
jeweils ein Konfidenzintervall für die zu messende Länge l an.
Antwort: Zunächst findet man für x̄(x) (das meist schlampig“ mit x̄ abgekürzt wird)
”
den Wert 13.01 (wurde in Beispiel 50 2 schon ausgerechnet). Es ist n = 10, und z =
z1− 0.01 = z0.995 = 2.576 aus einer Tabelle für Φ ([4], S 61 ff). Die simple Rechnung
2
liefert 99%-ige Sicherheit für l ∈ (13.01 − 0.081, 13, 01 + 0.081), also l ∈ (12.9, 13.1).
Für α = 0.1 findet man z = z0.95 = 1.645. Die analoge Rechnung liefert, daß l mit
90%-iger Sicherheit im Intervall (13.01 − 0.052, 13.01 + 0.052) = (12.96, 13.062) liegt.
Anmerkung: Im Physikpraktikum wird mit Recht darauf hingewiesen, daß die Erhöhung
der Anzahl n ab ca n = 10 eher nur langsam das Intervall verkleinert, weil der Funktionsgraph von √1n für große n flach“ verläuft.
”
Im Weiteren benötigen wir noch zwei Verteilungen, die beide mittels der Gammafunktion
definiert werden.
Anmerkung 54 Die Gammafunktion ist für positive x durch
Z ∞
Γ(x) :=
e−t tx−1 dt
0
definiert.
Beispiel 55 (χ2n -Verteilung) Die Dichte der χ2n -Verteilung (mit n Freiheitsgraden) ist durch
(
0
x≤0
f (x) :=
1
−x/2
n/2−1
e
x
x>0
2n/2 Γ(n/2)
R∞
definiert. Dabei ist Γ(x) die für x > 0 definierte Gammafunktion Γ(x) := 0 e−t tx−1 dt. Man
kann E(X) = n und V (X) = 2n zeigen (etwa in [6]). Der Freiheitsgrad“ n kommt daher,
”
daß man für n unahbhängige
N (0, 1)-verteilte Zufallsvariable Xi : Ω → R zeigen kann, daß
Pn
die Zufallsvariable i=1 Xi2 : Ω → R eine χ2 -Verteilung in n Freiheitsgraden hat. Die Ideee
der Herleitung ist ähnlich, wie im Falle der Gleichverteilung in Beispiel 35 2.
280
Statistik
Beispiel 56 (tn -Verteilung oder Studentverteilung7 ) Die Dichte einer tn -verteilten Zufallsvariablen X : Ω → R ist durch
−(n+1)/2
1 Γ((n + 1)/2)
x2
fX (x) := √
1+
Γ(n/2)
n
nπ
n
gegeben. Sie ist symmetrisch bezüglich µ = E(X) = 0 und für n ≥ 3 ist V (X) = n−2
. Im
weiteren wird noch benötigt werden, daß für eine N (0, 1)-verteilte Zufallsvariable X und eine
χ2n -verteilte Zufallsvariable Y der Quotient √X eine tn -Verteilung hat.
Y /n
Anmerkung 57 Die Anwendung von tn - und χ2n -Verteilung beruht auf folgenden Fakten
für eine beliebige, reellwertige N (µ, σ)-verteilte Zufallsvariable X:
• Das Stichprobenmittel
n
1X
Xi
X̄ =
n
i=1
ist für unabhängig durchgeführte Experimente N (µ, √σn )- verteilt (siehe Beispiel
44).
• Die normierte Stichprobenvarianz
n
1 X
(Xi − X̄)2
Y := 2
σ
i=1
erweist sich als χ2n−1 -verteilt. Das ist deshalb interessant, weil die Stichprobenvarianz
n
1 X
S :=
(Xi − X̄)2
n−1
2
i=1
in der Gleichung
Y =
(n − 1)S 2
σ2
vorkommt.
• Die Stichprobenfunktion
X̄ − µ √
√
n,
S2
(welche erwartungstreuer und konsistenter Schätzer der normierten Zufallsvariablen
√
Z = X̄−µ
n ist – das Z ist wie im zentralen GWS Anmerkung 48), ist tn−1 -verteilt.
σ
• Quantile von N (0, 1), χ2n−1 und der tn−1 -Verteilung sind für viele Werte n tabelliert
(z.B. in [1]), bzw. in Statistiksoftware, wie z.B. R, zugänglich.
7
Sie wurde von W.S. Gosset auf empirischem Weg gefunden und er hat sie unter dem Pseudonym Student“
”
1908 publiziert, da er von seiner Firma keine Erlaubnis hatte, sie unter eigenem Namen zu veröffentlichen.
10.2. Schätz- und Testverfahren
281
Beispiel 58 Nun zu Schätzungen von σ bzw. µ, bei denen man χ2n−1 und tn−1 benützt.
1. (Schätzung von µ bei Unkenntnis von σ für eine N (µ, σ)-verteilte Zufallsvariable)
Es sind für vorgegebene Irrtumswahrscheinlichkeit α Stichprobenfunktionen θ : Rn → R
und θ : Rn → R für µ (vgl. den Beginn, Unterabschnitt 10.2.2) gesucht, wobei über σ
nichts bekannt ist, derart daß durch nach n-maligem unabhängigen Zufallsexperiment
vorliegendem Datenmaterial x = (x1 , . . . , xn ) ∈ Rn mit Konfidenzniveau (1 − α) die
Aussage
P (µ ∈ (θ(x), θ(x)) ≥ 1 − α
getroffen werden kann.
√
Antwort(findung): Wie in Anmerkung 57 ausgeführt, genügt X̄−µ
n einer tn−1 -Verteilung.
S
Ist (der Kürze halber) F die Verteilungsfunktion (die für viele n tabelliert vorliegt), so
hat man in Analogie zu Beispiel 53, 2.
P (|
X̄ − µ √
n| < z) = F (z) − F (−z) = 2F (z) − 1 = 1 − α,
S
wobei letzteres wegen der Symmetrie der Dichtefunktion von tn−1 gilt (vgl. hiezu die
an Beispiel 44 6. anschließende Erklärung). Nun besorgt man sich mittels Tabelle der
tn−1 -Verteilung ([4]. S.61 ff) die Lösung z = z1− α2 der Gleichung F (z) = 1 − α2 .
Die gleiche Umformung der Ungleichung auf der linken Seite wie in Beispiel 53 2. ergibt
zS
zS
P (µ ∈ (X̄(ω) − √ , X̄(ω) + √ )) ≥ 1 − α.
n
n
P
1 Pn
2
Antwort: θ(x) = x̄ − √zsn , θ(x) = x̄ − √zsn , wobei x̄ := n1 ni=1 xi , s2 = n−1
i=1 (xi − x̄) ,
α
und z die Lösung von Tn−1 (z) = 1 − 2 ist (Tn−1 die Verteilungsfunktion der tn−1 Verteilung).
Wie in Beispiel 53 2., soll das unbekannte µ aus der Meßtabelle von Beispiel 50 2.
analog wie dort für Irrtumswahrscheinlichkeiten α ∈ {0.01, 0.1} geschätzt werden, wo
es um die Länge l einer als normalverteilten Zufallsvariablen (weil mit Fehler behaftet
– vgl. den Abschnitt nach Anmerkung 48) ging.
Antwort(findung): Der Bequemlichkeit halber sei die Meßtabelle nochmals angeführt.
Aus ihr ging hervor, daß n = 10 und x̄ = 13.01 war.
13.1
12.9
13.0
12.9
13.2
13.1
12.9
13.1
12.8
13.1
Es ist s̄2 = 19 (4×0.092 +3×0.112 +0.192 +0.212 +0.012 ) ≈ 1.65×10−2 . also s̄ = 1.3×10−1 .
Nun wird das 1 − α2 Quantil der t9 -Verteilung bestimmt, es ergibt sich aus einer Tabelle
(z.B. in [4] S 61 ff)
z9;1− 0.01 = z9;0.995 ≈ 3.250 z9;1− 0.1 = z9;0.95 ≈ 1.833.
2
2
282
Statistik
Dementsprechend ergibt sich der Term
−2
zs̄
√
n
zu
−2
3.250×3.96×10
√
10
≈ 4.07 × 10−2 ≈ 0.041
√
für α = 0.01 und zu 1.833×3.96×10
≈ 0.023 für α = 0.1. Entsprechend ergeben sich als
10
zs̄
zs̄
√
√
Intervalle (s̄ − n , s̄ + n ) im 1.ten Fall (12.93, 13.08) und im 2.ten Fall (12.94, 13.14).
Antwort: Unter der Annahme einer N (µ, σ)-Verteilung ist die Länge l mit 99%-iger Sicherheit im Intervall (12.93, 13.08), bzw. mit 90%-iger Sicherheit im Intervall (12.94, 13.14).
Die Normalverteilungsannahme ergibt somit ein klein wenig mehr Genauigkeit als Beispiel 53 2.
2. (Intervallschätzung für σ einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R
bei nicht bekanntem µ. ) Diese Schätzung ist vorallem dann interessant, wenn man
nur wissen will, ob die Meßwerte stark streuen.
Man bestimme Stichprobenfunktionen θ, θ : Rn → R, sodaß bei gegebener Irrtumswahrscheinlichkeit α und entsprechender Tabelle von n unabhängigen Meßdaten mit
Konfidenzniveau 1 − α die Varianz σ 2 im Intervall (θ(x), θ(x)) liegt.
Antwortfindung: Man will aus den Daten einen Näherungswert σ̂ von σ und ein z, sodaß
die Ungleichung
|σ 2 − σ̂ 2 | < z
mit P
Wahrscheinlichkeit ≥ 1 − α gültig ist. Es bietet sich die Stichprobenvarianz S 2 =
n
1
2
i=1 (Xi − X̄) an, weil sie erwartungstreu und konsistent ist, und nach Auswerten
n−1
mittels der Daten einen Schätzwert σ̂ 2 von σ 2 ergibt.
P
Wegen Anmerkung 57 ist Y := σ12 ni=1 (Xi − X̄) gemäß χ2n−1 verteilt. Deshalb ist
P (a ≤ Y ≤ b) = F (b) − F (a),
wobei F die Verteilungsfunktion von tn−1 ist. Da die Ungleichung a ≤ Y ≤ b wegen
2
1 Pn
2
Y = (n−1)S
(zur Erinnerung, S 2 = n−1
i=1 (Xi − X̄) ) in äquivalenter Form als
σ2
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
b
a
angeschrieben werden kann, ergibt sich
P(
(n − 1)S 2
(n − 1)S 2
≤ σ2 ≤
) = F (b) − F (a) = 1 − α,
b
a
sodaß man jede Lösung (a, b) von F (b) − F (a) = 1 − α zur Konstruktion eines Intervallschätzers heranziehen kann. Es ist gebräuchlich, b aus der Gleichung F (b) = 1 − α2
und a aus F (a) = α2 zu bestimmen. Das ist nicht die einzig mögliche Lösung, sie erfüllt
aber F (b) − F (a) = 1 − α.
Antwort: Eine (sehr gebräuchliche) Lösungsmethode ist wie folgt. Es seien b und a die
1 − α2 bzw. α2 Quantile der χ2n−1 -Verteilung. Danach bildet man in gewohnter Weise die
(n−1)s2
1 Pn
1 Pn
Funktionen s2 = n−1
i=1 (xi − x̄) (wobei x̄ := n
i=1 xi ) und findet θ(x) =
b
und θ(x) =
(n−1)s2
.
a
Hat man die konkreten Datenwerte x = (x1 , . . . , xn ) vorliegen, so
10.2. Schätz- und Testverfahren
283
wertet man die beiden Funktionen aus und kann sagen, daß σ 2 mit Wahrscheinlichkeit
≥ 1 − α in diesem Intervall liegt.
Es soll für die im vorigen Beispiel angegebene Meßreihe ein Konfidenzintervall mit
Irrtumswahrscheinlichkeit α = 0.1 bestimmt werden.
Antwortfindung: Wie eben gesagt, brauchen wir das α2 = 0.05 Quantil a, bzw. 1 − α =
0.95 Quantil b für die χ9 -Verteilung (weil es 10 Meßpunkte sind). Man findet a = 3.325
und b = 16.92 aus einer entsprechenden Tabelle ([4], S 61ff). Das s2 = 1.66 × 10−2
wurde schon im vorangehenden Beispiel bestimmt.
Die Intervallgrenzen ergeben sich zu
9×1.66×10−2
≈ 0.0448.
3.325
(n−1)s2
b
=
9×1.66×10−2
16.92
≈ 0.0088 und
(n−1)s2
a
=
Antwort: Die Varianz σ 2 liegt mit 90%-iger Sicherheit im Intervall (0.009, 0.045).
Es soll zum Abschluß eine mit 90%-iger Sicherheit geltende obere Grenze für σ 2 angegeben werden. (Es genügt mir, zu wissen, daß die Streuung i.A. nicht größer als dieser
Wert ist.)
Antwortfindung: Man braucht nur das a als Lösung der Gleichung F (a) = α = 0.1. Es
ergibt sich a = 4.168 aus der gleichen Tabelle der χ29 Verteilung. Danach ergibt sich das
−2
rechte Intervallende zu 9×1.66×10
≈ 0.036.
4.168
Antwort: Mit 90%-iger Wahrscheinlichkeit ist die Varianz σ 2 < 0.036 ist.
10.2.3
Statistische Testverfahren
Hier soll nur ein Einblick für 1-dimensionale Zufallsvariable bzw. Parametertests für 1parametrige Verteilungen behandelt werden.
1. Es sei eine Zufallsvariable X : Ω → R gegeben, über deren Verteilung eine Aussage,
die sogenannte Nullhypothese H0 vorliegt. (z.B. X hat einen Erwartungswert ≥ 50“,
”
konkreter Die Partei XY wird demnächst mindestens 50% der Parlamentssitze bekom”
men“) oder Die Strahlungskonzentration um die Unglücksstelle ist mit der Entfernung
”
exponentialverteilt mit Exponent λ > 50“.
Ein Testverfahren zur Widerlegung einer Nullhypothese im ersten Fall heißt Parametertest (hier wäre der Parameter θ := µ = E(X)), im anderen Fall spricht man vom Anpassungstest (nämlich ob die Meßdaten einer Exponentialverteilung angepaßt“ sind).
”
Beim Parametertest besteht die Nullhypothese in der Aussage θ ∈ Θ0“ (im obigen
”
Fall ist Θ0 = [50, ∞)) und die Alternativhypothese in θ ∈ Θ1“ für Parameterbe”
reiche Θ0 , Θ1 ⊆ R, von der man die Unvereinbarkeit mit H0 fordert (also z.B. H0 :
θ ∈ Θ0 := [45, 55]“ und H1 : θ ∈ Θ1 := [0, 30]“).
”
”
In abstrakter Fassung: Man weiß, FX ∈ F, einer Menge von Verteilungen. H0 bedeutet
die Aussage FX ∈ F0“ für eine gewisse Teilmenge F0 ⊂ F und H1 , daß FX ∈ F \ F0
”
ist.
Parametrische Form: F = {Fθ | θ ∈ Θ} und F0 = {Fθ | θ ∈ Θ0 }
284
Statistik
2. Grundsätzlich sollte H0 widerlegt werden (auch wenn das nicht immer der Fall ist)
und man gibt zunächst ein Signifikanzniveau α (meist in {0.1, 0.01, 0.001}, manchmal
auch kleiner) vor, nämlich dafür, daß man H0 im Zuge des Verfahrens ungerechtfertigt
verwirft (sogenannter Fehler 1.Art).
Nun konstruiert man eine Testfunktion T : Rn → R, deren Verteilung F unter der Annahme von H0 bekannt ist. Weiters wird ein Ablehnungsbereich oder kritischer Bereich
Kα ⊆ R konstruiert (meist ein Intervall), und zwar durch die Bedingung
P (T X ∈ Kα ) ≤ α,
wobei die bekannte Verteilung F zur Berechnung herangezogen
R ∞wird. Etwa, wenn f eine
Dichte der Verteilung F von T X ist, durch P (T X ∈ Kα ) = −∞ T (x)f (x) dx.
Abstrakt: Man konstruiert T : Rn → R, sodaß T X eine Verteilung F besitzt, die sich
für jedes F0 ∈ F0 mittels T berechnen läßt.
Im parametrischen Fall ist F = Fθ als Funktion von θ ∈ Θ0 ausdrückbar. Insbesondere
ist P = Pθ von diesem θ abhängig.
3. Es werden n unabhängige Messungen der Variablen X gemacht. Beschrieben wird das
durch einen Zufallsvektor X : Ω → X mit Realisierung x ∈ Rn (die gemessene Tabelle).
Danach wird mittels der konreten Stichprobe x ∈ Rn getestet: ist T (x) ∈ Kα (d.h., wenn
der Wert der Testfunktion im kritischen Bereich liegt), so lehnt man H0 ab, andernfalls
gilt sie als aufgrund des statistischen Befundes nicht abzulehnen.
4. Wird H0 aufgrund der Daten nicht verworfen, obwohl H0 falsch ist, begeht man einen
Fehler 2.Art.
Als Gütefunktion bezeichnet man g : F → [0, 1] definiert durch
8
g(F ) := PF (T X ∈ Kα )
Für F ∈ F0 ist g(F ) die Wahrscheinlichkeit dafür, einen Fehler 1.Art, für F ∈ F \F0 die
Wahrscheinlichkeit dafür, daß der Test das erkennt, m.a.W., daß auf F die Alternative
Hypothese H1 zutrifft und die Nullhypothese H0 zurecht verworfen wurde.
Die Einschränkung von g auf F0 heißt Irrtumswahrscheinlichkeit 1.Art, und 1 − g das
Konsumentenrisiko.
Die Einschränkung von g auf F \ F0 heißt Trennschärfe (auch Macht, Power) des
Testverfahrens und 1 − g Irrtumswahrscheinlichkeit 2.Art.
Auf die Gütefunktion soll hier nicht eingegangen werden. Siehe hiezu z.B. [6].
Beispiel 59 (Parametertests) Die einfache Nullhypothese lautet H0 : θ = θ0 . Dabei kann
θ eine Wahrscheinlichkeit, eine Streuung, etc. sein. Getestet wird üblicherweise gegen eine
der folgenden Alternativen H1 :
8
Es ist PF ((−∞, x)) = F (x), somit PF das von der Verteilungsfunktion bestimmte Maß.
10.2. Schätz- und Testverfahren
285
• θ 6= θ0 : wenn z.B. das Werkstück das Ausmaß θ0 und weder zu lang oder kurz sein darf;
• θ < θ0 : wenn z.B. θ0 die vom Werk behauptete Funktionsdauer eines technischen Geräts
ist;
• θ > θ0 : wenn z.B. θ0 die von der Firma behauptete Maximalzahl der Produktionsfehler
einer Lieferung ist;
1. Jemand möchte zeigen, daß eine Münze nicht regelmäßig ist, und möchte sie n mal
(unabhängig) werfen, um die Häufigkeit von K (Kopf), bzw. Z (Zahl) zu ermitteln
(ein Bernoulliexperiment, vgl. Beispiel 46). Dazu werde eine Irrtumswahrscheinlichkeit
α = 0.05 angegeben und, unter der Annahme daß man P ({K}) ∈ (0.4, 0.6) geschätzt
wird, soll die Wahrscheinlichkeit β einen Fehler 2.Art zu begehen, höchstens gleich 0.05
sein. Nach welcher Regel entscheidet man?
Antwortfindung:
Liegt ein parametrischer Test vor? Wie lauten Θ und θ, falls ja?
Antwort: Es liegt ein parametrischer Test mit θ = p ∈ Θ = [0, 1] als Parameter.
Wie formuliert man H0 und H1 ? Wie lauten Θ0 und Θ1 ?
Antwort: Man will die Nullhypothese H0 P ({K}) = 12 “ durch Experiment widerlegen.
”
Θ0 = { 21 }.
Als Alternativhypothese H1 wurde |p− 12 | ≥ 0.1“ formuliert. Demnach ist Θ1 = [0, 0.4]∪
”
[0.6, 1].
Wie können T und der Ablehnungsbereich konstruiert werden?
Antwort(findung): Wie bei allen Bernoulliexperimenten ist lediglich das Eintreten eines
Ereignisses (hier K) von Interesse und somit beobachtet man die Zufallsvariable X :
Ω = {K, Z} mt Wert 1 oder 0, je nachdem, ob K oder Z kommt. Entsprechendes nfaches unabhängiges Werfen
wird durch den Zufallsvektor X : Ω → {0, 1}n beschrieben
1 Pn
und danach ist X̄ := n i=1 Xi : Ω → R jene Zufallsvariable, die nach Auswerten
der Meßergebnisse
die relative Häufigkeit kn0 annimmt. Sie gibt Anlaß, die Funktion
1 Pn
T (x) := n i=1 xi : Rn → R als Testfunktion heranzuziehen.
Den Ablehnungsbereich Kα besorgen wir uns ähnlich, wie man ein Konfidenzintervall
konstruiert: Es genügt z ≥ 0 mit P (|X̄ − 21 | ≥ z) = α = 0.05 anzugeben. Weil |X̄ − 21 | ≥
z ⇔ −z ≤ X̄ − 12 ≤ z ist, ergibt sich
1
1
P (|X̄ − | > x) = 1 − P ((|X̄ − | ≤ x) = 1 − (FX̄− 1 (x) − FX̄− 1 (−x)).
2
2
2
2
Unter der Annahme von H0 kann die Verteilung von T X = X̄ mittels des zentralen
X̄− 1 √
GWS (Anmerkung 48) approximativ bestimmt werden, weil ja Z = 1/22 n approximativ N (0, 1)-verteilt ist. Das ergibt
√
√
√
1 − α = FX̄− 1 (x) − FX̄− 1 (−x) = Φ(2x n) − Φ(−2x n) = 2Φ(2x n) − 1,
2
2
286
Statistik
√
also die Gleichung Φ(2x n) = 1 − α2 , die nach Ermittlung des entsprechenden Quantils
z1− α2 = z0.975 = 1.960 auf
√
2x n = 1.960
führt, sodaß sich in Abhängigkeit von n als Ablehnungsbereich
1 0.98 1 0.98
K0.05 = [0, 1] \ ( − √ , + √ )
2
n 2
n
eignet.
Wie formuliert man die Bedingung, daß die Wahrscheinlichkeit, einen Fehler 2.ter Art
zu begehen, höchstens β ist?
Antwort: Dazu benützt man die Gütefunktion g für Werte von Parametern, auf die H1
zutrifft. Die Gütefunktion ist für p ∈ Θ1 = [0, 0.4] ∪ [0.6, 1] definiert durch g(Fp ) =
√ ).
Pp (|T X − 21 | ≥ 0.98
n
2. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable mit bekanntem σ. Weiters sei
H0 die Nullhypothese µ = µ0“. Gegeben sei ein Signifikanzniveau α. Man beschreibe
”
ein Testverfahren für H0 gegen die Alternativhypothese µ 6= µ0“.
”
Antwortfindung: Es liegt nahe, Θ0 = {µ0 } und Θ1 := R \ {µ0 } zu wählen. Nun kan man
das Problem mittels eines Intervallschätzers behandeln: Die Forderung an Kα , nämlich
Pµ0 (X ∈ Kα ) ≤ α
und die Symmetrie der Gaußverteilung um µ legen es nahe, Kα als Komplement eines
Konfidenzintervalls für die Irrtumswahrscheinlichkeit α zu bestimmen.
3. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable und H0 die Hypothese σ = σ0“,
”
sowie H1 die Alternativhypothese σ 6= σ0“. Wie kann für gegebenes Signifikanzniveau
”
α ein Testverfahren konstruiert werden?
Antwort: Auch hier genügt es, Kα als Komplement eines Konfidenzintervalls zur Vertrauensgrenze 1 − α anzunehmen.
4. Es seien X, Y normalverteilte Variable. Es sei H0 die Hypothese µX = µY “ und H1
”
die gegenteilige Aussage. Zum Signifikanzniveau α ist ein Testverfahren zur Ablehnung
von H0 zu entwickeln.
Antwort: Nach dem Additionstheorem für Normalverteilungen erweist sich Z = X − Y
als normalverteilt (vgl.Beispiel 44). Nun betrachtet man das neue Problem Z = 0 versus
Z 6= 0, indem Kα als Komplement eines Konfidenzintervalls zum Konfidenzniveau 1 − α
festlegt.
Als Ergebnis dieser Vorgangsweise findet man den t-Test:
s
X̄ − Ȳ
nX nY (nX + nY − 2)
T (X, Y ) := q
.
nX + nY
2 + (n − 1)S 2
(nX − 1)SX
Y
Y
10.2. Schätz- und Testverfahren
287
Zum Signifikanzniveau ist dann das α-Quantil der tnX +nY −2 -Verteilung zu bestimmen.
Danach wird H0 verworfen, wenn die Realisierung von |T | einen größeren Wert annimmt.
Beispiel 60 (Anpassungstest)
1. (χ2 -Test) Es sei X : Ω → R eine Zufallsvariable mit Verteilung FX , F0 eine Verteilung
(z.B. Normalverteilung oder Gleichverteilung, alle Parameter darin sollen als bekannt
festliegen!) und die Nullhypothese H0 durch FX = F0“ gegeben.
”
Ein Grenzwertsatz der folgenden Art wird benützt:
Es werden mittels einer Tabelle (xk | k = 1, . . . , n) von unabhängig ermittelten Meßwerten von X zunächst Klassen gebildet, d.h. eine Unterteilung von R in paarweise
disjunkte Intervalle Ik = [ak , bk ) und für jedes solche Intervall die theoretische Häufigkeit pk := P (Ik ) = FX (bk ) − FX (ak ) gebildet. Es ist dann
hk :=
|{i | xi ∈ [ak , bk )}|
n
die relative Häufigkeit für Meßwerte im Intervall Ik , von der man erwartet, daß sie
approximativ gleich pk ist. Die Theorie zeigt nun, daß für hinreichend großes n die
Pearsonsche Stichprobenfunktion
χ2 := n
X (hk − pk )2
k
pk
=
X (|{i | xi ∈ [ak , bk )}| − npk )2
npk
k
approximativ χ2m−1 -verteilt ist.
Die Hypothese FX = F0“ wird demgemäß verworfen, wenn bei gegebenem Signifikanz”
niveau α der Wert der Pearsonschen Stichprobenfunktion für dieses Datenmaterial das
α-Quantil χ2α;m−1 überschreitet.
Bei der Klasseneinteilung ist es sinnvoll, für jede Klasse die Ungleichung nk > pk9qk
einzuhalten (wegen der versteckten“ Benützung des zentralen GWS).
”
Ein Würfel wird 1000 mal geworfen und es ergibt sich die Meßreihe
Augenzahl
1
2
3
4
5
6
Häufigkeit 168 173 164 167 162 166
Für das Signifikanzlevel α = 0.005 soll gecheckt werden, ob es sich um Gleichverteilung
handelt (vgl. Beispiel 1 und Definition 5).
Antwort(findung): Hier sind in natürlicher Weise schon 6 Klassen vorgegeben und jede
erfüllt nk > 160 ≥ 95 = 64.8.
36
Die Pearsonsche Stichprobenfunktion kann aus der Tabelle unmittelbar abgelesen werden, wobei noch npk = 1000
6 zu berücksichtigen ist:
χ2 =
1000 2
2 (164 − 1000 )2 (167 − 1000 )2 (162 − 1000 )2 (166 − 1000 )2
(173 − 1000
6 )
6 )
6
6
6
6
+
+
+
+
+
1000
1000
1000
1000
1000
1000
6
6
6
6
6
6
(168 −
288
Statistik
Es ergibt sich als Wert
107
250
= 0.428.
Nun berechnet man das 1 − 0.005-Quantil der χ25 -Verteilung, welches sich zu χ25;0.995 =
16.75 ergibt. Dieser Würfel genügt hohen Standards9 .
2. (Kolmogorow-Smirnow Test) Es besitze die Zufallsvariable X : Ω → R eine stetige
Verteilung FX und es sei F0 eine stetige Verteilungsfunktion. Nun sei H0 die Nullhypothese FX = F0“. Man überprüft dies mittels empirischer Verteilungsfunktion Fn , die
”
sich aus n unabhängiger Messungen (xk | k = 1, . . . , n) von X ergibt.
Der Test beruht auf dem Satz von Gliwenko-Cantelli (Anmerkung 49) in asymptotischer
Form:
∞
X
λ
2
(−1)j e−2(jλ) .
P (Dn < √ ) ≈ Q(λ) := 1 + 2
n
j=0
wobei Dn = maxk |Fn (xk ) − F0 (xk )| als Approximation der Kolmogorowdistanz von FX
und Fn fungiert. Die Funktion auf der rechten Seite kann für viele Zwecke ab λ ≥ 4
2
durch die einfachere Q(λ) ≈ 1 − 2e−λ ersetzt werden, für die meisten praxisnahen
α ∈ {0.1, 0.05, 0.01, 0.005, 0.001} liegt sie in tabellierter Form vor.
Das 1 − α-Quantil λ1−α wird hier als Lösung der Gleichung Q(λ) = 1 − α gefunden und
√
man verwirft H0 FX = F0“, wenn Dn n > λ1−α ist.
”
Wie testet man das vorige Beispiel mit dem KS-Verfahren?
Antwort: Gar nicht, da die Verteilungsfunktion beim Würfel unstetig ist, wie in Beispiel
28 1 ausgeführt worden ist.
Zwei Meßgeräte zur Messung der gleichen physikalischen Größe X ergeben nach n = 5
Messungen folgende Meßreihen
Gerät A 15.1 17.2 19.3 20.4 21.3
Gerät B 15.2 17.1 19.4 20.5 21.2
Auf dem Signifikanzniveau α = 0.05 soll getestet werden, ob die Verteilung für beide
Messungen auf dem Intervall [15, 22] als die gleiche anzusehen ist.
Antwort: Man kennt die Verteilung der Größe X zwar nicht (nicht einmal ob ihre
Verteilung stetig ist). Ihre Differenz sollte jedoch in jedem Intervall den Wert Null mit
gleicher Häufigkeit annehmen, es sollte also eine Rechtecksverteilung auf dem Intervall
[15, 22] sein. Somit ist F0 (x) = 1 auf dem Intervall. Die Berechnung von D5 ergibt
D5 = max{0.1, 0.1, 0.1, 0.1, 0.1} = 0.1
√
und D5 5 ≈ 0.2236. Nun sieht man in einer entsprechenden Tabelle nach und findet
für n = 5 als 0.95 Quantil beim KS-Test den Wert λ0.095 = 0.563. Da 0.2236 < 0.563
kann die Nullhypothese Gerät A und Gerät B messen die gleiche Verteilung“ nicht
”
abgelehnt werden.
9
Gut möglich, daß die Messungen frei erfunden“ sind.
”
10.3. Kovarianz und lineare Regression
289
Was passiert, wenn die Kollegen, die jeweils auf A und B messen, verschieden lange
Meßreihen erzeugen, z.B. der eine mißt für Werte von ca 15 – 22, der andere von 14 –
23?
Antwort: In dieser Situation wird häufig der Wilcoxon-Test verwendet (sieh z.B. [13]).
10.3
a)
Kovarianz und lineare Regression
b)
c)
Im folgenden soll (X, Y ) : Ω → R2 eine vektorwertige Zufallsvariable sein. In der obigen
Skizze würde man für die Dichtefunktion im Fall a) einen glockenartigen Hügel mit kreisförmigen, in b) mit elliptischen und in c) mit extrem schmalen elliptischen Höhenschichtlinien
erwarten. Der Mittelpunkt des Kreises, bzw. der Ellipse ist der Erwartungswert von (X, Y )
und läßt sich nun sehr leicht als Massenmittelpunkt (vgl. Beispiel 28 4.) begreifen. Auch
Varianz und die zu erklärende Kovarianz haben Bezug zur Mechanik – den Trägheits- und
Deviationsmomenten, worauf hier nicht eingegangen werden soll.
In c) hätte man sehr steilem Anstieg an den Flanken der Geraden – eher in Richtung
der Geraden mit einer Gleichung y = ax + b normalverteilt und senkrecht dazu eine Diracverteilung. Insbesondere würde man in c) auf Y = aX + b mit hoher Wahrscheinlichkeit“
”
schließen wollen. Praktische Probleme dieser Art wären z.B. In welchem Maße beeinflußt
”
die Zugabe des Wirkstoffes X das Ertragsaußmaß Y“ (hier vermutet man, kennt jedoch den
direkten Zusammenhang von X,Y im allgemeinen nicht) bzw. das Gesetz für die gleichmäßig
gleichförmige Bewegung s = vt + s0 (Weg = Geschwindigkeit× Zeit), das so lange gültig ist,
bis es durch Tests mit entsprechendem Signifikanzniveau und Gütefunktion falsifiziert wird.
Der nun zu erklärenden Begriff Kovarianz tritt auf, weil in b) die Ellipsen (die approximativen Höhenschichtlinien der Dichtefunktion, die jedoch bei der weiter unten zu erklärenden
2-dimensionalen Gaußverteilung exakte Ellipsen sind) alle gedreht sind:
Beispiel 61 Es sei (X, Y ) : Ω → R2 eine Zufallsvariable mit Erwartungswert (µX , µY ) und
die skalaren Zufallsvariablen haben (natürlich Erwartungswerte µX , bzw. µY ) und Varianzen
V (X), V (Y ). Nun betrachten wir die Zufallsvariablen Za,b := aX + bY für alle Werte (a, b),
d.h., die Verteilung entlang eines Durchmessers“. Sichtlich ist E(Za,b ) = aE(X) + bE(Y )
”
290
Statistik
weil E linear ist (vgl. Anmerkung 34). Für die Varianz bekommt man nach etwas Rechnung
V (Za,b ) = a2 V (X) + 2ab(E(XY ) − E(X)E(Y )) + b2 V (Y ).
Der halbe Koeffizient der gemischt quadratischen Glieder ab ist cov (X , Y ) := E (XY ) −
E (X )E (Y ) und man nennt diese Zahl die Kovarianz von X und Y . Damit wird
V (Za,b ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y )
eine quadratische Form in (a, b), deren geometrische Deutung die folgende ist:
1. Ohne Einschränkung wählen wir ein Koordinatensystem in R2 mit (µX , µY ) = (0, 0).
2. Für einen Vektor (a, b) der Länge 1 ist das innere Produkt
p
aX + bY = X 2 + Y 2 cos((X, Y ), (a, b))
die Projektion von (X, Y ) auf den Fahrstrahl von (0, 0) nach (a, b).
p
3. Nun ist V (aX + bY ) ein Maß dafür, wie stark (X, Y ) entlang der Geraden durch (a, b)
streut. Dies kann wie folgt zu einer bildhaften Darstellung benützt werden: Man plottet
für den Winkel
p θ ∈ [0, 2π) auf dem Radiusvektor durch (a, b) := (cos θ, sin θ) den Wert
von σθ := V (cos θX + sin θY ). Im allgemeinen bekommt man eine (gedrehte) Ellipse,
in ausgearteten Fällen lediglich einzelne Punkte. In Richtung der längeren Ellipsenachse
ist dann die Streuung am größten und kann in konkreten Problemen Aufschluß über
etwa Richtung stärkster Ausbreitung eines Pilzbefalls etc. beschreiben. Dies sieht man
in der obigen Skizze in b) recht deutlich.
4. Analyse der Ellipsen: Als quadratische Form hat
2
2
V (aX+bY ) = a V (X)+2abcov (X , Y )+b V (Y ) = (a, b)
V (X)
cov (X , Y )
cov (X , Y )
V (Y )
unter der Nebenbedingung a2 + b2 = 1 lokale Extrema, deren Auffindung mittels der
Methode von Lagrange Q(a, b, λ) := a2 V (X)+2abcov (X , Y )+b 2 V (Y )−λ(a 2 +b 2 −1 )
und Differenzieren auf
V (X) − λ cov (X , Y )
a
0
=
,
cov (X , Y ) V (Y ) − λ
b
0
und somit auf ein (symmetrisches) Eigenwertproblem führt. Die Lösungen (a, b) des
EWP ergeben die Achsen der Ellipse, sofern die Ausgangsmatrix regulär ist. Damit
kann man in b) der obigen Skizze die Ellipse einzeichnen.
5. Ist genau einer der Eigenwerte Null, so ist die Matrix singulär und es gibt eine lineare
Abhängigkeit zwischen X und Y im stochastischen Sinn: Man kann eine Ausgleichsgerade a0 X + b0 Y = a0 µX + b0 µX 0, bzw.
0 = a0 (X − µX ) + b0 (Y − µY )
a
b
10.3. Kovarianz und lineare Regression
291
angeben, wobei für V (X) 6= 0 man
(a0 , b0 ) = (−cov (X , Y ), V (X ))
bekommt.
6. (Gaußverteilung) Ohne Beweis (der durchaus elementar ist) sei hingewiesen, daß jede
2-dimensionale Gaußverteilung von der Form
f (x, y) =
mit
1
Q(x, y) =
2(1 − ρ2 )
1
p
e−Q(x,y)
2πσX σY 1 − ρ2
(x − µX )2
(x − µX )(y − µY ) (y − µY )2
+
−
2ρ
2
σX σY
σX
σY2
)
ist. Dann erweist sich ρ = covσX(Xσ,Y
. Damit folgt für Normalverteilungen aus der UnY
korreliertheit auch die Unabhängigkeit.
Weiß man nun z.B., daß X, Y beide normalverteilt sind, so verhilft die Lösung des
Eigenwertproblems zur Beschreibung der Verteilung als Gaußverteilung im obigen Sinn.
Deshalb besteht Interesse an der Ermittlung der Kovarianz bzw. Kovarianzen bei mehr
als 2 Variablen.
Definition 62 (Ausgleichsgerade) Es sei (X, Y ) : Ω → R eine 2-dimensionale Zufallsvariable mit V (X) 6= 0. Dann heißt die mit der eindeutige Lösung (a0 , b0 ) ∈ R2 der Aufgabe
E((Y − aX − b)2 ) ⇒ Minimum
gebildete Gerade mit der Gleichung
y = a0 x + b0
die Ausgleichs- oder Regressionsgerade10 von Y bezüglich X zur gemeinsamen Verteilung von
(X, Y ). Man findet (a0 , b0 ), indem man die Kovarianz
cov (X , Y ) := E ((X − µX )(Y − µY )) = E (XY ) − µX µY
berechnet als
a0 =
cov (X , Y )
, b0 = µY − a0 µX
V (X)
in Übereinstimmung mit jenen von Beispiel 61 5. Der Vorteil dort wäre die Verfügbarkeit
etwa der QR-Zerlegung (vorallem im höherdimensionalen Fall wichtig).
10
Regression“, d.i. Rückschritt“, kommt daher, weil die Ausgleichsgeraden um 1900 von Galton und Pear”
”
son zur Überprüfung von Vererbungsmerkmalen benützt worden sind. Die Aussage war, daß ein Merkmal
bei Kindern von Vätern, bei denen es vom Mittelwert abweicht (Größe), wohl auch abweicht, doch in einem
geringeren Ausmaß. Der Zusammenhang des Rückschritts“ wurde linear angenommen. (Aus [13], S 136).
”
292
Statistik
Der Nachweis besteht in 2 Schritten. Im ersten Schritt zeigen wir, daß ein Minimum bestenfalls an der Stelle (a0 , b0 ) angenommen wird: Das obige Beispiel in Betracht ziehend,
schreiben wir
f (x, y) := (y − ax − b)2 = (µY − aµX − b)2 +
lineare Glieder in x − µX und y − µY
+a2 (x − µX )2 − 2a(x − µX )(y − µY ) + (y − µY )2 .
Bildet man nun f (X, Y ) und wendet E an, so ergibt sich die folgende Gestalt der zu minimierenden Funktion
g(a, b) := E(f (X, Y )) = (µY − aµX − b)2 + a2 V (X) − 2acov (X , Y ) + V (Y ).
Da g als Polynom (in a, b) stetig differenzierbar ist, müssen an (a0 , b0 ) die partiellen Ableitungen sowohl naach a bzw. b verschwinden, wodurch das Gleichungssystem
0 = b + aµX − µY + aV (X) − cov (X , Y ) = b + aµX − µY
entsteht, dessen einzige Lösung das obige (a0 , b0 ) ist.
Im zweiten Schritt wollen wir zeigen, daß (a0 , b0 ) ein globales Minimum ist, und das ist
genau dann der Fall, wenn die Funktion h(u, v) := g(a0 + u, b0 + v) − g(a0 , b0 ) > 0 für alle
Werte (u, v) 6= (0, 0) ist. Die völlig elementare Umformung zeigt11 :
V (X) + µ2X µX
u
2
2
2
.
h(u, v) = (V (X) + µX )u + 2µX uv + v = (u, v)
µX
1
v
Da die Hauptminoren, nämlich V (X)+µ2X und V (X) beide positiv sind, ist diese quadratische
Form in (u, v) positiv definit, also gilt die Behauptung.
Anmerkung 63 Es gelten die folgenden Aussagen:
Übliches lineares Ausgleichen (Gaußnotation): Ist (X, Y ) gemäß eines diskreten
Maßes verteilt, so kann man wegen Anmerkung 11
P das Maß durch Punkte (xi , yi )
angeben, denen jeweils ein Gewicht gi > 0 mit i gi = 1 zukommt (es ist gi =
P ({xi })).
Sind alle Punkte gleichwertig, so sind es endlich viele, etwa n, und haben das gleiche
Gewicht n1 , sodaß unter Verwendung der Gaußnotation:
nE(X) =
X
i
xi =: [x], nE(XY ) =
X
i
xi yi =: [xy], nE(X 2 ) =
X
x2i =: [xx]
i
aus den obigen Gleichungen (die in diesem Fall eher direkt hergeleitet werden) 12 die
Normalgleichungen durch Spezialisierung aus Definition 62 folgen:
11
Taylorformel z.B.
10.3. Kovarianz und lineare Regression
a0 =
293
n[xy] − [x][y]
[y][xx] − [xy][x]
, b0 =
.
2
n[xx] − [x]
n[xx] − [x]2
Die allgemeinere Version, bei der die Punkte Gewichte haben, kann z.B. benützt
werden, um manche der Punkte (xi , yi ) beim Approximieren durch eine Gerade
”
wichtiger zu nehmen“.
Regressionskoeffizient: Es heißt
a0 =
cov (X , Y )
,
V (X)
d.i. die Steigung der Ausgleichsgeraden von Y bezüglich X, auch Regressionskoeffizient von Y bezüglich X.
Korrelationskoeffizient: Die dimensionslose Größe
ρ :=
cov (X , Y )
σX σY
heißt Korrelationskoeffizient der Variablen X, Y . Man kann sehr leicht zeigen
−1 ≤ ρ ≤ 1,
indem man hX, Y i := E(XY ) als inneres Produkt interpretiert und die CauchySchwarzsche Ungleichung anwendet.
Man kann zeigen, daß |ρ| = 1 genau dann gilt, wenn Y = aX + b für mit Wahrscheinlichkeit eins gilt. a hat dann das gleiche Vorzeichen wie ρ.
Y = aX + b + Z mit Z ein normalverteilter Fehler: Es sollen a und b aus Stichproben ((xi , yi ) | i = 1, . . . , n) geschätzt werden. In dieser Situation nimmt man an, daß
Z ein N (0, σ)-verteilter Fehler ist. Dementsprechend benützt man die Gaußschen
Normalgleichungen zur Ermittlung von Schätzwerten von a, b. Unter Verwendung
[y]
der arithmetischen Mittel x̄ := [x]
n und ȳ := n bekommt man eine empirische
Ausgleichsgerade in der Form
y − ȳ = a(x − x̄).
Nun verwendet man für die Abweichung Z = Y − (aX + b) als Approximation für
V (Y |X = x) := E((Y − (ax + b))2 ) (die Varianz von Y unter der Bedingung, daß
X den Wert x annimmt),
n
s2 =
1 X
(yi − a − bxi )2 .
n−2
i=1
Ist cov (X , Y ) gleich Null, so heißen die Variablen unkorreliert. Unabhängige Variable sind stets unkorreliert, die Umkehrung ist im Allgemeinen falsch, wenn X, Y
294
Statistik
nicht normalverteilt sind. Ist z.B. Ω := {−1, 0, 1} als Laplaceraum gegeben und
X die Identität, sowie Y := X 2 , so ist V (X) = 3 und cov (X , Y ) = E (X 3 ) = 0 .
Andrerseits sind die Variablen sichtlich nicht unabhängig.
Mehrfaches Messen von yi : Der Fall unterschiedlicher Meßfehler, wenn die xi bekannt, und die yi mehrfach gemessen werden, kann z.B. in [6] nachgelesen werden.
Beispiel 64 (Fehlerfortpflanzungsgesetz) Ist f : U ⊆ R2 → R eine stetig differenzierbare Funktion und ist (X, Y ) : Ω → U Zufallsvariable mit X, Y unabhängig, so werden
Approximationen von E(X,Y ) (f (X, Y )) und V (f (X, Y )) wie folgt ermittelt:
1. Man ermittelt (µX , µY ), welches lt. Annahme in U liegt und denkt sich f durch seine
lineare Approximation ersetzt, wobei der Einfachheit fx := ∂f
∂x etc. geschrieben werde
f (x, y) ≈ f0 (x, y) := f (µX , µY ) + fx (µX , µY )(x − µX ) + fy (µX , µY )(y − µY ),
wobei die Rechtfertigung für dieses Vorgehen meist daher kommt, daß Fehler höherer
Ordnung von f in der Nähe von (µX , µY ) nicht ins Gewicht fallen (ein analytisches
Problem – gute Kenntnis von f gefordert) und daß weiters die Verteilung von (X, Y )
sehr kleine Streuung hat, sodaß man in den Genuß der Linearapproximation kommen
kann.
Deshalb ist E(f (X, Y )) ≈ E(f0 (X, Y )) = f (µX , µY ).
2. Um die weitere Rechnung zu vereinfachen, nehmen wir µX = µY = 0 an. Dann ist
f0 (x, y) = ax + by mit a := fx (0, 0) und b := fy (0, 0). Nun erkennt man die Übereinstimmung mit 4. in Beispiel 61, sodaß
V (f0 ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ),
und wenn man die Ableitungen explizit hinschreibt, ergibt sich das Fehlerfortpflanzungsgesetz
V (f (X, Y )) ≈ fx2 (µX , µY )V (X)+2fx (µX , µY )fy (µX , µY )cov (X , Y )+fy2 (µX , µY )V (Y ).
12
In diesem Zusammenhang ist die obige Methode als Methode der kleinsten Quadrate“, so genannt von
”
Legendre, der sie zuerst publiziert hat, bekannt ist.
Literaturverzeichnis
[1] I.N. Bronstein und K.A. Semendjajew, Taschenbuch der Mathematik, Siehe
http://de.wikipedia.org/wiki/Taschenbuch_der_Mathematik für die diversen
Ausgaben und Buchbesprechung.
[2] H.J. Dirschmid, Skriptum aus Mathematik 2 f. ET, Wien, 2001.
[3] R. Dutter, Statistik und Wahrscheinlichkeitsrechnung für MB, WI-MB und VT, Wien
2004.
[4] K. Grill, Skriptum zur Vorlesung
Mathematical
”
http://www.ci.tuwien.ac.at/~grill
Statistics“,
TU-Wien
2000,
[5] E. Hardtwig, Fehler und Ausgleichsrechung, BI-Taschenbuch 262/262a*, 1968.
[6] J. Heinhold, K.W. Gaede, Ingenieur-Statistik, Oldenburg 1964.
[7] S. Karlin and H.M. Howard, A first course in stochastic processes, Second edition. Academic Press, New York-London, 1975.
[8] K. Krickeberg, Wahrscheinlichkeitstheorie, Teubner 1963.
[9] Mühlbach, Repetitorium der Wahrscheinlichkeitsrechnung und Statistik, ISBN 3-923 92331-7, Binomi, 2000.
[10] G.H. Peichl, Einführung in die Wahrscheinlichkeitsrechung und Statistik, Vorlesungsskriptum, Univ. Graz, 1999.
[11] P. Szmolyan, Mathematik 1 f. ET, TU Wien, 2005.
[12] P. Szmolyan, Mathematik 2 f. ET, TU Wien, 2005.
[13] H. Weber, Einführung in die Wahrscheinlichkeitsrechung und Statistik für Ingenieure,
Teubner Studienskripten, Stuttgart 1983.
[14] Wikipedia, http://de.wikipedia.org/wiki/Hauptseite
295