Skript zur Veranstaltung: Stochastik - math.uni

Skript zur Veranstaltung
Stochastik
von
Gerhard Osius
p =p
!
0 ,4
0
0 ,8
0,6
1,0
0,4
0 ,8
0 ,6
1,0
0 ,4
0 ,6
1,0
0 ,8
I
I
+
I
I
"T
I
j
I I-
i
:
I
I
r-
-
~
r-
r-
:
i
i
~
15
'
I
r-
{
rf
10
r-
20
r-
r-
<a
rf
10
15
I
/ p
~
1
25
20
r-
10
'
I
'''
'
'
ha
I
I
I
I
I
15
25
20
t
t
X
X
März 2016
Fachbereich Mathematik/lnforma tik
Universität Bremen
Stochastik
16.3.16
Vorwort- 1
Vorwort
Das vorliegende Manuskript bildet die Grundlage der gleichnamigen Lehrveranstaltung für Studierende der Mathematik in den Studiengängen Diplom und Lehramt
(Bachelor und Sekundarstufe 2). Um eine gewisse Vollständigkeit zu erreichen, ist es
im Laufe der Zeit etwas umfangreicher geworden, und deshalb werden in der Veranstaltung einige Abschnitte (die mit einem * markiert sind) nicht oder nur teilweise behandelt. Die Beweise (der nicht unmittelbar nachvollziehbaren Behauptungen) sind hier bewußt fortgelassen, um die Darstellung der Methoden nicht zu unterbrechen (sie sind in einem separat erhältlichen Beweis-Band zusammengestellt). Obwohl dieses Material primär als Ergänzung und spätere Referenz für die an der
Vorlesung Teilnehmenden gedacht ist, eignet es sich auch bedingt zum Selbststudium, wofür es allerdings nicht primär konzipiert ist.
Die Veranstaltung Stochastik umfaßt vier Stunden Vorlesung sowie zwei Stunden
Übungen pro Woche. Sie gehört zum Grundstudium (Bachelor) der Mathematik und
soll eine erste und relativ elementare Einführung in dieses Gebiet geben, wobei sie
nur auf Vorkenntnisse aus der Analysis und Linearen Algebra zurückgreifen kann.
Eine Vertiefung und Ausweitung des Stoffs im Rahmen von Veranstaltungen zur
Maß- und Wahrscheinlichkeitstheorie sowie zur Statistik sind erst im Hauptstudium
(Master) vorgesehen. Im Lehramts-Studiengang dagegen ist die Stochastik typischerweise die einzige Veranstaltung zu diesem Thema, und dies hat auch die vorliegende Stoffauswahl mitgeprägt, insbesondere die ausführliche Behandlung von statistischen Verfahren im Zusammenhang mit der Binomial- und der Poisson-Verteilung.
Um trotz der elementaren Vorkenntnisse auch ausgewählte (und wichtige) fortgeschrittene Methoden behandeln zu können (z.B. stetige Verteilungen, oder asymptotische Konfidenzbereiche und Tests) wurden einige in der Vorlesung nicht beweisbare Resultate ohne Beweis zitiert (z.B. die Existenz eines Wahrscheinlichkeitsmaßes zu vorgegebener Dichte oder der Zentrale Grenzwertsatz).
Der Stoff ist selbstverständlich aus vielen Quellen zusammengestellt, obwohl diese
im laufenden Text nicht explizit erwähnt werden (wie dies auch bei Lehrbüchern
gängige Praxis ist). - Zunächst werden einleitend (Kapitel 0) einige Anwendungsbeispiele vorgestellt, die der Motivation der später zu behandelnden statistischen
Methoden dienen. Die dort auftretenden Fragen werden zum Teil erst gegen Ende
des Kurses beantwortet. Danach werden (Kapitel 1) Wahrscheinlichkeitsräume
axiomatisch eingeführt und einige konkrtete Verteilungen behandelt. Hierzu werden zwar a-Algebren allgemein definiert aber als konkrete a-Algebren auf überabzählbaren Räumen werden nur die Bore1-Mengen auf der reellen Achse lR (und
später im lR n) betrachtet. Als Wahrscheinlichkeitsmaße auf überabzählbaren Räumen werden auf lR (und lR n) auch nur solche betrachtet, die durch eine Dichte gegeben sind (wobei die Charakterisierung einer Verteilung durch ihre Dichte nicht
bewiesen wird). Da das Lebesgue-Integral hier noch nicht vorausgesetzt werden
kann, beschränken wir uns zuerst auf das Riemann-Integral für stetige Dichten und
erweitern dies dann auf Dichten mit höchstens endlich vielen Unstetigkeitsstellen,
was für die Betrachtungen hier ausreicht.
Stochastik
Vorwort- 2
16.3.16
Im Anschluß daran werden Zufallsvariablen (Kapitel 2), bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit (Kapitel 3 und 5), sowie Verteilungsfunktionen (Kapitel 4) behandelt. Unter Verwendung von Faltungen werden (Kapitel 6)
neue Verteilungen eingeführt, und das Auftreten von Poisson-Verteilungen wird aus
einem Poisson-Prozess hergeleitet.
Der Erwartungswert wird hier (Kapitel 7) nicht für beliebige reelle Zufallsvariablen,
sondern getrennt definiert für Zufallsvariablen die entweder diskret sind oder eine
Dichte haben. Die grundlegenden Eigenschaften des Erwartungswerts werden zwar
allgemein formuliert, aber teilweise nur für diskrete bzw. stetige Zufallsvariablen
separat bewiesen. Neben der Varianz wird auch die Schiefe einer Verteilung sowie
die Covarianz und Korrelation zweier Zufallsvariablen behandelt.
Als Einführung in statistische Grundtechniken wird (Kapitel 8) das Schätzen von
Erwartungswert und Varianz behandelt. Die Frage nach den asymptotischen Eigenschaften der Schätzer dient als Motivation für stochastische Konvergenzbegriffe.
Neben dem (schwachen) Gesetz der großen Zahlen wird der hier nicht bewiesenene
Zentralen Grenzwertsatz für unabhängige und identisch verteilte Zufallsvariablen
(Kapitel 9) behandelt. Hierbei wird auch die später noch verwendete Abschätzung
von Berry-Esseen ohne Beweis angegeben. In diesem Zusammenhang werden auch
noch weitere Grenzwertsätze für spezielle Verteilungen erwähnt.
Als zweites statisches Verfahren werden (Kapitel 10-12) Konfidenzgrenzen für den
Erwartungswert betrachtet. Ausgehend von den exakten Grenzen bei Normalverteilung werden asymptotische Grenzen bei beliebiger Verteilung eingeführt. Im Anschluß daran werden Konfidenzgrenzen für die Wahrscheinlichkeit einer Binamialverteilung (Kapitel 11) und für den Erwartungswert einer Poisson-Verteilung (Kapitel 12) behandelt. Hierbei werden sowohl die exakten (und konservativen) als auch
die asymptotischen Grenzen ausführlich hergeleitet und angewandt.
Schließlich wird (Kapitel 13) der statistische Test am Beispiel des Tests von (einund zweiseitigen) Hypothesen über eine Wahrscheinlichkeit relativ ausführlich eingeführt, wobei sowohl auf den exakten als auch auf den asymptotischen Test eingegangen wird. Die entsprechenden Tests über den Erwartungswert der Poisson-Verteilung werden dann etwas knapper behandelt (Kapitel 14). Eine nahtlose Weiterführung und Vertiefung der hier behandelten statistischen Verfahren findet sich
meinem Skript zur Einführung in die Statistik und zur anwendungsorientierten Veranstaltung Statistik in den Naturwissenschaften (vgl. Literaruturhinweise).
Neben kleineren Korrekturen und Ergänzunzen unterscheidet sich diese Auflage
von der letzten Version (Februar 2009) in den Abschnitten 4.9 (überarbeitet), 4.10
(neu), 9.1 (Folgen von Zufallsvariablen jetzt mit gemeinsamem Definitionsbereich) sowie dem neuen AnhangS (Statistik-Funktionen in Tabellenkalkulationen).
Erfahrungsgemäß enthält das Skript - trotz Korrekturlesen - noch Druckfehler. Bevor man daher am eigenen Verständnis zweifelt, sollte man auch einen Fehler im
Skript in Erwägung ziehen. Für Hinweise auf Druckfehler oder andere Kommentare
pere-Mail ([email protected]) bin ich dankbar.
Bremen, am 16. März 2016
Gerhard Osius
Stochastik
Inhalt
Die mit
* markierten
Inhalt- 1
16.3.16
(Seiten pro Kapitel)
Kapitel - Seite
Abschnitte behandeln speziellere Themen und können übersprungen
werden.
0.
Einleitung und Anwendungsbeispiele
0.1 Leukämiefälle im Umkreis des Kernkraftwerks Krümmel
0.2 Asbestmessungen in Schulgebäuden
0.3 Wahlumfragen
0.4 Klinische Studie
1.
Wahrscheinlichkeitsräume
1.0 Mengensysteme
1.1 Wahrscheinlichkeitsmaße
1.2 Endliche Wahrscheinlichkeitsräume
1.2.1 Diskrete Gleichverteilung
1.2.2 Bernoulli-Verteilung
1.2.3 Binomial-Verteilung
1.2.4* Relative Häufigkeiten
1.3 Abzählbare Wahrscheinlichkeitsräume
1.3.1 Poisson-Verteilung
1.4 Reelle Wahrscheinlichkeitsmaße mit Dichten
1.4.1 Normal-Verteilung
1.4.2 Exponential-Verteilung
1.4.3 Stetige Gleichverteilung
(21)
1-3
1-7
1-9
1 - 10
1 - 10
1- 11
1- 11
1 - 12
1 - 13
1 - 14
1 - 18
1- 20
1- 20
2.
Zufallsvariablen und ihre Verteilungen
2.1 Indikatorfunktion
2.2 Definition einer Zufallsvariable und ihrer Verteilung
2.3 Reelle Zufallsvariablen
2.3.1 Augensumme zweier Würfel
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.1 Bedingte Wahrscheinlichkeit
3.1.1 Wartezeiten und Exponential-Verteilung
3.2 Stochastische Unabhängigkeit von Ereignissen
3.3 Produkte diskreter Wahrscheinlichkeitsräume
3.3.1 Bernoulli-Wiederholungen und Binomialverteilung
3.3.2 Produktmaß von Gleichverteilungen
(6)
2- 1
2- 1
2-3
2-6
(10)
3- 1
3-4
3-5
3-7
3-9
3- 10
3.
4.
Verteilungsfunktionen und Dichten
4.1 Verteilungsfunktionen reeller Zufallsvariablen
4.1.1 * Quasi-Inverse einer Verteilungsfunktion
4.2 Verteilungsfunktionen diskreter Zufallsvariablen
4.2.1 Einpunkt-Verteilung, Dirac-Verteilung
4.2.2 Binomial-Verteilung
4.2.3 Poisson-Verteilung
(9)
0- 2
0-4
0-6
0-8
(38)
4-1
4-2
4-3
4-4
4-4
4-4
Stochastik
16.3.16
Stetige Zufallsvariablen mit Dichten
4.3.1 Stetige Gleichverteilung
4.3.2 Exponential-Verteilung
4.3.3 Normal-Verteilung
4.4 Dichten transformierter Zufallsvariablen
4.4.1 Lineare Transformationen stetiger Zufallsvariablen
4.4.2 Absolutbetrag und Potenzen stetiger Zufallsvariablen
4.4.3 Log-Normalverteilung
4.4.4 Weibull-Verteilung
4.4.5* Erzeugung von Zufallszahlen
4.5 Zufallsvektoren
4.5.1 Mehrdimensionale Borel-Mengen
4.5.2 Die Verteilung von Zufallsvektoren
4.6 Diskrete Zufallsvektoren
4.6.1 Multinomial-Verteilung
4.7 Stetige Dichten für zweidimensionalen Verteilungen
4.7.1 Zweidimensionale Normal-Verteilung
4.8* Dichten mehrdimensionaler Verteilungen
4.8.1 Multivariate Normal-Verteilung
4.9 Endliche Produkte von Wahrscheinlichkeitsräumen
4.9.1 Spezialfall: reelle Wahrscheinlichkeitsräume
4.9.2 Allgemeiner Fall: beliebige Wahrscheinlichkeitsräume
4.10 Abzählbare Produkte von Wahrscheinlichkeitsräumen
4.3
5.
Stochastische Unabhängigkeit von Zufallsvariablen
Stochastische Unabhängigkeit diskreter Zufallsvariablen
5.1.1 Randomisierte klinische Vergleichsstudie
5.1.2 Geometrische Verteilung
5.2
Unabhängigkeit bei stetigen Zufallsvariablen mit Dichten
5.2.1 Normalverteilte Zufallsvariablen
5.3 Unabhängigkeit bei Zufallsvektoren
5.1
6.
Faltungen von Verteilungen
6.1
Faltung diskreter Verteilungen
6.1.1 Binomial-Verteilung
6.1.2 Multinomial-Verteilung
6.1.3 Faltung von Poisson-Verteilungen
6.1.4 Negative Binomial-Verteilung
6.2 Faltung stetiger Verteilungen mit Dichten
6.2.1 Faltung von Normal-Verteilungen
6.2.2 Faltung von Exponential- und Gamma-Verteilungen
6.2.3 Poisson-Verteilung und Poisson-Prozeß
6.2.4 Elementare Eigenschaften der Gamma-Funktion
6.3 Arithmetische Operationen von Zufallsvariablen
7.
Parameter von Verteilungen: Erwartungswert, Varianz, Schiefe,
Covarianz und Korrelation
Inhalt- 2
4-6
4-9
4-9
4-9
4- 11
4- 12
4- 13
4- 16
4- 18
4- 19
4- 19
4- 20
4- 21
4- 22
4- 22
4- 23
4- 27
4-30
4-32
4-33
4-33
4-34
4-36
(10)
5-3
5-4
5-5
5-8
5-8
5-9
(12)
6-1
6- 2
6- 2
6- 3
6-4
6-6
6-6
6-7
6-9
6- 10
6- 11
(32)
Stochastik
16.3.16
7.1
7.2
7.3
Definition des Erwartungswerts
Grundlegende Eigenschaften des Erwartungswerts
Erwartungswerte spezieller Verteilungen
7.3.1 Erwartungswerte spezieller diskreter Verteilungen
7.3.2 Erwartungswerte spezieller stetiger Verteilungen
7.3.3 Cauchy-Verteilung
7.3.4 Anwendung: Das Sammlerproblem
7.4 Varianz und Standardabweichung
7.5
Varianzen spezieller Verteilungen
7.5.1 Varianzen spezieller diskreter Verteilungen
7.5.2 Varianzen spezieller stetiger Verteilungen
7.6* Symmetrie und Schiefe
7.7 Die Ungleichungen von Chebyshev und Markov
7.7.1 Normalverteilung
7.7.2* Empirische Verteilung
7.8* Covarianz, Korrelation und linearer Zusammenhang
7.8.1 Die Covarianz
7.8.2 Der Korrelationskoeffizient
7.8.3 Die zwei-dimensionale Normal-Verteilung
7.8.4 Linearer Zusammenhang und Regressionsgerade
Inhalt- 3
7- 1
7-7
7-9
7-9
7- 10
7- 11
7- 12
7- 15
7- 17
7- 17
7- 17
7- 18
7- 23
7- 24
7- 25
7- 26
7- 26
7- 28
7 - 29
7 - 29
8.
Schätzung von Erwartungswert und Varianz
(13)
8.1 Schätzung des Erwartungswerts
8-2
8.2 Spezielle Verteilungsmodelle
8 -4
8.2.1 Das Binomial-Verteilungsmodell
8 -4
8.2.2 Das Poisson-Verteilungsmodell
8 -5
8 -5
8.2.3 Das Normal-Verteilungsmodell
8.2.4 * Das Gamma-Verteilungsmodell
8 -5
8.2.5* Das Cauchy-Verteilungsmodell
8-6
8.3* Schätzung der Varianz
8 -6
8.3.1 Schätzung der Varianz bei bekanntem Erwartungswert
8 -6
8.3.2 Schätzung der Varianz bei unbekanntem Erwartungswert
8- 7
8.3.3 Verteilung der Varianz-Schätzer im Normal-VerteilungsmodellS - 8
8 - 10
8.4* Schätzung der Schiefe
8.5* Schätzung der Korrelation und Regressionsgeraden
8 - 10
9.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9.1
Konvergenz nach Wahrscheinlichkeit und
Schwaches Gesetz der großen Zahlen
9.1.1 Eigenschaften der Konvergenz nach Wahrscheinlichkeit
9.1.2 Stochastische Konvergenz und Konsistenz von Schätzern
9.2 Verteilungskonvergenz und Zentraler Grenzwertsatz
9.3 Grenzwertsätze für Binomial-Verteilungen
9.3.1 Die Normal-Approximation der Binomial-Verteilung
9.3.2 Anwendung: Wahlumfragen
9.3.3 Die Poisson-Approximation der Binomial-Verteilung
(36)
9 -3
9 -5
9 -6
9 -7
9 - 12
9 - 12
9 - 16
9 - 18
Stochastik
9.4*
9.5*
9.6*
9.7*
9.8
16.3.16
Inhalt- 4
9- 20
Grenzwertsatz für Poisson-Verteilungen
9- 21
Grenzwertsatz für negative Binomial-Verteilungen
9- 22
Grenzwertsatz für Gamma-Verteilungen
9- 23
Eigenschaften der Konvergenz nach Verteilung
9- 25
Hypergeometrische Verteilungen
9- 25
9.8.1 Wahlumfragen
9- 26
9.8.2 Zufälliges Ziehen mit und ohne Zurücklegen
9.8.3 Definition und Eigenschaften der hypergeometrischenVerteilung
9 - 28
9.8.4 Anwendungen und Schätzungen
9 - 29
9.8.5 Binamial-Approximation der hypergeometrischen Verteilung 9 - 30
9.8.6 Die multivariate hypergeometrische Verteilung
9 - 31
10. Konfidenzgrenzen für den Erwartungswert
10.1 Exakte Konfidenzgrenzen für den Erwartungswert einer
Normal-Verteilung mit bekannter Varianz
10.2* Asymptotische Konfidenzgrenzen für den Erwartungswert einer
beliebigen Verteilung
10.3* Exakte Konfidenzgrenzen für den Erwartungswert einer
Normal-Verteilung mit unbekannter Varianz
(13)
10-3
10- 7
10- 10
11
Konfidenzgrenzen für eine Wahrscheinlichkeit
11.1 Die exakte obere Konfidenzgrenze nach Clopper-Pearson
11.2 Die exakte untere Konfidenzgrenze nach Clopper-Pearson
11.3 Das exakte zweiseitige Konfidenzintervall
11.4 Berechnung der exakten Grenzen
11.5 Die F-Verteilung
11.6 Asymptotische (approximative) Konfidenzgrenzen
11.7 Grobe asymptotische (approximative) Konfidenzgrenzen
(19)
11 - 2
11-4
11 - 5
11 -6
11 -8
11-11
11- 16
12
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
12.1 Konstruktion der exakten oberen Konfidenzgrenze
12.2 Konstruktion der exakten unteren Konfidenzgrenze
12.3 Konstruktion des exakten zweiseitigen Konfidenzintervalls
12.4 Berechnung der exakten Grenzen
12.5* Asymptotische (approximative) Konfidenzgrenzen
12.6 Anwendung: Asbestmessungen in Schulgebäuden
12.7 Konfidenzgrenzen bei unabhängigen Wiederholungen
(12)
12 - 1
12-3
12-4
12 - 5
12-6
12- 10
12- 12
13. Testen von Hypothesen über Wahrscheinlichkeiten
13.1 Der exakte einseitige Binomial-Test mit oberer Alternative
13.1.1 Statistische Tests
13.1.2 Fehlerrisiken und Testschärfe
13.1.3 Der optimale Test zum vorgegebenen Niveau
13.1.4 Analyse des Fehlerrisikos 2. Art
13.2 Der exakte einseitige Binomial-Test mit unterer Alternative
13.3 Der exakte zweiseitige Binomial-Test
(32)
13-3
13-4
13- 5
13-8
13- 12
13- 14
13- 16
Stochastik
16.3.16
13.4 Asymptotische Tests
13.4.1 Der asymptotische einseitige obere Binomial-Test
13.4.2 Der asymptotische einseitige untere Binomial-Test
13.4.3 Der asymptotische zweiseitige Binomial-Test
13.5 Planung des erforderlicher Stichproben-Mindestumfangs
13.5.1 Der einseitige obere Test
13.5.2 Der einseitige untere Test
13.5.3 Der zweiseitige Test
14.* Tests für den Erwartungswert der Poisson-Verteilung
14.1 Der einseitige Poisson-Test mit oberer Alternative
14.1.1 Der exakte einseitige obere Poisson-Test
14.1.2 Der asymptotische einseitige obere Poisson-Test
14.2 Der einseitige Poisson-Test mit unterer Alternative
14.2.1 Der exakte einseitige untere Poisson-Test
14.2.2 Der asymptotische einseitige untere Poisson-Test
14.3 Anwendung: Asbestmessungen in Schulgebäuden
14.4 Der zweiseitige Poison-Test
14.4.1 Der exakte zweiseitige Poisson-Test
14.4.2 Der asymptotische zweiseitige Poisson-Test
14.5 Poisson-Tests bei unabhängigen Wiederholungen
Inhalt- 5
1313131313131313-
19
19
24
26
28
29
30
31
(14)
14- 1
14- 2
14-3
14-4
14- 5
14-6
14- 7
14- 12
14- 12
14- 13
14- 14
Literaturhinweise
(1)
AnhangS: Statistik-Funktionen in Tabellenkalkulationen
(2)
Anhang T: Statistische Tabellen
Verteilungsfunktion der Normalverteilung N(0,1)
Quantile der N( 0,1) und t- Verteilung
Quantile der Chiquadrat-Verteilung
Quantile der F- Verteilung
Index
(12)
T -1
T- 3
T- 5
T- 8
(6)
Anwendungsbeispiele
0.
1.10.08
0-1
Einleitung und Anwendungsbeispiele
Problem: Experimentelle oder beobachtete Daten sind nicht exakt reproduzierbar.
Ursachen hierfür sind z.B. Variahilitäten (der Untersuchungsobjekte oder Versuchsbedingungen), nicht kontrollierbare Meßfehler etc.
Lösung: Das Einbeziehen des Zufalls in die ModelEerung und Auswertung.
Stochastik ist die mathematische Disziplin zur ModelEerung und Untersuchung des
Zufalls. Sie umfaßt die Wahrscheinlichkeitstheorie und die darauf aufbauende mathematische (deduktive) Statistik. Die Wahrscheinlichkeitstheorie beschäftigt sich mit:
• der Konstruktion von Modellen für stochastische Vorgänge:
Zufallsexperimente oder Zufallsbeobachtungen,
• der Analyse solcher (stochastischer) Modelle,
• der Berechnung von Wahrscheinlichkeiten für interessierende Ereignisse.
Zu den Aufgaben der Statistik zählt die Planung und Auswertung konkreter Studien
(Experimente, Beobachtungen). Die Auswertung beschäftigt sich primär mit
• dem Schätzen unbekannter Modell-Parameter,
• dem Testen von Hypothesen über Modell-Parameter.
Und bei der Planung stehen im Vordergrund
• Auswahl eines geeigneten Auswertungs-Modells nebst zugehörigem Design der
Datenerhebung,
• Kalkulation des erforderlichen Stichprobenumfangs, der eine zuverlässige statistische Auswertung erlaubt.
Zu Beginn wollen wir einige typische Anwendungssituationen für stochastische
Fragestellungen kennenlernen, die einerseits als Motivation der teilweise sehr abstrakten Methoden dienen sollen und andererseits später als Anwendungsbeispiele
wieder aufgegriffen werden. Hierbei werden auch schon Begriffe verwendet (z.B. Zufallsvariablen, Erwartungswert und spezielle Verteilungen), die von der Schule be-
kannt sein sollten und hier erst später formal definiert werden.
Anwendungsbeispiele
0.1
0-2
1.10.08
Leukämiefälle im Umkreis des Kernkraftwerks Krümmel
Der Kinderarzt M. Demuth berichtet in dem Preprint Leukämiemorbidität bei Kindern in der direkten Umgebung des Kernkraftwerks Krümel (Kassel 1991, Tabelle 1)
von Leukämie-Erkrankungsfällen bei Kindern von 0 bis 14 Jahren in der Umgebung
des Kernkraftwerks Krümmel und vergleicht die beobachteten Leukämiefälle mit
den (unter Berücksichtigung der Bevölkerungsdichte) nach bundesdeutschem
Durchschnitt zu erwartenden Fällen.
Region
Zeitraum
Leukämiefälle
beobachtet
erwartet
Samtgemeinde Elbmarsch
1990
1990-1991
1980- 1990
1980-1991
3
4
4
5
0.06
0.13
0.68
0.75
5-km-Radius um das Kernkraftwerk
Krümme I
1990
1990-1991
1980- 1990
1980-1991
3
5
4
6
0.21
0.44
2.30
2.53
Tabelle 1:
Leukämieerkrankungsfälle bei Kindern von 0-14 Jahren in der Umgebung
des Kernkraftwerks Krümel (nach Demuth 1991).
Die statistische Analyse dieser Daten soll klären, ob die Abweichungen der beobachteten Leukämiefälle von den erwarteten Fällen noch durch den Zufall zu erklären
sind, oder ob bereits eine statistisch signifikante Erhöhung der Leukämie-Inzidenz
vorliegt (Die Frage nach einem möglichen kausalen Zusammenhang zum Kernkraftwerk kann die Statistik nicht beantworten!). Hierbei geht man davon aus, daß die
beobachtete Anzahl von Fällen (innerhalb einer Region und eines Zeitraums) eine
Zufallsvariable X mit einer Poisson-Verteilung ist (vgl. Abb. 1), und vergleicht ihren
Erwartungswert p, = E(X) mit dem nach Bundesdurchschnitt zu erwarteten Wert p,
0
(einer vergleichbaren Bevölkerungsgruppe). Ein solcher Vergleich kann durch eine
statistischen Test erfolgen, bei dem man sich aufgrund der beobachteten Realisie-
rung x von X zwischen den folgenden beiden Hypothesen entscheidet
Nullhypothese:
p,
< p, 0
Alternative:
(keine Erhöhung gegenüber Bundesdurchschnitt) 1
(Erhöhung gegenüber Bundesdurchschnitt).
Eine andere (äquivalente) Möglichkeit des Vergleich besteht darin, daß man aus der
Beobachtung x eine untere Konfidenzgrenze (t (x) für den Erwartungswert p, beu
stimmt und sich im Fall (tu(x)
< p, 0 für keine Erhöhung (Nullhypothese) entscheidet.
Anwendungsbeispiele
0-3
1.10.08
Pofs(~)-VerteHllng :
I' ~
P ois(~)- Verte1 1 ung :
0.44
70%
1.1 ~
2.53
70%
60%
60%
50%
50%
Qj
-"'
J::.
..240%
c·a:;
.J::.
<>
l!!30%
_r_
~
20%
20%
10%
10'/o
0
2
4
Anzahl
6
8
10
0
2
4
6
8
10
Anzahl
Abb .. 1: Histogramme der Poisson-Verteilung für zwei Erwartungswerte aus Tabelle 1.
Schließlich kann man auch direkt überprüfen, wie wahrscheinlich (bzw. unwahrscheinlich) es ist, daß die beobachtete oder eine noch höhere Anzahl von Leukämie-
fällen auftritt, wenn man den Bundesdurchschnitt zugrunde legt. Hierzu berechnet
man für die Beobachtung x die Poisson-Wahrscheinlichkeit P{ X> x} unter der Annahme 1-L = 1-Lo' und wenn diese Wahrscheinlichkeit zu gering ist, glaubt man nicht
mehr an einen Zufall.
Die erforderlichen Methoden zur Analyse obiger Daten werden im Laufe des Kurses
eingeführt.
Anwendungsbeispiele
0.2
1.10.08
0-4
Asbestmessungen in Schulgebäuden
Bei einer Asbestmessung soll festgestellt werden, wie hoch die Asbestfaserkonzentration). [in Fasern pro m 3 ] in dem untersuchten Innenraum ist, und ob der zulässige Grenzwert >. eingehalten wird oder nicht. Hierzu wird die Raumluft von ei0
nem Kompressor durch einen Filter angesaugt, in dem die Asbestfasern hängen
bleiben. Ein Teil des Filters wird dann mikroskopisch ausgewertet, um die Asbestfasern dort zu zählen. Die Anzahl X der Asbestfasern in dem ausgewerteten Volumenanteil V [in m 3 ] ist dann eine Zufallsvariable 1 die (in guter Näherung) eine Poisson-Verteilung hat (vgl. Abb. 2). Ihr Erwartungswert p, = E(X) ist die im Volumen V
erwartete Anzahl von Fasern und die erwartete Asbestfaserkonzentration [in Fasern
pro m 3 ] ergibt sich zu ). = p, /V Ausgehend von einer beobachteten Anzahl x (als
Realisierung von X) hat die statistische Analyse folgende Ziele:
• Schätzung der Asbestfaserkonzentration
A,
• Bestimmung einer oberen Konfidenzgrenze ~ (x) für..\,
0
• Überprüfung, ob ein Grenzwert >. eingehalten wird oder nicht, d.h. Durchfüh0
rung eines statistischen Tests zur Entscheidung zwischen den Hypothesen
Nullhypothese:
A < >.
Alternative:
A > >.
0
0
(Grenzwert wird eingehalten) 1
(Grenzwert wird überschritten).
In der Tabelle 2 sind Auszüge der Original-Protokolle von Messungen aus dem Jahr
1989 wiedergegeben. Die Methoden zur Berechnung der Vertrauens- bzw. Konfidenzgrenzen und die der "Bewertung" zu Grunde liegenden statistischen Tests werden in
den Kapiteln 12 und 14 behandelt und in 12.6 bzw. 14.3 auf diese Daten angewandt.
Anwendungsbeispiele
0-5
1.10.08
Me ß b e d i n g u n g e n
4.28 mA3
Volumendurchsatz (16.0 °C, 1013 hPa)
effektive Filterfläche
ausgewerte Filterfläche
350 Bildfelder bei 2500facher Vergrößerung
380
nunA2
l.36mmA2
Me ß e r g e b n i s s e
insgesamt gezählte Fasern
0
Asbestfaser - Anzahlkonzentration
0
Fasern/mA3
1 95
Pasern/m"'3
obere Grenze des 95% - Vertrauensintervalls
Nachweisgrenze (Poisson-Statistik)
B e w e r t u n g
In der geprüften Luftmenge wurden keine Asbestfasern gefunden.
Die Nachweisgrenze liegt nach den Gesetzen der Poiseon - Statistik
u n t e r
400 Fasern/mA3. (Asbest-Richtlinie Mai 1989)
M e ß b e d i
Volumendurchsatz (16.0
oc,
n g u n g e n
3. 65 mA3
1013 hPa)
effektive Filterfläche
ausgewerte Filterfläche
420 Bildfelder bei 2500facher Vergrößerung
Me ß e r g e b n i
380
mmA2
1. 64 mmA2
s s e
insgesamt gezählte Fasern
2
Asbestfaser-Anzahlkonzentration
127
Fasern/rn" 3
obere Grenze des 95 %- Vertrauensintervalls
(Poisson-Statistik)
460
Fasern/m"' 3
B e w e r
t
u n g
Die gemessene Asbestfaser-Konzentration liegt
empfohlenen Grenzwert von 500 Fasern/m" 3.
u n t e r
dem
Mit 95%- iger Wahrscheinlichkeit wird nach der Poiseon-Statistik
der empfohlene obere Grenzwert von 1000 um 540 Fasern/m" 3
(Erwartungswert)
u n t e r s c h r i t t e n.
M e ß b e d i
Volumendurchsatz (16.0
oc,
n g u n g e n
1013 hPa)
effektive Filterfläche
ausgewerte Filterfläche
360 Bildfelder bei 2500facher Vergrößerung
M e ß e r g e b n i
s s e
insgesamt gezählte Fasern
8
52 0
Asbestfaser - Anzahlkonzentration
obere Grenze des 95%-Vertrauensintervalls
(Poisson - Statistik)
B e w e r
380
mm"2
1.40 mm"2
t
1, 024
Fasern/rn~
3
Fasern/m" 3
u n g
Die gemessene Asbestfaser-Konze.ntration liegt unter
dem geforderten Grenzwert von 1000 Fasern/m3 , bezogen auf
den Zustand ~ der Sanierung .
Tabelle 2: Protokollaus4züge von Asbestmessungen in Schulgebäuden {1989) .
Anwendungsbeispiele
0-6
1.10.08
Pois(IJ}Verteil llng~
IJ
=4,00
Pois(IJ)-Verteilung:
20%
20%
15%
15%
ijj
'ijj
~
~
_.!2
_Q
]10%
f10%
u = 8,00
.r:
.r_
c
c::
u
0
!!!
!/)
..c
.r_
"'
3:
s:"'
5%
5%
0%
~
I
0
5
10
0%
15
20
25
k
1
0
5
Anzahl
10
15
20
2.5
Anzahl
Abb. 2: Poisson-Verteilung der Anzahl von Asbestfasern zm Volumen V für zwez
verschiedene Erwartungswerte f-L·
0.3
Wahlumfragen
Um den unbekannten Stimmanteil p einer bestimmten Partei zu schätzen, werden n
unabhängige Befragungen von Wahlberechtigten durchgeführt. Die Anzahl X der
Befürworter dieser Partei unter den n Befragten ist eine Zufallsvariable mit Binomialverteilung B(n,p). Für eine "kleine" Partei (z.B. Die Grünen) mit p = 8% und
eine "große" Partei (z.B. CDU) mit p = 40% sind die Wahrscheinlichkeiten für die
möglichen Ergebnisse einer kleinen Umfrage mit n = 100 (z.B. eine telefonische
Blitz-Umfrage) in Abb. 3 graphisch dargestellt.
Die Ziele einer Wahlumfrage (vgl. Abb. 4) sind:
• Schätzung des Stimmanteil p,
• Bestimmung einer unteren Konfidenzgrenze
• Überprüfung, ob ein Mindestanteil p
0
pu für den Stimmanteil p,
überschritten wird, z.B. p = 5% bzw.
0
p =50% im Hinblick auf die 5%-Hürde bzw. eine absolute Mehrheit. Der zuge0
hörige statistische Tests soll sich für eine der beiden Hypothesen entscheiden
Nullhypothese:
Alternative:
< p0
p>p
0
p
(Stimmanteil nicht über p ) 1
0
(Stimmanteil über p ).
Die Methoden hierzu werden im Laufe des Kurses erarbeitet.
0
Anwendungsbeispiele
n = 100
Dichte von X mit B(n,p)-Verteil ung:
p=
15%
0-7
1.10.08
•
•
p= 40°!.
·"äl10%
-"'
.<:
.!.!
c:
·~
.r::
r.>
"'
~
"'
!; 5%
0
~
rh.
..I
0%
5
10
15
20
25
30
Anzahl
~
35
40
45
50
55
60
65
Abb. 3: Dichten der B(n,p)-Verteilung für n = 100 und p = 8% bzw. p = 40%.
Die markierte Fläche links entspricht der Wahrscheinlichkeit P{ X< 5 }, daß der
Stimmanteil in der Stichprobe < 5% ist, obwohl der wahre Anteil in der Bevölkerung sogar p = 8% beträgt. Und die markierte Fläche rechts ist die Wahrscheinlichkeit P{ X> 50}, daß die Partei in der Umfrage mindestens 50% hat, obwohl ihr
wahrer Anteil nur p = 40% ist (siehe auch Abschnitt 9.3.2).
Abb.
4 (Sonntagsfrage):
Bei einer Wahlumfrage von Infratest
dimap im Februar 2002 ergaben sich
bei n = 1300 Befragungen die nebenstehenden prozentualen Anteile (in
Klammern: Änderungen gegenüber
dem Vormonat). Neben diesen Anteilen
ist man an unteren Konfidenzgrenzen
interessiert, die den Stimmanteil in der
Gesamtbevölkerung zuverlässig abschätzen. Für die kleinen Parteien Die Grünen bzw. die FDP will man z.B. wissen,
ob sie trotz ihres Anteils von 6% bzw.
9% in der Umfrage bei einer Wahl an
der 5%-Hürde scheitern würden (siehe
auch Abschnitt 13.4.1).
Quelle: www.infratest-dimap.dejsonntagsfrage
Sonntagsfrage
Welche Per!GI wCirdon Sie IYthklo, WQM
am kan mmden Som ~ BundE>Siagsw<hl w:.e?
SoFtStg a
r.T:nl
~
6
(·1)
s
I)
Untersuchungsanlage
Grundgesamtheit Wahlberechtigte Bevölkerung 1n Deutschland
ab 18 Jahren
Stichprobe: Reprasentative Zufallsauswah i/Randomstichprobe
Erhebungsverfahren. Computerges!Otzte Telefonlf\terv!ews (CATIJ
Fallzahl: 1.300 Befragte (900 West, 400 Ost)
Erhebungszeitraum: 2 1. • 26. Februar 2002
Fehlertole ranz:. 1 ,2 ' bis 2.7" ' Prozentpunkte
• bei einem Anteilswert von 5%
.. bei einem Anteilswert von 50%
DurchfC hrendes Institut: Infratest dimap
Anwendungsbeispiele
0.4
0-8
1.10.08
Klinische Studie
Zur Überprüfung der Wirksamkeit einer neuen - und typischerweise noch nicht zugelassenen - Behandlung einer spezifischen Krankheit wird eine klinische Studie
mit n erkrankten Patienten durchgeführt (die hierfür ihr Einverständnis erklärt haben). Der Behandlungserfolg wird vorher gerrau definiert und kann z.B. das Überleben
des Patienten nach einem Herzinfarkt oder die Rückbildung eines inoperablen Tumors sein. Von primärem Interesse ist dabei die unbekannte Erfolgswahrscheinlichkeit p der neuen Behandlung, d.h. die Wahrscheinlichkeit, daß sich bei einem zufällig ausgewählten Patienten der Behandlungserfolg einstellt, sowie der Vergleich
von p mit der bekannten Erfolgswahrscheinlichkeit p einer Standardtherapie. Die
0
Ziele einer solchen der Studie sind daher:
• Schätzung der Erfolgswahrscheinlichkeit p,
• Bestimmung einer unteren und oberen Konfidenzgrenze
pu und p0
für p,
• Überprüfung, ob die neue Behandlung die gleiche Erfolgswahrscheinlichkeit
hat wie die Standardbehandlung oder nicht, d.h. der zugehörige statistische Tests
soll sich für eine der beiden Hypothesen entscheiden:
Nullhypothese:
p= p
Alternative:
p :;= p
0
0
(kein Unterschied bei neuer und Standardbehandlung) 1
(Unterschied bei neuer und Standardbehandlung).
Die Anzahl X der Patienten, bei denen der Behandlungserfolg eingetritt, ist eine
Zufallsvariable mit Binomialverteilung B(n,p). Als konkretes Beispiel betrachten
wir jetzt eine neue Chemotherapie bei einem inoperablen Tumor, wobei die Rückbildung des Tumors als Erfolg angesehen wird. Die Standardtherapie habe nur eine
Erfolgsrate von p = 10%, und aufgrund von Tierexperimenten erhofft man sich
0
eine Erfolgsrate der neuen Therapie von p = 30%. Die zugehörigen Binomialverteilungen sind in Abb. 5 dargestellt, sowohl für eine kleine Studie mit nur n = 25 als
auch für eine größere Studie mit n = 100 Patienten. Hierbei fällt auf, daß sich beide
Binomialverteilungen für n = 25 wesentlich stärker überlappen als bei n = 100. Aus
diesen - und anderen intuitiv naheliegenden Gründen - werden die Schlußfolgerungen (für obigen Ziele) mit wachsendem Studienumfang n immer zuverlässiger.
Während es aus statistischer Sicht optimal ist, ein möglichst großes n vorzusehen,
sprechen andere Gründe wie z.B. hohe Kosten oder noch unbekannte Risiken der
neuen Therapie für ein möglichst kleines n. Zur Planung einer klinischen Studie gehört daher ganz wesentlich auch eine statistische Fallzahlkalkulation, bei der das
Anwendungsbeispiele
0-9
1.10.08
kleinste n bestimmt wird, mit dem die Studienziele noch hinreichend zuverlässig erreichbar sind (vgl. hierzu Abschnitt 13.5).
Abb. 5:
Dichte von X mit B(n ,p)-Vertellung :
Studien mit n = 25 (rechts) und n = 100
(unten) Patienten - jeweils für die Erfolgsrate p = 10% der Standardtherapie
und die erhoffte Erfolgsrate p = 30%
der neuen Therapie. Auffällig ist die
starke Überlappung beim genngeren
P"' 10%
30%
Dichten der B(n,p)-Verteilung zwe1er
P"' 30%
25%
·'äj20%
.J::.
""'
.>!
c
~15%
""'
_c
S:"' 10%
Umfang n = 25 (deswegen sind dort
5%
senkrechten Striche nicht mitgezeichnet) im Vergleich zum größeren Um-
0
2
4
6
B
10 12
Anzahl der Erfolge
14
16
1B
fang von n = 100..
Dichte von X mit B(n,p)-Verteilung:
p;. 10%0
15%
0
0
~
i1hd-r
J
0%
n"' 100
P" 30"1<
5
10
15
20
25
30
35
Anzah l der Erfolge
40
45
50
55
60
65
Wahrscheinlichkeitsräume
1.
1-1
26.2.09
Wahrscheinlichkeitsräume
Der Begriff des Zufalls wird in der Umgangssprache in verschiedenen Zusammenhängen benutzt. Im Rahmen der Stochastik beschäftigt man sich jedoch nur mit
speziellen zufälligen Vorgängen, die typischerweise bei (wissenschaftlichen) Experimenten, Beobachtungen oder Studien auftreten. Ein solcher stochastischer Vorgang
ist charakterisiert durch die folgenden drei Eigenschaften:
• Es gibt mehrere mögliche Ergebnisse.
Die Menge .f2 aller Ergebnisse heißt der Ergebnis- oder Stichprobenraum.
• Das Ergebnis ist nicht exakt vorhersagbar und nicht reproduzierbar.
• Der Vorgang ist (prinzipiell bzw. in Gedanken) wiederholbar.
Ein Ereignis A ist eine Menge von Ergebnissen, also eine Teilmenge des Stichprobenraums: A C .f!. Man sagt, daß das Ereignis A bei einem Ergebnis w E .f2 eingetreten
ist, wenn das Ergebnis w in A liegt, d.h w E A gilt. Ein Elementar-Ereignis A enthält
nur ein Ergebnis aE.f2, d.h. A = {a}.
Beispiele
stochastischer Vorgang
Ergebnisse
Ereignisse (Beispiele)
Werfen eines Würfels
Zahlen: 1, 2, ... , 6
gerade Zahl:
Roulette-Spiel
Zahlen: 0, 1, ... , 36
Rot:
{ 2, 4, 6}
{1,3, ... , 34,36}
1. Dutzend:
{ 1, 2, ... , 12}
"Wahlsonntags-Frage" an
Wahlberechtigten stellen
alle zugelassenen
Parteien
Ampel-Koalition:
Ziehen einer Kugel aus einer
Urne mit markierten Kugeln
alle verschiedenen
Markierungen
spezielle Markierung,
z.B. schwarz1 weiß
Messung eines Gewichts [kg]
positive Zahlen
Ubergewicht 1 Untergewicht
{ SPD, FDP, Grüne}
Häufigkeits-Interpretation der Wahrscheinlichkeit
Wird ein stochastisches Vorgang n-mal (unter gleichen Bedingungen) wiederholt, so
stabilisiert sich für wachsendes n die relative Häufigkeit p (A) mit der ein Ereignis A
n
bei denn Wiederholungen eingetreten ist (empirisches Gesetz der großen Zahlen), vgl.
auch Abb. 1. Der Grenzwert der Folge p (A) für n---+ oo wird als die Wahrscheinlichn
keit P(A) für das Ereignis A angesehen.
Wahrscheinlichkeitsräume
1-2
26.2.09
Abb. 1: Relative Häufigkeiten bei unabhängigen Wiederholungen für das RouletteEreignis Rot mit der Wahrscheinlichkeit p = gl .
37
oben: die ersten 50 (links) und 1000 (rechts) Wiederholungen,
unten: alle 20 000 Wiederholungen mit vergrößerter Achse der relativen Häufigkeit.
100%
90%
80%
70%
·"Q)
'='
.:.:
70%
60%
'"'
-""
""""
"":J
'"'
I
::1
'" so•"l>
J:
SOo/'!J
Q)
Q)
.
>
>
""
~
~
60%
Q)
Cl
~
40%
40%
30%
30%
20%
20%
10%
10%
0%
0
5
10
15
20
25
30
35
40
45
50
0
Anzahl der Wiederholungen
---------------------------------------
51 %
-
-
400
600
800
1 .000
Anzahl der Wiederholungen
52%
-
200
------------------------------------------------------------
SO%
ii)
--5,49%
""~
I
p ~~~-+--~~~--------------~~~~c-----------~~~~~~~--- p
Q)
>
::ffi 48%
~
47%
------------------------------------------------------------------
46%
45% ~~--~----~--~--~----~--~~--~--~----~~--~--~~--~~
0
5 000
10.000
Anzahl der Wiederholungen
15.000
20.000
Wahrscheinlichkeitsräume
1-3
26.2.09
Diese Häufigkeits-Interpretation der Wahrscheinlichkeit P(A) kann aber nicht für
eine streng mathematische Definition der Wahrscheinlichkeit verwendet werden. Deshalb wird der Begriff der Wahrscheinlichkeit nach A. N. Kolmogorov (1903-1987)
hier axiomatisch eingeführt. Dabei zeigt sich, daß es bei überabzählbarem Ergebnisraum .f2 (z.B. einem Intervall reeller Zahlen) nicht immer möglich ist, allen Teilmengen AC .f2 auf sinnvolle Weise eine Wahrscheinlichkeit zuzuordnen. Deshalb
wird die Wahrscheinlichkeit P(A) nur für Elemente eines geeigneten Systems d
von Teilmengen definiert.
1.0
Mengensysteme
Ein Mengensystem d über .f2 ist eine Menge von Teilmengen von D, also eine Teilmenge der Potenzmenge ~(D) von .f2. Wir wollen jetzt spezielle Mengensysteme d
beschreiben, die sich zur Beschreibung aller relevanten Ereignisse eignen. Hierzu stellen wir zuerst einige Forderungen auf, die dann zur Definiton einer a-Algebra führen. Zunächst sollen das unmögliche Ereignis 0 (was nie eintritt) und das sichere
Ereignis .f2 (was immer eintritt) zu d gehören. Weiter soll mit einem Ereignis A
auch das Komplementär-Ereignis (Komplement)
zu d gehören. Das Komplementär-Ereignis
CA tritt gerrau dann ein, wenn A nicht
eintritt. Schließlich sollen mit je zwei Ereignissen A und B auch die Vereinigung
AU B und der Durchschnitt An B zu d gehören. Allgemeiner soll mit jeder Folge
(An)
von Ereignissen auch ihre Vereinigung
UA
nElN n
: = { w E .f2 I es gibt ein n E W mit w E A }
n
und ihr Durchschnitt
nA
nElN n
: = { w E .a I für alle n E w ist w E A }
n
zu d gehören. Die Vereinigung von Ereignissen tritt gerrau dann ein, wenn mindestens eins der beteiligten Ereignisse eintritt. Und der Durchschnitt von Ereignissen
tritt gerrau dann ein, wenn alle beteiligten Ereignisse eintreten.
Wahrscheinlichkeitsräume
1-4
26.2.09
Definition 1: Ein Mengensystem d C
~(D) heißt
eine a-Algebra, wenn sie die
folgenden Eigenschaften hat:
(Al)
0 E d.
(A2)
d ist abgeschlossen gegen Komplemente:
Für jedes A E distauch CA E d.
(A3)
d ist abgeschlossen gegen abzählbare Vereinigungen:
Für jede Folge (A ) ausdistauch
n
UA
nElN n
E d.
Unter Berücksichtigung der Rechenregeln über Komplemente
(1)
C.f2=0
C( U A
(2)
nElN n
)=
n CA
nElN
n
C(
,
nA
CCA= A,
'
nElN n
)=
U CA
nElN
n
erhält man eine alternative ("duale") Charakterisierung von a-Algebren.
Definition 1 1: Ein Mengensystem d C
~(D) ist eine a-Algebra, wenn sie die
folgenden Eigenschaften hat:
(Al)'
.f2 E d.
(A2)
d ist abgeschlossen gegen Komplemente:
Für jedes A E distauch CA E d.
(A3) 1
d ist abgeschlossen gegen abzählbare Durchschnitte:
Für jede Folge (A ) ausdistauch
n
nA
nElN n
E d.
Eine a-Algebra d ist insbesondere auch abgeschlossen gegenüber Vereinigungen,
Durchschnitten und Differenzen je zweier Elemente
(3)
A,BEd
=?
AUE,
AnB,
A\B=AnCB E d.
Damit ist d auch abgeschlossen gegenüber Vereinigung und Durchschnitt je endlich
vieler Elemente. Man beachte jedoch, daß d nicht notwendig abgeschlossen ist ge-
genüber beliebigen (also auch überabzählbaren) Vereinigungen oder Durchschnitten.
Es mag zunächst verwundern, daß eine a-Algebra nicht auch alle ein-elementigen
sogenannten Elementar-Ereignisse {w} enthalten muß - ein Gegenbeispiel hierfür
Wahrscheinlichkeitsräume
1-5
26.2.09
ist die a-Algebra {0,.f2}. Ohne auf die Hintergründe hierfür einzugehen sei schon
jetzt angemerkt, daß die hier konkret verwendeten a-Algebren auch stets alle Elementar-Ereignisse enthalten werden.
Die Potenzmenge ~(D) ist offenbar die größte a-Algebra über D. Wenn der Ergebnisraum .f2 endlich oder abzählbar (d.h. höchstens abzählbar) ist, so verwenden wir hier
immer diese a-Algebra d= ~(D). Dies ist auch der Grund dafür, daß in der Schule
und vielen Lehrbüchern bei der Betrachtung höchstens-abzählbarer Ergebnisräume
.f2 auf die Definition von a-Algebren verzichtet werden kann.
Bei überabzählbarem Ergebnisraum .f2 - wie z.B. IR oder ein reelles Intervall - ist die
Potenzmenge ~(D) jedoch "sehr umfangreich" und man schränkt sich daher auf geeignete a-Algebren d
:;= ~(D)
ein. Hierbei gibt man sich typischerweise ein "inte-
ressierendes" nicht-leeres Mengensystem !?l3 C ~(D) vor, welche noch keine a-Algebra ist. Dann wird das System !?l3 zu einer a-Algebra erweitert, wobei die kleinste !?l3
umfassende a-Algebra gewählt und diese mit a(!?l3) bezeichnet wird. Formal ist a(!?l3)
definiert als Durchschnitt aller a-Algebren d C ~(D) mit !?l3 Cd (es gibt mindestens ein solches d, und zwar d = ~( D)):
a(!?l3)==
n
d
dc~(D)
a-Algebra
fllJCd
=
{AIAEdjürjedea-Algebradc~(D)mit!?l3cd}.
Es läßt sich (als Übung) zeigen, daß das so definierte a(!?l3) eine a-Algebra ist (auch
wenn .f2 nicht überabzählbar ist). a(!?l3) heißt die von !?l3 erzeugte a-Algebra.
Borel-Mengen in IR
Für den Ergebnisraum .f2 =IR sind primär die Intervalle als Ereignisse von Interesse, wobei ein reelles Intervall I:;= 0 zu einem der folgenden vier Typen gehört:
< a < b < oo ,
oo < a < b < oo ,
oo < a < b < oo ,
oo < a < b < oo .
•
offen:
( a , b)
mit
- oo
•
rechts-offen:
[ a , b)
mit
-
•
links-offen:
( a , b]
mit
-
•
abgeschlossen:
[ a , b]
mit
-
Da die Menge J C ~(IR) aller reellen Intervalle keine a-Algebra ist (weil z.B. das
Komplement eines Intervalles im allgemeinen kein Intervall ist), betrachten wir die
von J erzeugte a-Algebra und bezeichnen sie mit lB: = a(J). Die Elemente BE lB
werden zu Ehren des Mathematikers Emile Borel (1871-1956) auch Borel-Mengen ge-
Wahrscheinlichkeitsräume
1-6
26.2.09
nannt. Die a-Algebra IB wird bereits von der Teilmenge J 10 aller offenen Intervalle
erzeugt, d.h. IB = a(J
0
),
weil sich alle anderen Intervalle als abzählbare Dur-
schnitte offener Intervalle darstellen lassen:
[a,b) =
n (a-1.n 'b),
nElN
(a,b] =
n (a,b+l),
n
nElN
[ a 'b l =
n (a- ~ 'b+ ~).
nElN
IB wird auch noch von anderen Intervall-Mengen a-erzeugt, z.B. von der Menge
Jj
der links-unbeschränkten rechts-abgeschlossenen Intervalle
(4)
Jj =
mit
weil jedes offene Intervall durch Elemente aus
(a, b) = (-oo,b) n c(-oo,a]
{ (- oo, b]I b E IR},
Jj wie folgt darstellbar ist:
mit
(-oo,b) =
U (-oo,b-1.].
nElN
n
Neben den Intervallen sind auch die folgende Mengen reeller Zahlen Borel-Mengen,
wie sich leicht zeigen läßt:
•
alle ein-elementigen Teilmengen (Elementar-Ereignisse) von IR,
•
alle endlichen und alle abzählbaren Teilmengen von IR,
•
alle offenen und alle abgeschlossenen Teilmengen von IR.
Es taucht nun die Frage auf, ob es überhaupt Teilmengen von IR gibt, die nicht zu
IB gehören. Obwohl dies mit ja zu beantworten ist, kann man solche Mengen nicht
elementar angeben: es bedarf des (nicht-konstruktiven) Auswahlaxioms der Mengenlehre um die Existenz solcher nicht-Bore1-Mengen zu zeigen, worauf wir hier
verzichten.
Wenn wir im folgenden mit dem Ergebnisraum .f2 =IR arbeiten, so werden wir hier
immer die a-Algebra d= IB der Bore1-Mengen verwenden.
Oft ist der Ergebnisraum .f2 jedoch ein reelles Intervall, oder allgemeiner eine Borel-
Menge. In diesem Fall verwenden wir stets die a-Algebra d= IBn aller Borel-Teilmengen von D, d.h.
(5)
IBn:= {Ben IBEIB} =
IBn~(n).
Man beachte, daß bei höchstens abzählbarem .f2 C IR die a-Algebra IBn gerrau die Potenzmenge
~(D)
ist (weil jede Teilmenge von .f2 höchstens abzählbar).
Wahrscheinlichkeitsräume
1.1
1-7
26.2.09
Wahrscheinlichkeitsmaße
Den Elementen (Ereignissen) einer a-Algebra d über einem Ergebnisraum .f2 sollen
jetzt Wahrscheinlichkeilen zugeordnet werden. Die folgenden Axiomatisierung des
Wahrscheinlichkeitsbegriffs geht auf Andrey Kolmogorov (1903-1987) zurück.
Definition: Ein Wahrscheinlichkeitsmaß P auf einer a-Algebra d über einem
Ergebnisraum .f2 :;= 0 ist eine Abbildung P: d-----+ IR mit den Eigenschaften:
(P1)
P ist nicht-negativ:
P(A) > 0
(P2)
P ist normiert:
P( .f!) = 1 .
(P3)
P ist a -additiv:
Für jede Folge
für alle A E d.
(An E d) von paarweise disjunkten
Mengen (d.h. Ai n Aj = 0 für alle i :;= j) gilt
P(
UA
nElN n
) =
2:
P(A ) .
nElN
n
Das Tripel (D, d, P) wird als Wahrscheinlichkeitsraum (kurz: W-Raum) und das
Wahrscheinlichkeitsmaß (kurz: W-Maß) auch als (Wahrscheinlichkeits-) Verteilung bezeichnet. Für ein Ereignis A E dheißt P(A) die Wahrscheinlichkeit (für das Eintreten)
von A.
Wir stellen zuerst einige elementare Folgerungen aus den Axiomen (P1) - (P3) zusammen. Zunächst hat das unmögliche Ereignis die Wahrscheinlichkeit Null
(1)
P(0) =
0.
Weiter ist P endlich-additiv
(2)
Für paarweise disjunkte A1, ... , AKE d gilt:
Das komplementäre Ereignis hat die (zu 1 komplementäre) Wahrscheinlichkeit
(3)
P(CA)
= 1- P(A)
für alle A E d.
Die Werte von P liegen immer im abgeschlossenen Einheitsintervall [ 0, 1]
(4)
0 < P(A)
<1
für alle A E d.
Die Wahrscheinlichkeit der Vereinigung zweier Ereignisse A, BE d ist
(5)
P(A UB) = P(A)
+ P(B)- P(AnB) <
P(A)
+ P(B)
Wahrscheinlichkeitsräume
1-8
26.2.09
Man beachte, daß dies für A nB = 0 ein Spezialfall von (2) mit K = 2 ist. Die Wahrscheinlichkeit einer beliebigen endlichen Vereinigung nicht notwendig disjunkter
Ereignisse A , ... , AK E d läßt sich ebenfalls durch eine Additionsformel angeben
1
K
(6)
P(
U Ak)
k=l
=
2:=
0~IC{l, ... /(}
(-1)#1 - 1 -P(
nA.),
iEI
z
wobei #I die Anzahl der Elemente der Menge I bezeichnet. Zusätzlich ergibt sich
aus (5) per Induktion die endliche Sub-Addititvität von P:
(7)
P(
K
K
k=l
k=l
U Ak) < 2:= P(Ak).
Weiter ist P monoton, weil
(8)
AcE
P( A)
< P(B)
= P(B\A)
+ P(A)
für alle A, BE d.
Die obigen Eigenschaften eines Wahrscheinlichkeitsmaßes sind - mit Ausnahme
der a-Additivität - bereits von relativen Häufigkeiten her bekannt und entsprechen
damit den Eigenschaften des intuitiven Wahrscheinlichkeitsbegriffs. Die a-Additivität (P3) ist eine Verallgemeinerung der endlichen Additivität (2), die erst bei unendlichem Ergebnisraum .f2 eine (wichtige) Rolle spielt. Für endliches .f2 kann man man
die Forderung (P3) sogar äquivalent durch (2) ersetzen1 weil dann für jede Folge (An)
paarweise disjunkter Teilmengen von .f2 höchstens endlich viele A
n
:;=
0 sind.
Wahrscheinlichkeitsräume (D, d,P) werden als Modelle für reale stochastische
Vorgänge mit Ergebnisraum .f2 verwendet., wobei P(A) die Wahrscheinlichkeit eines
Ereignisses A in Sinne der Häufigkeits-Interpretation quantifizieren soll. Die Wahl
eines (zumindest approximativ) adäquaten Wahrscheinlichkeitsmaßes P für einen
konkreten stochastischen Vorgang ist im allgemeinen nicht leicht.
Wir stellen jetzt noch einige wichtige Eigenschaften eines Wahrscheinlichkeitsmaßes P auf (D, s1) zusammen, die sich auf eine Folge (An E d) von Ereignissen beziehen, und somit primär für unendliches .f2 von Bedeutung sind:
(9)
Wenn (An) aufsteigend ist, d.h. An cAn+l für allen, so gilt:
P( U A
n E lN n
(10)
) = lim P(A )
n---+oo
n
(,,Stetigkeit von unten").
Wenn (An) abfallend ist, d.h. An+l cAn für allen, so gilt:
n
P( n E lNA n )
= lim
n---+oo
P(A )
n
(,,Stetigkeit von oben"),
Wahrscheinlichkeitsräume
P(
(11)
1-9
26.2.09
UA
nElN n
) < 2:= P(A )
("a -Subadditivität").
n
nElN
Man beachte, daß die rechte Seite in (11) nicht notwendig (absolut) konvergent sein
muß (z.B. im Fall A = .f2 für alle n). Da der Reihenwert dann aber gleich oo ist, gilt
n
die Ungleichung trivialerweise.
Abschließend zeigen wir noch ein Resulat über eine beliebige (nicht notwendig abzählbare) Familie disjunkter Ereignisse:
(12)
Bei einer beliebigen Familie (A. E d). I paarwezse disjunkter Ereignisse
z
zE
haben höchstens abzählbar viele eine von 0 verschiedene Wahrscheinlichkeit)
d.h. die Menge K = { k EI I P(Ak) > 0} ist höchstens abzählbar.
Für eine höchstens abzählbare Indexmenge I ist das Resultat trivial.
1.2
Endliche Wahrscheinlichkeitsräume
Als einfachsten Fall betrachten wir zunächst endliche Wahrscheinlichkeitsräume
(D, d, P), d.h. der Ergebnisraum .f2 ist endlich und es ist d =
~(D).
Aus der (endlichen) Additivität ergibt sich
(1)
2:= P{w}
P(A) =
für A
cn.
WEA
Folglich ist P bereits eindeutig durch die Elementar-Wahrscheinlichkeiten P{ w} aller
Ergebnisse w E .f2 bestimmt, deren Summe 1 ergibt:
(2)
2:= P{w}
=
1.
wED
Ist umgekehrt eine nicht-negative Abbildung f: .f2-----+ [ 0, oo) gegeben mit
(3)
2:= f(w)
=
1,
wED
so läßt sich ein zugehöriges Wahrscheinlichkeitsmaß Pf definieren durch
(4)
für A eil,
dessen Elementarwahrscheinlichkeiten Pf{ w} = f( w) durch f gegeben sind.
Wahrscheinlichkeitsräume
26.2.09
1-10
Die Funktion f der Elementarwahrscheinlichkeiten wird auch als Zähldichte oder
Wahrscheinlichkeitsfunktion von
Pf bezeichnet. Typischerweise definiert man em
Wahrscheinlichkeitsmaß P durch Angabe der zugehörigen Zähldichte P{-}.
1.2.1
Diskrete Gleichverteilung
Wenn alle Ergebnisse gleich-wahrscheinlich sind, d.h. wenn
(1)
mit
n = #f2,
so heißt das Wahrscheinlichkeitsmaß P die diskrete Gleichverteilung auf f2. Die
Wahrscheinlichkeit eines Ereignisses A ergibt sich dann als Quotient
(2)
_#A
P(A)- #D.
Die Gleichverteilung tritt typischerweise bei remen Glücksspielen (z.B. Roulette,
Werfen von homogenen Würfeln, Zahlenlotto) auf. Diese Situationen lassen sich
meist äquivalent durch ein Urnenexperiment beschreiben: aus einer Urne mit von 1
bis n durchnumerierten Kugeln wird zufällig eine Kugel gezogen und ihre Nummer
notiert. Für n = 6 läßt sich so das Werfen eines homogenen Würfels charakterisieren.
1.2.2
Bernoulli-Verteilung
Eine Wahrscheinlichkeitsverteilung auf dem zwei-elementigen Ergebnisraum
f2 = {0, 1} ist vollständig bestimmt durch eine der beiden Wahrscheinlichkeiten
(1)
p:=P{1},
q : = P { o} =
P(C {1}) = 1- p ,
die sich auch wie folgt darstellen lassen
(2)
für k E {0, 1}.
Diese Verteilung heißt auch Bernoulli-Verteilung- nach Jakob Bernoulli (1654-1705)und wird mit B(1,p) bezeichnet, weil sie auch eine spezielle Binomialverteilung (vgl.
1.2.3) ist. Um triviale Fälle auszuschließen, werden wir bei Anwendungen stets implizit 0 < p < 1 voraussetzen, wenn nicht ausdrücklich p = 0 oder p = 1 zugelassen
werden.
Die Bernoulli-Verteilung findet immer dann Anwendung, wenn man sich nur für
das Eintreten eines speziellen Ziel-Ereignisses E (oft als Treffer oder Erfolg bezeich-
Wahrscheinlichkeitsräume
1-11
26.2.09
net) interessiert (z.B. ob ein Wähler einer bestimmten Partei seine Stimme geben
würde). Codiert man das Eintreten durch die Zahl1 und den Nicht-Eintritt durch 0,
so ist p =P(E) gerrau die Wahrscheinlichkeit des Ziel-Ereignisses E.
1.2.3
Binomial-Verteilung
Die Binomialverteilung B(n,p) vom Umfang n E W mit Parameter 0 < p < 1 ist auf
dem Ergebnisraum .f2 = {0, 1, ... , n} definiert durch die Zähldichte
(1)
(~)Pk
b(kl n,p) := P{k} =
(1-pt-k
für k = 0, 1, ... , n.
Diese Binomial-Wahrscheinlichkeiten lassen sich für 0 < p < 1 schrittweise vorwärts
(d.h. für k = 0, 1, ... , n) oder rückwärts (d.h. für k = n, n-1, ... , 0) berechnen mit
n
(2)
b(Oin,p)
q
(3)
b(kln,p)
n-k+l p
-k-.
(4)
b(nln,p)
p.
mit q=1-p
q. b(k-1ln,p)
für k = 1, ... , n
n
Die Wahrscheinlichkeiten b ( k In, p) sind für k = 0, 1, ... zuerst anwachsend - solange
k < n p gilt - und dann für k > n p wieder abfallend (vgl. z.B. Kap. 0, Abb. 3-4).
Für n = 1 ergibt sich die Bernoulli-Verteilung. Wie später noch gerrauer ausgeführt
wird, beschreibt die Binomial-Verteilung die Wahrscheinlichkeiten für die Häufigkeit
mit der ein spezielles Ziel-Ereignis E bei n unabhängigen Wiederholungen eintritt, wobei p = P(E) die Wahrscheinlichkeit dieses Ziel-Ereignisses E ist. Beispiele für solche Anwendungen sind die Wahlumfragen in 0.3 oder die klinische Studien in 0.4.
Wie bei der Bernoulli-Verteilung setzen wir bei Anwendungen implizit 0 < p < 1 voraus, wenn nicht ausdrücklich p = 0 oder p = 1 zugelassen werden.
1.2.4* Relative Häufigkeiten
Wir haben bereits bemerkt, daß die Eigenschaften (P1) - (P3) für relative Häufigkeiten gelten und wollen dies jetzt präzisieren. Hierzu sei M eine beliebige nichtleere
Menge und x = (xl' ... , xn) E Mn ein n- Tupel von Elementen aus M. Auf der Menge
Wahrscheinlichkeitsräume
1-12
26.2.09
.f2 = { x , ... , x } aller verschiedenen Elemente des Tupels x läßt sich das Wahrx
n
1
scheinlichkeitsmaß P der relativen Häufigkeiten definieren durch die Zähldichte
X
(1)
P { x .} : = 1... #
x
z
n
{k =
11 ••• 1 n I xk = x.}
z
(relative Häufigkeit des Werts x. im Tupel (x , ... , x ).
z
1
n
Die Wahrscheinlichkeit einer Teilmenge AC .f2 ist dann gegeben durch
X
Px (A) : = 1..n · #
(2)
{k =
11 ••• 1 n I xk E A} (relative Häufigkeit der x-Werte in A).
P wird auch als die empirische Verteilung von x bezeichnet. Wenn alle Komponenx
ten von x verschieden sind, so ist P natürlich die Gleichverteilung auf .f2 .
X
1.3
X
Abzählbare Wahrscheinlichkeitsräume
Wir wollen jetzt abzählbare Wahrscheinlichkeitsräume (D, d,P) betrachten, d.h. der
Ergebnisraum .f2 ist abzählbar und es ist d =
~(D).
Typische Beispiele für ein sol-
ches .f2 sind die natürlichen Zahlen W = {1, 2, ... } oder die nicht-negativen ganzen
Zahlen W = Z + = {0, 1, 2, ... }.
0
Für endliches bzw. abzählbares AC .f2 ergibt sich mit der endlichen bzw. a-Additi-
vität
(1)
2:= P{w}
P(A)
für AC .f!.
WEA
wobei die Schreibweise bereits andeutet, daß es (auch bei abzählbarem A) nicht auf
die Reihenfolge der Summation ankommt (dies ergibt sich aus dem Umordnungssatz für absolut konvergte Reihen). Folglich ist ?bereits eindeutig durch die ElementarWahrscheinlichkeiten P{ w} aller Ergebnisse w E .f2 bestimmt., wobei
(2)
2:= P{w}
1.
=
wED
Ist umgekehrt eine nicht-negative Abbildung f: .f2-----+ [ 0, oo) gegeben mit
(3)
2:= f(w)
=
1,
wED
so läßt sich ein zugehöriges Wahrscheinlichkeitsmaß Pf definieren durch
(4)
P/A) : =
2:= f(w)
wEA
für A eil,
Wahrscheinlichkeitsräume
1-13
26.2.09
dessen Elementarwahrscheinlichkeiten Pf{ w} = f( w) durch f gegeben sind.
Die Funktion f der Elementarwahrscheinlichkeiten wird auch als Zähldichte oder
Wahrscheinlichkeitsfunktion von Pf bezeichnet. Typischerweise definiert man em
Wahrscheinlichkeitsmaß P durch Angabe der zugehörigen Zähldichte P{-}.
Da die abzählbaren Wahrscheinlichkeitsräume vieles mit den endlichen Wahrscheinlichkeitsräumen gemeinsam haben, faßt man sie zu den diskreten Wahrscheinlichkeitsräumen zusammen: (f2, d,P) heißt diskret, falls f2 höchstens abzählbar
und d = ~(f2) ist.
1.3.1
Poisson-Verteilung
Die auf Sirneon Poisson (1781-1840) zurückgehende Poisson-Verteilung Pois(p,) mit
Parameter p, > 0 ist auf dem Ergebnisraum f2 = W = {0, 1, 2, ... } definiert durch die
0
Zähldichte
(1)
p ( k 11-L) : =
P{ k}
für k = 0, 1, ...
Die Poisson-Wahrscheinlichkeiten lassen sich schrittweise für k = 0, 1, 2, ..... wie
folgt berechnen
(2)
(3)
für k > 1.
Die Folge dieser Wahrscheinlichkeiten p ( k ;p,) ist für k = 0, 1, 2, ... zuerst anwachsend
solange k < p, gilt, und dann für k > p, wieder abfallend (vgl. z.B. Kap. 0, Abb. 1-2).
Die Poisson-Verteilung wird als Modell verwendet für die Anzahl von Eintritten eines interessierenden Ziel-Ereignisses in einer spezifizierten Grundgesamtheit, wie
z.B. die Anzahl der Leukämieerkrankungen von Kindern in einer Region innerhalb
eines Zeitraums (vgl. Abschnitt 0.1). Hierbei müssen allerdings die einzelnen Ereignisse zufällig und unabhängig voneinander eintreten (was z.B. für Grippe-Erkrankungen in einer Region nicht zutrifft, weil diese sich durch Ansteckung ausbreiten und
somit nicht voneinander unabhängig auftreten). Der Parameter p, (der sich später
als der Erwartungswert der Verteilung herausstellen wird) entspricht dabei der (im
Durchschnitt) zu erwartenden Anzahl von Eintritten. Das Auftreten der Poisson-
Wahrscheinlichkeitsräume
1-14
26.2.09
Verteilung kann auch aus anderen Annahmen hergeleitet werden, die bei konkreten
Anwendungen plausibel erscheinen (vgl. Abschnitt 6.2.4 oder 9.3.2).
In der Praxis können bei solchen Anwendungen die (zufälligen) Anzahlen von
Ereignissen nicht beliebig große Zahlen k annehmen, weil die Grundgesamtheit (z.B.
die Anzahl aller Kinder einer Region) beschränkt ist. Dennoch kann man hier in guter Näherung von einer Poisson-Verteilung ausgehen, weil die Poisson-Wahrscheinlichkeiten p ( k ;p,) extrem klein werden, wenn k (im Verhältnis zu p,) groß wird, so
daß man sie bei praktischen Berechnungen vernachlässigen kann.
Eine weitere typische Anwendung der Poisson-Verteilung liegt vor, wenn abzählbar
viele "Punkt-Partikel" zufällig und unabhängig voneinander im Ra um lR 3 (oder in
der Ebene lR 2, auf der Zahlengeraden lR) verteilt sind. Die Anzahl der Partikel in
einer zufällig ausgewählten Teilregion V läßt sich durch eine Poisson-Verteilung beschreiben. Hierbei ist p, die (im Durchschnitt) zu erwartende Partikelzahl in V und
entspricht der Konzentration der Partikel. Obwohl bei konkreten Anwendungen immer nur endlich viele Partikel in beschränkten Teilmengen von lR 3 (bzw. lR 2 oder lR)
zufällig verteilt sind, ist die Poisson-Verteilung auch dann noch ein angemessenes
Modell. Beispiele für solche Anwendungen der Poisson-Verteilung sind z.B. folgende
Anzahlen: Asbestfasern in einem Stichprobenvolumen V (vgl. 0.1), Rosinen im Kuchen, Druckfehler pro Seite etc.
1.4
Reelle Wahrscheinlichkeitsmaße mit Dichten
Wir wollen jetzt auch überabzählbare Eregbnisräume .f2 betrachten, wobei wir zunächst nur den Fall betrachten, daß .f2 = (a, ß) C lR ein offenes reelles Intervall und
d= lB.ft die a-Algebra aller Borel-Teilmengen von .f2 ist. Weiter wollen wir hier zunächst nur solche Wahrscheinlichkeitsmaße P auf d
betrachten, die eine stetige
Dichte besitzen. Eine stetige Wahrscheinlichkeitsdichte (kurz: Dichte) auf .f2 ist eine
nicht-negative stetige Funktion f: .f2-----+ [0, oo), deren (Lebesgue-)Integral über dem In-
tervall .f2 = (a, ß) gleich 1 ist:
Wahrscheinlichkeitsräume
1-15
26.2.09
y
Dichte y=f(x) von P
ß
1
1 f(x) dx
(1)
bzw.
Q
1 f(x) dx = 1.
[2
Wir setzen jetzt (ohne Beweis) das fol·
gende Resulat aus der Wahrscheinlich·
a~
b~
X:
Abb. 1: Dichte und Wahrscheinlichkeit
keitstheorie voraus:
Theorem: Zu jeder stetigen Wahrscheinlichkeitsdichte f: .f2-----+ [0, oo) gibt es genau
ein Wahrscheinlichkeitsmaß Pf auf lB [2! so daß für jedes Intervall (a, b] C .f2 gilt
b
Pf( a, b] = 1 f(x) dx
(2)
(vgl. Abb. 1).
a
Zusatz 1: Die Wahrscheinlichkeit einer beliebigen Borel-Menge B C .f2 ist hierbei das
Lebesgue-Integral von f über der Menge B
(3)
PjB) = 1 f(x) dx.
B
Zusatz 2: Das Theorem und der Zusatz 1 gelten gelten auch für jede meßbare
(vgl. 2.2 Def 1) - also nicht notwendig stetige - Wahrscheinlichkeitsdichte f
Insbesondere haben alle Elementar-Ereignisse die Wahrscheinlichkeit Null
(4)
für alle w E .f2.
Dies ist zunächst überraschend und unterscheidet überabzählbare von höchstens ab-
zählbaren Wahrscheinlichkeitsräumen. Bei letzteren konnten wir ein Wahrscheinlichkeitsmaß P sogar durch die Angabe aller Elementar-Wahrscheinlichkeiten P{ w}
definieren. Aber bei überabzählbarem .f2 bilden die Elementarereignisse {w} eine überabzählbare disjunkte Familie von Ereignissen, von denen nach 1.1 (12) höchstens abzählbar viele eine von Null verschiedene Wahrscheinlichkeit haben. Bei einem
durch eine Dichte f spezifizierten Wahrscheinlichkeitsmaß Pf spielen daher die Elementar-Wahrscheinlichkeiten (4) keine Rolle, sondern die Wahrscheinlichkeiten (2)
für Intervalle sind von primärem Interesse. Die Wahrscheinlichkeit eines Intervalls
hängt nicht davon ab, ob die Randpunkte zum Intervall dazugehören oder nicht
b
(5)
P [a,b] =P [a,b) =Pf(a,b) =Pf(a,b] = 1f(x)dx
füra<b.
1
1
a
Wahrscheinlichkeitsräume
26.2.09
1-16
Insbesondere kann man auch den Raum .f2 durch Hinzunahme eines oder beider
der Randpunkte a und
ß (sofern
diese nicht ± oo sind) erweitern zu einem der In-
tervalle (a, ß], [a, ß) oder [a,ß]. Das Theorem gilt auch in diesem Fall noch und das
zugehörige Wahrscheinlichkeitmaß ist nur eine Fortsetzung des obigen Wahrscheinlichkeitsmaßes
Pr
Vergleicht man die Definition des Wahrscheinlichkeitmaßes Pf in (3) mit den entsprechenden Definitionen 1.2 (4) bzw. 1.3 (4) für endliches bzw. abzählbares D, so
stellt man fest, daß statt der dortigen Summe hier ein Integral steht. Im Rahmen der
Maßtheorie lassen sich Summen ebenfalls als Integrale (bzgl. des abzählenden Maßes) auffassen und dies erlaubt dann eine gemeinsame Behandlung von Wahrscheinlichkeitmaßen, die durch eine Dichte f definiert sind.
Zum Integral-Begriff: Bei den obigen und allen folgenden Betrachtungen mit Integralen liegt hier stets das Lebesgue-Integral (nach Henri Lebesgue 1875-1941) zugrunde, welches das sogenannte Riemann-Integral (nach Bernhard Riemann,
1826-1866) verallgemeinert. Das Riemann-Integral ist nur für stetige Funktionen
über kompakten reellen Intervallen [a, b] definiert und stimmt dann mit dem Lebesgue-Integral überein. Damit man auch ohne Kenntnis des Lebesgue-Integrals die
wesentliche Integrale interpretieren und bestimmen kann, wollen wir kurz erläutern, wie man das Integral für stetige Funktionen über einem beliebigen reellen Intervall und über endliche Vereinigungen von Intervallen auf das Riemann-Integral zurückführen kann (zur Veranschaulichung vgl. Abb. 2).
Wenn eine stetige Funktion f auf dem halb-offenen Intervall (a, b] definiert ist (wobei
auch a =- oo zugelassen ist), so ergibt sich das Integral über (a, b] wie folgt durch
"stetige Fortsetzung":
(6)
b
1f(x) dx = lim
a
cl a
b
1f(x) dx
("c l a" bedeutet "c---+ a mit c > a").
c
Analog erhält man das Integral über dem halb-offenen Intervall [a, b) bzw. dem offen Intervall (a, b) wennf dort definiert und stetig ist (auch für b = oo):
b
(7)
1f(x) dx
a
lim
d
1f(x) dx
dj b a
bzw.
b
(8)
1f(x) dx
a
lim lim
d
1f(x) dx.
cla dj b c
("d I b" bedeutet "d---+ b mit d < b")
Wahrscheinlichkeitsräume
1-17
26.2.09
Abb. 2: Eine im Nullpunkt unstetige Funktion
als Beispiel für (6)-(10) 1 vgl. auch 4.4.2 Abb 4zu (6): wähle (a,b] als (0,5] oder (-oo,-1].
zu (7): wähle [a, b) als [ -5, 0) oder [1, oo).
zu (8): wähle (a,b) als (-oo,O) oder (O,oo).
zu (9): wähle K = 2,11 = (- oo, 0), 12 = (0, oo).
zu {10): wählen= 1, (a, b) = (- oo, oo) 1 c = 0.
1
-5
0
5
Damit sind die Integrale in (1), (2) und (5) auf das Riemann-Integral zurückführbar.
Für das Integral in (3) ist dies auch einem wichtigen Speziall noch möglich. Wenn
die Menge B eine Vereinigung endlich vieler disjunkter Intervalle 1 , ... ,IK ist, so gilt
1
(9)
Jf(x) dx
Jf( x) dx + .... + Jf( x) dx ,
B
I1
IK
wobei die rechte Seite wieder auf Riemann-Integrale zurückführbar ist. Um das
Wahrscheinlichkeitsmaß Pf jedoch auf allen Borel-Teilmengen von .f2 (d.h. auf IB D)
durch (3) zu definieren, wird das Lebesgue-Integral benötigt. Allerdings werden wir
hier nur konkrete Wahrscheinlichkeiten PjE) für den Fall bestimmen, daß Bein Intervall oder eine endliche disjunkte Vereinigung von Intervallen ist, und hierfür ist
das Riemann-Integral ausreichend.
Abschließend betrachten wir noch den Fall, daß eine Funktion f: (a,b)----+ [0, oo) in
höchstens endlich vielen Punkten c1 < c2 < ... < cn von (a, b) unstetig ist. Dann läßt
sich das Integral über (a,b) zerlegen, indem man über die offenen Teilintervalle
(a,c1), (c1, c2), ... , (cn,b) integriert, auf denen f jeweils stetig ist (und somit das Riemann-Integral verwendet werden kann, zur Veranschaulichung vgl. Abb. 2)
b
(10)
Jf(x) dx
a
c1
=
J f(x) dx
c2
+
b
J f(x) dx .... + Jf(x) dx.
a
Eine Funktion f: .f2----+ [0, oo) mit höchstens endlich vielen Unstetigkeitsstellen heißt
eine Wahrscheinlichkeitsdichte, wenn sie die Bedingung (1) erfüllt, und das obige Theorem gilt auch noch für solche Wahrscheinlichkeitsdichten. Das durch (2) gegebene
Wahrscheinlichkeitsmaß
Pf ändert sich nicht, wenn man die Funktionswerte der
Dichte f in den endlich vielen Unstetigkeitststellen abändert. Es ist zweckmäßig, die
Wahrscheinlichkeitsräume
1-18
26.2.09
Dichte f in ihren Unstetigkeitsstellen gleich 0 zu setzen, und eine solche Dichte wollen wir als kanonische Dichte bezeichnen (sie ist nach 4.3 sogar eindeutig bestimmt).
Obwohl wir es hier primär mit stetigen Dichten zu tun haben werden, führen uns
bereits elementare Operationen von stetigen Dichten zu solchen, die in endlich vielen Punkten unstetig sind (vgl. hierzu die Bemerkung nach 4.4.2 (6)).
In der Maß- und Wahrscheinlichkeitstheorie definiert man noch allgemeiner eine
Wahrscheinlichkeitsdichte als eine meßbare Funktion f: D-----+ [0, oo) (vgl. 2.2 Def 1)
mit der Eigenschaft (1) und beweist dort das Theorem sogar für meßbare (statt ste-
tige) Dichten.
1.4.1
Normal-Verteilung
Die mit Abstand bedeutendste Verteilung auf .f2 = (- oo, + oo) =IR ist die Normal-
verteilung N(p,, a 2) mit den Parametern p, E IR und a > 0. Ihre stetige Wahrscheinlichkeitsdichte ist gegeben durch
(1)
f(x)
1
---·e
_ _!_ (~)2
2
a
für xE IR.
.. nd ri:JI
2
Dichte:yo=f(x)
J
y
X
o~~~=-~~~-+-~+-~-+-~~~~~~
p-4a
p-3o
p-2o
p-o
fi+O
p+2o
p+3o
p+4o
Abb. 1: Dichte f( x) der Normalverteilung N(p,, a 2 ) als Funktion von x (untere Achse)
und als Funktionf(u) der Standardisierung u=(x-p,)fa (obere Achse).
Wahrscheinlichkeitsräume
1-19
26.2.09
Man kann (z.B. unter Verwendung der Gamma-Funktion, vgl. 6.2.4) zeigen
+oo
J
(2)
f( x) dx = 1
-00
Die Funktion! (vgl. Abb. 1 oder einen 10-DM-Schein) ist eine Gauß)sche Glockenkurve
(nach Carl Friedrich Gauß, 1777-1855) mit einem Maximum in x = p, und den Wendepunkten x = p, ± a.
Auf Bedeutung und Anwendungen der Normalverteilung gehen wir erst später ein.
(vgl. aber Abb. 2 und 3).
Im Fall p, = 0 und a = 1 liegt die Standard-Normalverteilung N(O, 1) vor, deren Dichte
wir hier mit cp bezeichnen:
(3)
cp(x)
1
.e
1 2
--x
für xE IR.
2
/2i
Geburtsgewicht '[kg]
Normalverteilungsdrehte
mit Histogramm
Geburtsgewicht lkg]
Normalverteilungsdrehte
mit Histogramm
Jungen
Mädchen
0
2
J.1 = 3 .44
a= 0 .49
J.1= 3.30
a=0,45
3
4
5
6
0
2
3
4
5
6
Abb. 2: Histogramme des Geburtsgewichts aller 1974 in der Bundesrepublik
Deutschland geborenen Kinder (Quelle: Statistisches Bundesamt). Die "ange-
paßte" Dichte einer Normalverteilung (jeweils für Mädchen und Jungen getrennt)
stellt bis auf den unteren Gewichtsbereich ein zufriedenstellendes Modell dar.
Wahrscheinlichkeitsräume
JJ.-2a
j.i-2a
J.l+2a
jJ.
1-20
26.2.09
Normal-Dichte
648 Mädchen
J-1=53.28
a= 2.59
JJ
p + 2a
Normal-Dichte
648 Jungen
J-1=53.64
a= 2 .53
44 46 48 50 52 54 56 58 60 62 64
44 46 48 50 52 54 56 58 60 62 64
Größe: Kind (Kontrolle) [Zoll]
Größe: Kind (Kontrolle) [Zoll}
Abb. 3: Histogramme der Körpergröße von Kindern im Alter von 10 Jahren aus
einer amerikanischen Studie über Kindesentwicklung mit "angepaßter" Dichte
einer Normalverteilung. Quelle: J.L. Hodges, D. Krech, R.S. Crutchfield (1975).
StatLab: an empirical introduction to statistics. McGraw-Hill, New York.
1.4.2 Exponential-Verteilung
Die Exponential-Verteilung Expo(>.) mit Parameter ). > 0 ist auf dem Intervall
.f2 = (0, oo) definiert durch die stetige Wahrscheinlichkeitsdichte (vgl. Abb. 4):
für t> 0.
(1)
Wie wir später noch zeigen werden, eignet sich die Exponentialverteilung zur Modellierung einer Lebensdauer (wenn kein Alterungsprozeß stattfindet) oder einer
Wartezeit (vom Eintritt eines zufälligen Ereignisses bis zum nächsten Eintritt), wo-
bei
1-L =
1/>. die durchschnittliche (erwartete) Lebensdauer bzw. Wartezeit ist.
1.4.3 Stetige Gleichverteilung
Die stetige Gleichverteilung SG( a, ß) mit a
.f2 = (a, ß) der Länge iJ. =
<ß
ß- a definiert durch die
lichkeitsdichte (vgl. Abb. 4):
(1)
1
f(x) = iJ.
ist auf dem offenen Intervall
für a
< x < ß.
konstante (stetige) Wahrschein-
Wahrscheinlichkeitsräume
1-21
26.2.09
Die Wahrscheinlichkeit eines Intervalls (a, b) C .f2 hängt dann nur noch von der Intervalllänge (aber nicht von seiner Lage) ab
b- a
(2)
P (a,b) = ~
für a
< a < b< ß.
Die stetige Gleichverteilung ist ein Modell für das "zufällige Ziehen eines Punktes"
aus dem Intervall .f2. Anwendungen sind z.B. ein "stetiges Glücksrad (Roulette)" mit
einem Zeiger, der nach Stillstand einen "zufälligen Winkel" (zur Nullmarkierung)
im Bereich von a = 0 bis
ß = 27r anzeigt. Oder der seit Beginn einer vollen Stunde
verstrichene Bruchteil einer Stunde bis zum Eintritt eines Ereignisses (z.B. Anruf in
einer Notzentrale), wobei .f2 = (0,1) ist. Streng genommen kann bei diesen Anwendungen auch einer der beiden die Randpunkte von .f2 als Ergebnis eintreten, was
aber keine Rolle spielt, weil jedes Einzelereignis die Wahrscheinlichkeit Null hat.
Man kann allerdings auch die stetige Gleichverteilung auf das Intervall [a, ß] oder
[a, ß) fortsetzen.
Die stetige Gleichverteilung SG(O, 1) ist von großer theoretischer und praktischer
Bedeutung, weil sich jede reelle Verteilung (d.h. mit Träger in lB) durch eine geeignete Transformation aus SG( 0, 1) erzeugen läßt (vgl. 4.4.5), was z.B. zur Erzeugung
von Zufallszahlen nach einer vorgegeben Verteilung (z.B. Exponentialverteilung) ausgenutzt wird.
Dichte der Exponentlaiverteilung mit Erwartung swert J.l.
0
Abb.
2J1
4:
4p
6J1
Dichte det stetigen GleichverteiiLmg SG(a,ß)
a
links: Dichte der Exponentialverteilung Expo(>.) mit p, = 1/>..
rechts: Dichte der stetigen Gleichverteilung SG( a, ß).
ß
Zufallsvariablen und ihre Verteilungen
2.
17.10.15
2-1
Zufallsvariablen und ihre Verteilungen
Unser Ausgangspunkt ist wieder ein Zufallsvorgang, der durch einen Wahrscheinlichkeitsraum (f2, d,P) modelliert wird. Oft interessiert man sich primär nur für einen gewissen Aspekt eines Ergebnisses w E f2. Zum Beispiel kommt es bei einigen
Spielen mit mehreren Würfeln nur auf die Augensumme und nicht auf einzelnen gewürfelten Zahlen an (vgl. auch 2.3.1). Und ein Roulette-Spieler, der auf das Ereignis
Rot gesetzt hat, interessiert sieht nicht sonderlich für die gespielte Zahl, sondern
will nur wissen ob sie rot ist, d.h. ob er gewonnen hat. Bevor wir Zufallsvariablen
formal definieren, betrachten wir das letzte Beispiel in allgemeinerer Form.
2.1
Indikatorfunktion
Wir interessieren uns nur für das Eintreten eines Ziel-Ereignisses EE d- z.B. beim
Roulette-Spiel das Ereignis Rot. Kodieren wir den Eintritt bzw. Nicht-Eintritt von
E durch die Zahlen 1 bzw. 0, so läßt sich dies formal durch die Indikatorfunktion
I E: f2-----+ { 0, 1} von E beschreiben
(1)
Ij,{w) = {
~
falls
falls
w EE
w
\tE
(Eist eingetreten),
(Eist nicht eingetreten).
Statt des gesamten Wahrscheinlichkeitsmaßes P sind dann nur noch die Wahrscheinlichkeit der Ereignisse {IE = 1}
A
E und {IE = 0}
A
CE von Interesse. Die so-
genannte Verteilung (im Sinne der folgenden Definition 2) der Indikatorfunktion IE
ist die Bernoulli-Verteilung B(1, p) auf {0, 1} mit p = P(E).
2.2
D
Definition einer Zufallsvariable und ihrer Verteilung
Wir wollen jetzt den Übergang von einem Wahrscheinlichkeitsraum (f2, d,P) zu einem neuen und typischerweise einfacheren Wahrscheinlichkeitsraum allgemein beschreiben. Zunächst wird der Übergang auf einen neuen Ergebnisraum f2 1 :;= 0
durch eine Abbildung X: f2-----+ f2 1 formalisiert. Weiter betrachten wir eine a-Algebra
d
1
C ~(f2 1 ) auf f2 1, die alle interessierenden Ereignisse enthalten soll. Für jedes
solche A 1 E d
(1)
1
wollen wir dem Ereignis
{XEA 1 } =={wEf21X(w)EA 1 }
(Urbild von A 1 unter X)
Zufallsvariablen und ihre Verteilungen
2-2
17.10.15
die Wahrscheinlichkeit P(x-1 [ A'l) zuordnen. Das setzt aber voraus, daß das Urbild
x-1 [A'] in J?tliegt, weil P nur dort definiert ist. Dies führt zur folgenden Definition.
Definition 1: Eine Abbildung X: .f2 ------d/ 1 heißt meßbar bzgl. der a-Algebren J?t
(auf D) und J?t' (auf D'), wenn
(2)
T 1[A']
E
J?t
für alle A' E J?t'.
In der Maßtheorie werden die Elemente von J?tbzw. J?t' auch als meßbare Teilmengen von .f2 bzw. D' bezeichnet (weil auf ihnen Maße definiert werden). Mit dieser
Terminologie ist eine Abbildung gerrau dann meßbar, wenn Urbilder meßbarer
Mengen wieder meßbar sind.
Ist (wie hier) auch ein Wahrscheinlichkeitsmaß P auf J?t definiert, so nennt man
eine meßbare Abbildung X: .f2------+ D' auch eine Zufallsvariable mit Werten in D' oder
ein Zufallselement (zufälliges Element) in D'. Obwohl die Meßbarkeit von X eine wesentliche Voraussetzung für eine Zufallsvariable ist, wird sich noch herausstellen
daß die hier betrachteten und alle praktisch relevanten Abbildungen X meßbar
sind. Für höchstens abzählbares .f2 mit d= ~(D) ist sogar jedes X meßbar.
Wir verwenden im folgenden häufig die suggestive Schreibweise
))X:
(D, J?t, P)-----+ (D', J?t') ist eine Zufallsvariable"
und meinen damit, daß (D, J?t, P) ein Wahrscheinlichkeitsraum und X meßbar bzgl.
J?t, J?t' ist. Für eine solche Zufallsvariable X lassen sich allen Ereignissen der Form
(1) auch Wahrscheinlichkeiten gemäß P zuordnen.
Definition 2: Für eine Zufallsvariable X: (D, J?t, P)-----+ (D', J?t') definiert
(3)
für A' E J?t'
ein Wahrscheinlichkeitsmaß PX auf J?t'. PX heißt die Verteilung von X oder
das Bildmaß von P unter X. Übliche Bezeichnungen für diese Verteilung sind:
(4)
PX = Px-1 = L(X)
Schreibweise:
x,..__,p
X
(cL' steht für das englische Law).
(X ist verteilt wie oder gemäß PX)
Der Nachweis, daß PX ein Wahrscheinlichkeitsmaß ist, basiert auf den folgenden
Eigenschaften des Urbild-Operators x-1
Zufallsvariablen und ihre Verteilungen
(5)
x-1[0]=0,
(6)
x-1 [CE]= cx-1 [BJ,
(7)
Für eine beliebige Indexmenge I gilt:
(8)
B und B disjunkt
1
17.10.15
2-3
2
Die Verteilung der Identität id: (.f2, d, P)-----+ (.f2, d) ist natürlich Pid = P. Folglich
gibt es zu jedem Wahrscheinlichkeitsmaß P auf (.f2, J2t) auch (mindestens) eine Zu-
fallsvariable mit Werten in .f2, deren Verteilung gerade P ist.
2.3
Reelle Zufallsvariablen
Wenn bei einer Zufallsvariablen X: (.f2, J2t)-----+ (f2 1, d
menge f2 1 E lB und d
1
1
)
der Bildraum eine Bore1-
= lBD, die a-Algebra der Borel-Teilmengen von f2 1 ist, so
spricht man auch von einer reellen Zufallsvariablen. So ist z.B. die Indikatorfunktion
I E aus 2.1 (1) eine reelle Zufallsvariable mit Bernoulli-Verteilung L(I~ = B(1, p) und
p=P(E).
Bei konkreten Zufallsvorgängen in der Praxis gibt man oft nur die interessierende
reelle Zufallsvariable X mit ihrer (modellierten) Verteilung an, z.B. (vgl. Kapitel 0):
• die Anzahl X der Leukämiefälle (pro Region und Zeitraum): L(X) =Pois(p,),
• die Anzahl X der Asbestfasern (im Stichprobenvolumen)L(X) = Pois(p,),
• die Anzahl X der Stimmen für eine Partei in einer Wahlumfrage: L(X) =B(n,p),
• die Anzahl X von Patienten einer klinischen Studie, bei denen der Behandlungserfolg eingetreten ist: L(X) = B( n, p).
Wenn bei Anwendungen nur noch die Verteilung einer speziellen Zufallsvariablen X
von Interesse ist, so wird oft nur (ein Modell für) die Verteilung L(X) = PX angegeben und der zugrunde liegende Wahrscheinlichkeitsraum (.f2, d,P) wird nicht mehr
explizit erwähnt. Lediglich das Symbol P in Wahrscheinlichkeiten der Form
P {XE A 1} erinnern noch an das Wahrscheinlichkeitsmaß P. Wenn A 1 ein Intervall
ist, so verwendet man auch die suggestiven Schreibweisen wie z.B.
(1)
P{a<X<b} == P{XE[a,b]} = P{wE.f!ia<X(w)<b},
Zufallsvariablen und ihre Verteilungen
P{X=a} == P{XE{a}}
2-4
17.10.15
= P{ wEil I X(w) =a}.
In der Maßtheorie wird gezeigt, daß X: fl-----+ D'mit D' E IB gerrau dann meßbar ist,
wenn
x-1[A] E d
für jedes offene Intervall Ac IR gilt. Wenn auch der Definitionsbe-
reich f2 c IR ein Intervall ist mit der a-Algebra d= IBn so sind insbesondere folgende Funktionen (aber nicht nur diese) meßbar
• alle stetigen Funktionen X: D-----+ D',
• alle Funktionen X: f2-----+ D' mit endlich vielen Unstetigkeitsstellen,
• alle monotonen (wachsenden oder fallenden) Funktionen X: D-----+ D'.
Die einfachste nicht-meßbare Funktion ist übrigens die Indikatorfunktion JA einer
Menge A C IR, die nicht-Borelsch ist, d.h. mit A \t IB (und wie bereits erwähnt, läßt
sich eine solche Menge nicht elementar angeben).
Alle Begriffe, die ursprünglich für eine Verteilung P definiert sind1 überträgt man
kommentarlos auch auf eine Zufallsvariable X und meint dabei ihre Verteilung
PX Zum Beispiel ist mit der Dichte von X die Dichte der Verteilung PX gemeint. Um-
gekehrt überträgt man auch Begriffe und Definiton für eine Zufallsvariable X, die
nur von ihrer Verteilung PX abhängen, kommentarlos auf die Verteilung, z.B. die Verteilungsfunktion in 4.1 oder der Erwartungswert sowie die Varianz in Kapitel 7.
Fortsetzung und Einschränkung
Die bisher betrachteten Verteilungen wie z.B. die Binomial-, Poisson- oder Exponentialverteilungen sind auf einer Teilmenge f2 1 von IR definiert. Manchmal ist es
aber zweckmäßig, diese Verteilungen auf ganz IR fortzusetzen. Hierzu betrachten
wir statt (IR, IB) und (D', IBn,) etwas allgemeiner eine Menge f2 mit einer a-Algebra
d über f2 sowie eine Teilmenge D' E d von f2 mit der eingeschränkten a-Algebra
(2)
d'== dn~(D') = {AEdiAcD'}.
Für ein Wahrscheinlichkeitmaß P' auf (D', d'), ist die Fortsetzung
P'
von P' auf
(D, J2t) definiert als Bildmaß von P' unter der Inklusion D'-----+ D, d.h. durch:
(3)
P'(A) ==P'(AnD') füralleAEJ?t.
P' ist ein Wahrscheinlichkeitsmaß mit den Eigenschaften
(4)
P'(A') = P'(A')
für alle A' E d',
(5)
P'(D') = 1
bzw.
P'(D\D') = 0
0
Zufallsvariablen und ihre Verteilungen
Die Fortsetzung
P1 ist
2-5
17.10.15
zwar auf auf der umfassenden a-Algebra d definiert, aber
trotzdem nach (3) durch seine Einschränkung auf d
1
vollständig bestimmt.
Wir betrachten jetzt umgekehrt ein Wahrscheinlichkeitsmaß P auf (.f2, J2t) mit
P(f2 1 ) = 1
(6)
P(f2\f2 1 ) = 0.
bzw.
Ein solches .f2 1 mit (6) wird als ein Träger (engl.: support) von P bezeichnet, und
man sagt auch, p ist auf n I konzentriert. Es gilt dann
P(A) = P(Anf2 1 )
(7)
für alle A E d,
und somit ist P bereits vollständig bestimmt durch seme Einschränkung
P 1 =PI d
1
auf d
1
•
Die Fortsetzung von P 1 auf dergibt wegen (7) wieder das ur-
sprüngliche Wahrscheinlichkeitsmaß P.
Insgesamt entsprechen also die Wahrscheinlichkeitsmaße P 1 auf (f2 1, d
1
)
via Fort-
setzung bzw. Einschränkung eineindeutig den Wahrscheinlichkeitsmaßen P auf
(.f2, J2t) mit Träger f2 1• In diesem Sinn werden wir für (.f2, J2t) =(IR, IB) z.B. die Binomialverteilung B(n,p) nicht nur als eine Verteilung auf ihrem Träger f2 1 = {0, ... , n}
sondern auch als eine Verteilung auf ganz IR auffassen, die wir nach der folgenden
Definition eine diskrete Verteilung ist.
Definition 3: Ein Wahrscheinlichkeitsmaß P auf (.f2, d) heißt diskret, wenn
es einen höchstens abzählbaren Träger f2 1 E dbesitzt, d.h. P(f2 1 ) = 1.
Für ein diskretes Wahrscheinlichkeitsmaß P auf (IR, IB) ist die Menge aller Ergebnisse
mit echt positiver Wahrscheinlichkeit
(8)
TP=={xEIRIP{x}>O} EIB
der (bzgl. der Inklusion "c") kleinste Träger von P. Der Träger TP heißt auch der
minimale oder kanonische Träger von P. Wenn wir im folgenden kurz von dem Träger
eines diskreten Wahrscheinlichkeitmßes bzw. einer diskreten Verteilung P sprechen, so
ist damit immer der minimale Träger TP gemeint. Betrachten wir also die Binamialverteilung oder die Poissonverteilung als Verteilung auf ganz IR, so ist {0, ... , n} der
(minimale) Träger von B(n,p) und W der (minimale) Träger von Pois(p,).
0
Zufallsvariablen und ihre Verteilungen
2-6
17.10.15
Wenn das Wahrscheinlichkeitsmaß P auf (IR, IB), das durch eine Dichte definiert ist,
so ergibt sich in (8) die leere Menge TP = 0, und wir geben erst in 4.3 ein minimales
Trägerintervall von P an.
2.3.1
Augensummezweier Würfel
•
Das Werfen zweier Würfel kann durch den Ergebnisraum .f2 = {1, ... , 6} x {1, ... , 6}
beschrieben (vgl. Abb. 1) und im Falle homogener Würfel durch die Gleichverteilung P
auf .f2 modelliert werden, d.h. jedes (j, k) E .f2 hat die Wahrscheinlichkeit ~- Beim
Spiel Die Siedler von Catan ist z.B. nur die Augensumme relevant, die einer reellen
Zufallsvariablen X mit Werten in D' = {2, ... , 12} entspricht. Die Verteilung der Augensumme ist in Abb. 2 dargestellt.
Abb.J
-.
Der Ergebnisraum für das Werfen eines
roten und eines grünen Würfels. Die
beiden Ergebnisse
( 1 . "")
._..
(1, 6): roter Würfel = 1, grüner Würfel = 6
(6, 1): roter Würfel= 61 grüner Würfel= 1
stimmen nicht überein (das ist auch dann
noch der Fall, wenn beide Würfel die
gleiche Farbe haben und diese Ergebnisse
optisch nicht unterscheidbar sind.)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
I
Augensummezweier homogener Würfel
•
(6 ,
I
I
2
3
4
5
Augenzahl roter Würfel
1
6
Augensummezweier homogener Würfel
.20
20
-
"g'
~ 15
•
6~
lll
::T
-
e
-
su:0
-
Q_
::J;
-
!!1_
4~
1--
0
::T
:>;"
;--
.....--
-
1--
I
0
0
2
3m:
1--
4
6
8
10
Augensumme
12
c
~ 15
e
e:..
·,;,:w
-
:§ 10 c
Q)
s·
_r:
2-'
1=
(tl
"W
n
-;::;'
~
0
<I)
s:
5
I
0
14
0
2
I
4
6
8
10
Augensumme
12
14
Abb. 2: Die Verteilung der Augensumme X zweierhomogener Würfel als Histogramm
(links) und als Stabdiagramm (rechts).
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3-1
1.12.15
3.
Bedingte Wahrscheinlichkeit und stochastische
Unabhängigkeit
3.1
Bedingte Wahrscheinlichkeit
Zahlenlotto "6 aus 49"
Die Ziehung beim Zahlenlotto läßt sich durch eine (diskrete) Gleichverteilung modellieren auf dem Ergebnisraum
n
= {
w c {1, ... , 49} #w = 6 }
mit
1
#il = (~) ~ 14·106
0
Die Wahrscheinlichkeit, daß ein fester Tip w E .f2 eines Spielers bei der nächsten
0
Ziehung "6 Richtige" erzielt (d.h. das w gezogen wird) ist
0
p { w 0} = ~[2 ~ 7
°
w-8
0
Angenommen, der Spieler verfolgt die Ziehung "live" und hat nach Ziehung der ersten fünf Zahlen bereits "5 Richtige". Die Wahrscheinlichkeit, daß er auch noch "6
Richtige" erzielt beträgt jetzt
h, weil hierzu nur noch die fehlende Zahl seines Tips
aus den verbleibenden 44 Kugeln gezogen werden muss.
D
Wie das Lotto-Beispiel zeigt, kann sich die Wahrscheinlichkeit für ein Ereignis
dramatisch ändern, wenn man zusätzliche Informationen mitberücksichtigt. Wir
wollen das durch den Begriff der bedingten Wahrscheinlichkeit formalisieren. Ausgangspunkt ist wieder ein Wahrscheinlichkeitsraum (D, d,P).
Definition 1: Die bedingte Wahrscheinlichkeit von A E d unter der Bedingung
BE d ist für P(B) > 0 definiert durch
(1)
P(A IB) = P(AnB).
=
P(B)
Bei der (auf B) bedingten Wahrscheinlichkeit von A wird nur der in B liegende Teil
von A berücksichtigt (vgl. Abb. 1), und die Wahrscheinlichkeit dieses Durchschnitts
A nB wird auf die Wahrscheinlichkeit P(B) der Bedingung B normiert.
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
1.12.15
3-2
G B
B
Abb.J:
Allgemeiner Fall
Spezialfall: A ist in B enthalten
Die bedingte Wahrscheinlichkeit P(A IB) entspricht dem Flächenanteil von An B an der
Fläche von B1 während P(A) der Flächenanteil von A an der Gesamtfläche .f2 ist. Man erkennt hier auch1 daß P(B IA) und P(A IB) im allgemeinen verschieden sind.
Multipliziert man eine bedingte Wahrscheinlichkeit mit der Wahrscheinlichkeit ihrer Bedingung, so ergibt sich wieder eine unbedingte Wahrscheinlichkeit:
(2)
P(A IB). P(B) =
P(A nB).
Wegen
(3)
P(AIB) =
P(AnBIB)
sind die auf B bedingten Wahrscheinlichkeiten bereits eindeutig durch alle P( CI B)
mit C C B bestimmt. Für festes BE d ist das Mengensystem aller in B enthaltenen
Ereignisse
(4)
dB == dn ~(B) = { CEdl CcB}
eine a-Algebra über B. Faßt man B als einen neuen Ergebnisraum auf, so definiert
die auf B bedingte Wahrscheinlichkeit ein Wahrscheinlichkeitsmaß, d.h.
(5)
P( -I B) : dB-----+ IR ist ein Wahrscheinlichkeitmaß auf (B, dB) .
Insbesondere gelten
(6)
CcB
*
(7)
P(BIB) = 1,
P(0IB) = o.
P(C)
P(CIB)
P(B)
Als Verallgemeinerung von (2) läßt sich die Wahrscheinlichkeit des Eintritts endlicher vieler Ereignisse A , ... , An E d schrittweise durch bedingte Wahrscheinlichkei1
ten berechnen
(8)
P(A1 nA 2 n ... nAn)
P(A 1) · P(A 2 A 1) · P(A 3 A 1 n A 2 )
1
1
· .... ·
P(An A 1 n A 2 n ... n An_1 )
1
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3-3
1.12.15
Für absteigende Ereignisse vereinfacht sich dies zu
(9)
Diese Zerlegung bildet die Grundlage für die Berechnung von Wahrscheinlichkeiten
in einem "Baum" (Grafen), in dem man Ereignisse durch Punkte (Knoten) und Inklusionen durch Zweige (Kanten) darstellt. Die Wahrscheinlichkeit eines Endknotens wird dann durch Multiplikation der Wahrscheinlichkeit des Startknotens mit
den bedingten Wahrscheinlichkeiten aller am Pfad beteiligten Kanten berechnet.
So läßt sich (1 0) z.B. für n = 6 so darstellen:
(10)
Zahlenlotto "6 aus 49" (Fortsetzung)
Bezeichnet A. das Ereignis, daß bei der i-ten gezogenen Kugel bereits "i Richtige"
z
für den Tip w vorliegen, so ergibt sich die Wahrscheinlichkeit für "6 Richtige" als
0
9
Produkt der untenstehenden Brüche zu P(AJ = 1 j (~ ).
Al
A3
A2
A5
A4
A6
·------~·~----~·------~·~----~·------~·
4
5
3
2
1
6
49
47
48
45
46
44
D
Eine praktische Methode zur Berechnung der Wahrscheinlichkeit für ein Ereignis A
besteht darin, eine vollständige "Fallunterscheidung" nach endlich (oder abzähl bar)
vielen "Fällen" (Bedingungen) B. durchzuführen, wobei man dann nur die Wahrz
scheinlichkeiten P(B .) aller Bedingungen sowie die bedingten Wahrscheinlichkeiten
z
P(A IB .) bestimmen muß.
z
Satz von der totalen Zerlegung:
Wenn die Familie (B. E d). I mit höchstens abzählbarer Indexmenge I paarweise
z
disjunkt ist mit .f2 =
(11)
zE
U B. und P(B .) > 0 für alle i E I
iEI z
P(A) =
2:=
iEI
z
P(A IB.) ·P(B.)
z
z
0
1
so gilt für jedes A E d
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
1.12.15
3-4
Aus den Wahrscheinlichkeiten P(A), P(B) und P(A IB) läßt sich auch die umgekehrte
bedingte Wahrscheinlichkeit P(B IA) - nach Thomas Bayes (1702-1761) - bestimmen:
P(BIA) = P(A IB) P(B)
P(A)
0
(12)
3.1.1
für
P(A) > 0
(Formel von Bayes).
Wartezeiten und Exponential-Verteilung
Wir betrachten eine reelle Zufallsvariable T mit Werten in (0, oo), die wir als Warte-
zeit bis zum Eintreten eines interessierenden Ereignisses interpretieren, z.B. bei einem Produkt die Zeit bis zum Eintritt eines Defekts oder seine Lebensdauer. Wenn T
eine Exponential-Verteilung Expo( >.) (vgl. 1.4.2) besitzt, so gilt
(1)
P { T > t} =
00
J A e-).. x dx
= e-).. t
für alle t > 0.
t
Die bedingte Wahrscheinlichkeit für { T > s + t} unter der Bedingung { T > s} ist
(2)
P{T>s+t I T>s} = P{T>t}
für alle s, t > 0 .
Für eine Wartezeit T drückt (2) eine "Gedächtnislosigkeit" aus. Die bedingte Wahrscheinlichkeit, nach Ablauf der Zeitspanne s erneut die Zeit t warten zu müssen,
hängt nicht von s ab, und entspricht der Wahrscheinlichkeit von Anfang an die Zeit
t warten zu müssen. Und für eine Lebensdauer T besagt (2), daß kein ,,Alterungsprozeß" auftritt: die Wahrscheinlichkeit nach Ablauf von s Jahren weitere t Jahre zu leben, hängt nicht vom aktuellen Alter s ab.
Man kann zeigen, daß die Eigenschaft (2) die Exponentialverteilung wie folgt cha-
rakterisiert. Wenn (2) für eine reelle Zufallsvariable T mit Werten in (0, oo) gilt, und
die Wahrscheinlichkeit G(t) =P{T>t} eine stetige Funktion G auf (O,oo) ist, so ist
T Expo(.A)-verteilt mit A =-log G(1).
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.2
1.12.15
3-5
Stochastische Unabhängigkeit von Ereignissen
In einem Wahrscheinlichkeitraum (f2, d,P) soll jetzt die stochastische Unabhängig-
keit von Ereignissen definiert werden. Hierzu betrachten wir zunächst zwei Ereignisse A,BE d. Wenn die auf B bedingte Wahrscheinlichkeit von A mit der unbedingten Wahrscheinlichkeit von A übereinstimmt, d.h. wenn P(A IB) = P(A), so
könnte man A und B als unabhängig ansehen. Ersetzt man die bedingte Wahrscheinlichkeitkeit durch ihre Definition 3.1 (1), so gelangt man zu folgender Definition der stochastische Unabhängigkeit, die auch für P(B) = 0 gilt:
Definition 1: A, BE dheißen stochastisch unabhängig, wenn gilt
(1)
P(AnB)=P(A)·P(B).
Für P(B)
(2)
> 0 ergibt sich sofort die äquivalente Charakterisierung
P(A IB) = P(A),
A B stochastisch unabhängig
1
und für P(B) = 0 ist jedes A von B unabhängig:
(3)
P(B) = 0
A B stochastisch unabhängig
1
Die Unabhängigkeit bleibt erhalten wenn man zu komplementären Ereignissen übergeht, gerrauer gilt:
A1 B stochastisch unabhängig ::::}
(4)
CA
1
B stochastisch unabhängig,
A1 CE stochastisch unabhängig,
CA CE stochastisch unabhängig.
1
Die Definition der stochastischen Unabhängigkeit läßt sich auf eine indizierte Familie (A. E d) . I mit beliebiger Indexmenge I:;= 0 wie folgt erweitern.
z
zE
Definition 2: (A.z E d).zE I heißt stochastisch unabhängig , wenn für jede
nicht-leere endliche Teilfamilie K CI gilt:
Man beachte, daß (5) für eine einelementige Menge K = { k} trivialerweise gilt.
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
1.12.15
3-6
Für eine zwei-elementige Indexmenge I= {1,2} ist die stochastische Unabhängigkeit
von A , A äquivalent zur Definition gemäß (1).
1
2
Für eine stochastisch unabhängige Familie (A.). I sind insbesondere je zwei Ereigz zE
nisse Ai' Ak stochastisch unabhängig. Umgekehrt folgt aus der paarweise Unabhängigkeit je zweier Ereignisse einer Familie nicht die Unabhängigkeit der gesamten
Familie, wie folgendes Beispiel zeigt.
Gegenbeispiel: Auf .f2 = {1, ... , 8} betrachten wir die Ereignisse
A1 = {1, 2, 3, 4} ,
A2 = {1, 2, 5, 6} ,
A 3 = {3, 4, 5, 6},
die paarweise je zwei Elemente gemeinsam haben. Für die Gleichverteilung P ergibt
sich daher die paarweise stochastische Unabhängigkeit, weil
für i ;= k.
Aber (A1,A 2, A 3 ) sind nicht stochastisch unabhängig, weil
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.3
1.12.15
3-7
Produkte diskreter Wahrscheinlichkeitsräume
Bei praktischen Anwendungen spielen unabhängige Wiederholungen eines stochastischen Vorgangs eine wichtige Rolle. Etwas allgemeiner betrachten wir jetzt eine
Anzahl n E W (nicht notwendig gleicher) Zufallsvorgänge, die jeweils durch einen
diskreten Wahrscheinlichkeitsraum (.f2 ., d., P.) mit i = 1, ... , n modelliert werden, d.h
z z z
.f2. ist höchstens abzählbar, und es ist d. = ~(.f2 .). Produkte mit nicht-notwendig abz
z
z
zählbaren Räumen .f2. werden erst in 4.9 behandelt. - Gesucht ist nun ein Modell
z
für das simultane und voneinander unabhängige Ausführen aller n Vorgänge.
Der Ergebnisraum des Simultanvorgangs ist offenbar der Produktraum (vgl. Abb. 1)
n
(1)
n := .TI nz = .(21 X .(22 X X nn = { (wl, w2, ... , w n ) I w z E nz für alle i}
°
000
0
°
0
z= 1
Qz
~----~----------~-----------,
......
i
·······-····
3
Abb 1: Produktraum zweier Räume und das simultane Ereignis A1 x A2 als Durchschnitt der Einzelergebnisse { 1r1 EA1} = A1 x f2 2 und { 1r2 EA:z} = .f21 x A 2.
Da .f2 als endliches Produkt höchstens abzählbarer Räume wieder höchstens abzählbar ist, können wir d= ~(.f2) als Menge aller Ereignisse des simulutanen Vorgangs verwenden. Gesucht ist jetzt noch ein Wahrscheinlichkeitsmaß P auf d, welches die Unabhängigkeit der Einzelvorgänge modelliert. Hierzu definieren wir zunächst das gesuchte Wahrscheinlichkeitsmaß P und zeigen dann, daß es die gewünschte Eigenschaft hat. Da .f2 höchstens abzählbar ist, läßt sich P wie folgt durch
durch seine Zähldichte definieren:
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
1.12.15
3-8
Die Wahrscheinlichkeit eines Simultanergebnisses ist also das Produkt der Wahrscheinlichkeiten aller Einzelergebnisse. Dieses Wahrscheinlichkeitsmaß P heißt das
Produktmaß von P , ... , Pn und
1
(f2, d,P) heißt auch der Produktraum. Als suggestive
Bezeichnung verwendet man
n
(3)
p =
n
TIP.
1 z
(Produktmaß),
TI1(f2 z., d.,P.)
z z
(f2, d,P)
z=
(Produktraum).
z=
0
0
In Verallgemeinerung von (2) ist für beliebige Ereignisse A E d , ..., An E dn der
1
1
Einzel-Vorgänge die Wahrscheinlichkeit des gemeinsamen Eintretens das Produkt
der einzelnen Eintrittswahrscheinlichkeiten
n
n
P(TIA.)
1 z
(4)
z=
0
TI1P.(A.)
z z
bzw.
z=
0
Wir wollen uns jetzt überlegen, welche Ereignisse aus d unter P unabhängig sein
sollten, damit der Produktraum ein Modell für das unabhängige Ausführen der Einf2-----+ f2. ist eine Zufallsvariable (weil
z
z
d= ~(f2) gilt) und ordnet jedem Simultanergebnis w = (wl' w2 , ... , wn) die i-te Kom-
zelexperimente ist. Die i-te Projektion
1r.:
ponente w. , also das Ergebnis des i-ten Vorgangs, zu
z
(5)
, w , ... , w ) = w ..
1 2
n
z
1r .( w
z
Für ein Ereignis A. E d. des i-ten Vorgangs beschreibt daher
z
z
(6)
{ 1r. E
z
A.}
= { (w1, w2, ... , w n ) I w z. E A.z }
z
das Ereignis des Simultanvorgangs, für das A. beim i-ten Teilvorgang eingetreten
z
ist und die Ergebnisse aller anderen Teilvorgänge beliebig seien können. Für das
Produktmaß P stimmt die Wahrscheinlichkeit von { 1r. E A.} beim Simultanvorgang
z
z
mit der Wahrscheinlichkeit P.(A.) für das Eintreten von A. bei i-ten Teilvorgang
z z
z
überein:
(7)
für jedes A. E d. und jedes i.
z
z
P{ 1r.EA.} = P.(A.)
z
z
z z
Das gleichzeitige Eintreten von Ereignissen A E
1
gang ist dann gegeben durch das Ereignis (vgl.
n
(8)
7r. E A.} = A x A x ... x A
=
.
z
z
n
1
2
z= 1
n{
~' ... ,
Abb. 1)
n
TI
A z. .
.
z= 1
An E dn beim Simultanvor-
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
1.12.15
3-9
Wenn nun die Einzelvorgänge voneinander unabhängig sind, dann sollten die Ereignisse { 1r E A }, ... , { 1rn E An} stochastisch unabhängig sein, und dies ist für das Pro1
1
duktmaß P auch der Fall, d.h. für jedes 0 ;= K C {1, ... , n} gilt
3.3.1
Bernoulli-Wiederholungen und Binomialverteilung
Wir spezialisieren jetzt die obigen Betrachtungen auf den Fall n unabhängiger Wiederholungen eines Bernoulli-Vorgangs, d.h. die Wahrscheinlichkeitsräume (fl.,d.,P.)
z z z
stimmen für i = 1, ... , n überein, wobei f2. = { 0, 1} und P. die Bernoulli-Verteilung
z
z
B(1, p) ist. Die beiden möglichen Ergebnisse des Bernoulli-Vorgangs interpretieren
wir als den Eintritt (1) oder das Ausbleiben (0) eines interessierenden Ziel-Ereignisses (Treffer, z.B. Erfolg).
Der Produktraum der Ergebnisse ist dann die Menge f2 = {0, 1} n aller n- Tupel mit
Komponenten 0 oder 1. Für das Produktmaß P=B(1,pt ist die Wahrscheinlichkeit
für ein Ergebnis (w , ... , wn) E f2 gegeben durch
1
(1)
P{(w 1,w 2, ... ,wn)} = pk(1-pt-k
mit
n
k=
# {i =
1, ... , n I w.z= 1} =
2:: w.z =
: w+.
i=l
(Generell deutet ein Pluszeichen im Index eine Summe über diesen Index an). Meist
interessiert bei einem Ergebnis w = (wl' ... , w n) nur wie oft das Ziel-Ereignis bei denn
Wiederholungen eingetreten ist1 d.h. wie viele Einsen w enthält (wobei die Position
dieser Einsen in w gleichgültig ist). Dies läßt sich formal durch eine Zufallsvariable
X :f2-----+ {0, 1, ... , n} beschreiben mit
n
(2)
X(w 1, ... ,w)
= w+ = l:w ..
n
.
z
z=l
Die Verteilung von X ist die Binomialverteilung B(n,p), d.h. es gilt
(3)
P{X=k} = b(kln,p) =
(~)Pk
(1-pt-k
für k = 0, 1, ... , n.
In diesem Sinne ist die Binomialverteilung die Verteilung der Anzahl X der Treffer
- bei einer Trefferwahrscheinlichkeit p - unter n unabhängigen Wiederholungen.
Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit
3.3.2
1.12.15
3-10
Produktmaß von Gleichverteilungen
Für jedes i = 1, ... n sei jetzt .f2. endlich und P. die Gleichverteilung auf .f2 ., d.h. es ist
z
(1)
P.{w.} =l_
z
z
z
z
für alle w . E .f2.
z
m.
2
z
mit
m. =
z
#.f!.,z
n
Dann gilt für den Produktraum .f2 =
n
(2)
m :=
#.f! =
n
TI .f2.
. 1 z
z=
TI #.f2.z = .TI1m.z
. 1
z=
und das Produktmaß P =
n
z=
TI P. ist die Gleichverteilung auf D, weil
. 1 z
z=
(3)
Werfenzweier Würfel:
•
Beim Werfen von n = 2 Würfeln ist .f2. = {1, 2, 3, 4, 5, 6} die Ergebnismenge für den
z
i-ten Würfel mit i = 1, 2. Die Ergebnismenge für das Werfen mit beiden Würfeln ist der
Produktraum (vgl. auch 2.3.1 Abb. 1)
Für homogene Würfel ist die Verteilung der Augenzahlen durch die Gleichverteilung
Pi auf .f2i gegeben. Das Produktmaß P=P1 xP2 ist dann eine Gleichverteilung auf
.f2 und modelliert das Werfen mit zwei homogenen Würfeln, bei dem jedes Ergebnis
aus .f2 die Wahrscheinlichkeit ~ hat.
D
Verteilungsfunktionen und Dichten
4-1
7.3.16
4.
Verteilungsfunktionen und Dichten
4.1
Verteilungsfunktionen reeller Zufallsvariablen
Für eine reelle Zufallsvariable X sind hauptsächlich Intervall-Wahrscheinlichkeiten
von Interesse, d.h. solche der Form P {XE B}, wobei B C IR ein Intervall ist. Wir
wollen jetzt zeigen, daß sich alle Intervall-Wahrscheinlichkeiten bereits aus Wahrscheinlichkeiten der Form P {X< x} für alle x E IR bestimmen lassen.
Definition
Für eine reelle Zufallsvariable X heißt die Funktion F: IR-----+ [0, 1] mit
(1)
F(x) == P{X<x} = PX(-oo,x]
für xE IR.
die Verteilungsfunktion von X. Da F nur über die Verteilung PX von X abhängt,
wird F auch die Verteilungsfunktion von PX genannt.
Die Verteilungsfunktion F einer Zufallsvariablen X hat folgende wichtige Eigenschaften (hierbei steht "x l a" für "x---+ a und x > a")
(2)
F ist monoton wachsend:
F(a) < F(b)
a<b
(3)
F ist rechts-stetig:
(4)
F(- oo) : =
lim
x---+-oo
für alle a, b E IR.
lim F(x) = F(a)
xta
F(x)
o,
für alle a E IR.
F( + oo) : =
lim
x---++oo
F(x)
1
Die Verteilungsfunktion F ist im allgemeinen nicht links-stetig, aber wegen der Monotonie existieren die linksseitigen Grenzwerte ("x I a" steht für "x---+ a und x < a")
(5)
F(a-) == lim F(x) = PX(-oo,a) = P{X<a}
xja
für alle a E IR.
Als monotone Funktion ist Fauch meßbar. Weiter gilt:
(6)
P{X=a} = F(a) -F(a-)
für alle a E IR.
Für beliebige a < b lassen sich die Intervall-Wahrscheinlichkeiten für X unter Verwendung der Verteilungsfunktion F wie folgt berechnen:
Verteilungsfunktionen und Dichten
(7)
4-2
7.3.16
P{a<X<b}
F(b)- F(a) ,
P{a<X<b}
F(b -) - F(a -) ,
P{a<X<b}
F(b) - F( a -) ,
P{a<X<b}
F(b -)- F(a)
Die VerteilungsfunktionFist zwar im allgemeinen nicht stetig, aber es gilt:
(8)
F ist in a stetig
(9)
F hat höchstens abzählbar viele Unstetigkeitsstellen.
P{X=a} = 0,
In der Wahrscheinlichkeitstheorie wird sogar gezeigt (worauf wir hier verzichten):
Theorem: Zu jeder reellen Funktion F mit den Eigenschaften {2) - (4) gibt es genau
eine Verteilung P auf (IR, IB) mit Verteilungsfunktion F, d.h.
(10)
F(x) = P(- oo, x]
für alle x E IR.
Folglich kann man eine Verteilung P auch durch Spezifikation ihrer Verteilungsfunktion definieren.
Wir werden im folgenden nur zwei Typen von reellen Zufallsvariablen betrachten:
solche mit einer diskreten Verteilung und solche mit einer Wahrscheinlichkeitsdichte.
Andere als diese beiden Typen werden in praktischen Anwendungen nur sehr selten zur ModelEerung verwendet und deshalb hier nicht weiter behandelt.
4.1.1* Quasi-Inverse einer Verteilungsfunktion
Die Verteilungsfunktion F: IR-----+ [ 0, 1] einer reellen Zufallsvariablen X besitzt im
allgemeinen keine Umkehrfunktion, weil sie weder injektiv noch surjektiv zu sein
braucht. Man kann aber eine Quasi-Inverse F-: (0, 1)-----+ IR definieren durch
(1)
(Quasi-Inverse von F).
F-(p) == inf{xEIR lp::;F(x)}
Für alle 0 < p < 1 und x E IR gelten dann die grundlegenden Eigenschaften:
(2)
p < F(F-(p)) ,
(3)
F-(F(x)) < x,
(4)
F-(p) <X
(5)
F(F-(F(x)) = F(x) .
{}
p::; F(x) ,
Verteilungsfunktionen und Dichten
4-3
7.3.16
Weiter ergibt sich
(6)
F- ist monoton wachsend und links-stetig.
(7)
F ist stetig in F- (p)
F(F-(p)) = p
für alle 0 < p < 1.
(8)
F ist streng wachsend
F-(F(x)) = x
für alle x E IR.
Als monotone Funktion ist F- auch meßbar. - Falls F stetig und streng wachsend
ist, so ist F [IR]= (0,1) und F-ist die Umkehrfunktion (Inverse) von F.
4.2
Verteilungsfunktionen diskreter Zufallsvariablen
Eine reelle Zufallsvariable X: .f2-----+ IR heißt diskret, falls ihr Bild
(1)
T:= X[D] = {X(w) I wEil}
c
IR
höchstens abzählbar ist. Im folgenden sei X diskret und somit TE IB. Dann ist T ein
Träger (der Verteilung) von X- die Verteilung von X ist also diskret - und es gilt
(2)
P{XE T} = 1
(3)
P{XEB} = P{XEBn T}
für BE IB.
Die Zähldichte f: T-----+ [ 0, 1] der Verteilung von X ist definiert durch
(4)
f(x) = PX{x} = P{X=x}.
Es ist zweckmäßig, die Zähldichte auch auf ganz IR fortzusetzen, wobei - in Übereinstimmung mit (4) - natürlich f(x) = 0 für x (/:. T gilt.
Die Verteilungsfunktion F: IR-----+ [ 0, 1] von X läßt sich mit f darstellen als
(5)
F(a) =
2:
f(x) .
xET
x<a
F stellt eine monoton wachsende Treppenfunktion dar, die gerrau auf dem Träger
ihre "Sprungstellen" hat (vgl. Abb. 1). Die "Sprunghöhe" von F im Punkt a
(6)
F(a) -F(a-) = P{X=a} = f(a)
für aE T,
ist gerrau die zugehörige Elementar-Wahrscheinlichkeit der Verteilung von X.
Verteilungsfunktionen und Dichten
4.2.1
7.3.16
4-4
Einpunkt-Verteilung, Dirac-Verteilung
Für eine konstante reelle Zufallsvariable X mit Wert a E IR ist der Träger T = { a}.
Wegen
(1)
P{ X= a} = 1
heißt die Verteilung von X eine Einpunkt-Verteilung oder Dirac-Verteilung in a nach Paul Dirac (1902-1984) - und wird mit Dirac(a) bezeichnet. Ihre Verteilungsfunktion F springt im Punkt a von 0 auf 1 (vgl. Abb. 1) und entspricht somit der Indikatorfunktion (vgl. 2.1) des Intervalls [a1 oo), d.h. F =I[a,oo )"
4.2.2 Binomial-Verteilung
Wenn X eine B(n,p)-Verteilung hat mit Träger T={0,1, ... ,n} so ergibt sich die Verteilungsfunktion F von X mit der Zähldichte b(-1 n,p) aus 1.2.3 zu (vgl. Abb. 1)
Int(a)
(1)
F(a) =
2::
b(iln,p)
mit
Int(a) = Max{iEWii<a},
aEIR.
i=O
Speziell für die Sprungstellen von F ergibt sich
k
(2)
F(k)
2::
b(i I n,p)
für k = 0, 1, ... , n ,
i=O
(3)
F(k-)
F(k-1)
für k = 1, ... , n .
4.2.3 Poisson-Verteilung
Wenn X eine Pois(p,)- Verteilung hat mit Träger T = W , so ergibt sich die Vertei0
lungsfunktion F von X mit der Zähldichte p(-IJ-L) aus 1.3.1 zu (vgl. Abb. 1)
Int(a)
(1)
F(a) =
2::
p(ilp,)
mit
Int(a) = Max{iEWii<a},
i=O
Speziell für die Sprungstellen von F ergibt sich
k
(2)
F(k)
2::
p(i 1~-L)
i=O
(3)
F(k-)
F(k-1)
für k E W.
aEIR.
Verteilungsfunktionen und Dichten
4-5
7.3.16
Abb. 1: Dichten und Verteilungsfunktion einiger diskreter Verteilungen
(Sprungstellen sind durch einen Punkt • besonders gekennzeichnet)
1,0
Dichte der Einpunktverteilung Dirao(a)
Verteilungsfunktion der Einpunktverteilung Dirac(a)
1,0
0,5
0,5
a
a
Dichte von B(n, p) für n= 5, p = 0,4
Verteilungsfunktion von B(n,p) für n= S, p= 0,4
1,0
1,0
0,5
0,5
I
I
-1
0
l
.
I
I
I
I
4
5
6
7
8
I
2
3
-1
0
2
3
4
5
6
7
8
-1
0
2
3
4
5
6
7
8
Dichte von Pois(u) für J.l "" 1, 5
1,0
1,0
0,5
0,5
-1
0
2
l
l
3
4
5
6
7
8
Verteilungsfunktionen und Dichten
4.3
7.3.16
4-6
Stetige Zufallsvariablen mit Dichten
Wir betrachten jetzt eine reelle Zufallsvariable X: .f2-----+ IR, deren Bild
(1)
D' == X[D] = {X(w) I wEil} C IR
ein reelles Intervall ist mit den Randpunkten
(2)
<
a == inf D'
sup D'
==ß.
Weiter gehen wir davon aus, daß die Verteilung PX von X durch eine Wahrschein-
lichkeitsdichte f: D'-----+ [ 0, oo) mit höchstens endlich vielen Unstetigkeitsstellen gegeben ist, d.h. für jedes Intervall (a, b] CD' gilt
(3)
b
P { a <X< b} = PX ( a, b] = 1f( x) dx .
a
Die Zufallsvariable X heißt dann stetig (verteilt) mit der (Lebesgue-) Dichte f (weil ihre
Verteilungsfunktion stetig ist, vgl. unten). Die Verteilung PX ist nach (3) bereits bestimmt durch die Einschränkung der Dichte f auf das offene Intervall
(4)
T = (a,ß) = n'o =
X[.ar
(offener Kern des Bildes von X).
Das offene Intervall T, d.h. der offene Kern des Bildes von X, ist dann ein Träger
der Verteilung von X. Es spielt keine Rolle, welchen Wert die Dichte f auf den beiden Randpunkte a und
ß annimmt (sofern diese zum Bild D' gehören). Die Dichte
läßt sich zu einer meßbaren Funktion auf ganz IR fortzusetzen, indem man sie auf
dem Komplement desTrägersT gleich Null setzt
(5)
f(x) : = 0
für alle
x
\t T.
Dann läßt sich die durch (3) gegebene Verteilung PX interpretieren als eine Verteilung auf (IR, lB), was manchmal von Vorteil ist. Man beachte allerdings, daß die so
fortgesetzte Dichte
f: IR-----+ [0, oo)
nicht notwendig in den Randpunkten a und
ß
von T stetig ist, aber insgesamt in höchstens endlich vielen Punkten unstetig ist.
Für die Verteilungsfunktion F von X gilt dann
a
(6)
F(a) =
1 f(x) dx
für a E (a,ß)
(X
a
1 f(x) dx
für a E IR
-=
wobei die letzte Darstellung die Fortsetzung der Dichte f auf IR verwendet. Insbesondere ist F stetig auf T und sogar auf ganz IR, weil
Verteilungsfunktionen und Dichten
F( a) = 0 für a < a,
(7)
7.3.16
F(b) = 1
4-7
für b > ß.
Folglich nimmt die (monoton wachsende) Funktion F außerhalb des offenen Intervalls (a,ß) nur die Werte 0 und 1 an. Man beachte, daß (7) auch im Fall a =-oo
und/oder
ß = oo nach
4.1 (4) gilt. - In den Stetigkeitsstellen x von f (auch für x \t T)
ist die Verteilungsfunktion differenzierbar
(8)
für alle Stetigkeitsstellen x von f.
F '(x) = f(x)
Insbesondere ist die Dichte f auf ihrem Stetigkeitsbereich eindeutig bestimmt als
Ableitung der zugehörigen Verteilungsfunktion F. Ist umgekehrt nur die Verteilungsfunktion gegeben, so erhält man die zugehörige (kanonische) Dichte wie folgt.
Satz: Die Verteilungsfunktion FY einer Zufallsvariablen Y sei auf IR stetig und die
Menge D = { y E IR I Fist in y nicht stetig differenzierbar} sei endlich. Dann ist
für y \tD }
für y ED
(9)
(kanonische Dichte)
die (kanonische) Dichte von Y 1 und f Y ist höchstens auf D unstetig.
Zusatz: Andert man f Y auf D beliebig ab1 so bleibt es eine Dichte von Y.
Bei den bisher betrachteten stetigen Verteilungen haben wir stets das offene Trägerintervall (a, ß) vorher spezifiziert. Wir wollen jetzt das (genauer: das minimale)
Trägerintervall unter Verwendung der Verteilungsfunktion F einer stetigen Verteilung P auf IR rekonstruieren und definieren hierzu
(10)
aF=inf {xEIRIF(x)>O} E [-oo,+oo),
ßF=sup{xEIRIF(x)<1} E (-oo,+oo].
Dann gilt
(11)
und somit ist (aF' ßF) ein Trägerintervall von P. Es ist auch das kleinste Trägerintervall, weil für jedes- oo < a 1 < ß' < + oo gilt:
(12)
P(a',ß') = 1
a' -< a F <
ßF< ß'.
Deshalb wird (aF' ßF) auch als kanonisches oder minimales Trägerintervall von P bezeichnet. Bei den bisher betrachteten stetigen Verteilungen haben wir auch von
Anfang an dieses minimale Intervall gewählt.
Verteilungsfunktionen und Dichten
4-8
7.3.16
Abb. 2: Stetige Dichten und Verteilungsfunktionen der Verteilungen:
SG( a, ß)~
Expo( >.) mit fL = 1/\
N(tt, a 2 ).
Dichte der stetigen Gleichverteilung SG(a ,ß)
Verteilungsfunktion von SG(a,ß)
1,0
~---
1//1
0 ,5
a
Dichte der Exponentlaiverteilung mit Erwartungswert 11
ß
Exponentlai-Verteilungsfunktion mit Erwartungswert 11
1,0
0,5
2p
0
4p
Dichte von N(u,o2 )
6p
2p
0
4p
6p
1.0
1/2o
0 .5
p-40
I
\
p-20
I
p + 2o
p+4a
Verteilungsfunktionen und Dichten
4-9
7.3.16
4.3.1 Stetige Gleichverteilung
X sei eine reelle Zufallsvariable mit dem Träger T = ( a, ß) und stetiger Gleichver-
teilung SG( a, ß), wobei a
< ß und
L1 =
ß- a. Die Verteilungsfunktion F von X ist
stetig auf ganz IR und steigt im Intervall [a, b] linear von 0 auf 1 an (vgl. Abb. 2):
(1)
1
F(x) = L1 (x- a)
< x < ß.
für a
4.3.2 Exponential-Verteilung
X sei eine Zufallsvariable mit Träger T =
(0, oo) und Exponential-Verteilung
Expo(>.). Die Verteilungsfunktion F von X ist gleich Null auf dem Intervall (- oo, 0],
und auf T ist F gegeben durch (vgl. Abb. 2)
(1)
F(t) = 1- e-"\ t
für t> 0.
4.3.3 Normal-V erteil ung
U sei eine reelle Zufallsvariable mit Trä-
Dichte von N(o ~ 1)
0.4
ger T =IR und Standard-Normalverteilun9
N(O, 1). Die Dichte cp von U bzw. N(O, 1) ist
(1)
1
cp( x) = - - . e
y'2i
-l.x2
0 .2
2
und die Verteilungsfunktion P von U bzw.
N(O, 1) ist (vgl. Abb. 3a)
-2
1,0
a
(2)
(a) =
Jcp(x) dx.
I
I
sen, aber die Funktion liegt tabelliert vor·
ter-Programmen zur Verfügung.
4
I
I
I
0 ,8
Dieses Integral läßt sich nicht explizit lö-
matischen sowie statistischen Compu-
2
Vertei lungsfunktion von iN(o,
1)
1
O,Q
-00
(vgl. Anhang) und steht in vielen mathe-
.a 0
..".-----------,----=--~
0 ,7
I
I
I
0,6
'i
I
I
0 5
~
0,4
0,3
( )
..:}--<tl--'-a--'-----------1
0 ,2
0 ,1
4
~
a 0
2
Abb.3a: Dichte und Verteilungsfunktion
der Standard-Normalverteilung.
4
Verteilungsfunktionen und Dichten
4-10
7.3.16
P ist eine stetige "sigmoide" Kurve, die um den Punkt ( 0, ~ ) drehsymmetrisch ist:
(3)
<!>(- a) = 1- <!>( a)
für a E IR.
Sei jetzt X eine reelle Zufallsvariable mit (allgemeiner) Normalverteilung N(p,, a 2 ).
Mit den Resultaten des Abschnitts 4.4.1 ergibt sich, daß die sogenannte Standardisierung U =
.l[xp,] von X eine Standard-Normalverteilung N(O, 1) besitzt, und die
a
stetige Verteilungsfunktion F von X bzw. N(p,, a 2 ) gegeben ist durch (vgl. Abb.2)
(4)
F(x) = <!>(; [x- p,])
für xE IR.
Verteilungsfunktionen und Dichten
4.4
4-11
7.3.16
Dichten transformierter Zufallsvariablen
Eine reelle Zufallsvariable X: .f2-----+ IR läßt sich unter Verwendung einer meßbaren
Abbildung g :X[D]-----+ IR "transformieren" in eine neue Zufallsvariable
g(X) : = g oX: .f2 ~ X[n] ~IR.
(1)
Wichtige Beispiele solcher Transformationen sind:
• lineare Transformation:
g(X)=a+ßX,
• Potenzen:
g(X) =
xn'
nEW
• Absolutbetrag:
• Potenzen des Absolutbetrags:
g(X) =
g(X) =
lXI,
IXIr,
r>O
• Exponentialfunktion:
g(X) = ex'
• Logarithmus:
g(X) =log X.
ß;=O
für X> 0
Wenn X eine diskrete Zufallsvariable ist, so ist auch jede Transformation g(X) wieder diskret, und die Verteilung von g(X) ist durch die Zähldichte gegeben
P{g(X)=z} = P{XEg-1 [{z}l},
(2)
z E IR.
Beispiel: Binomialverteilung
Die Anzahl X der Treffer bei n unabhängigen Wiederholungen und Treffer-Wahrscheinlichkeit p ist nach 3.3.1 die binomialverteilt:
L(X) = B(n,p).
Oft ist statt der Anzahl X die relative Häufigkeit der Treffer von Interesse, also
-
1
X ==-X
=g(X)
n
X hat
mit
den Träger { .k I k = 0, ... , n} und die Zähldichte ist dort nach (2) gegeben
n
durch
P {X = .k} = P {X= k} = b( k I n, p),
n
X ist eine umkehrbare Umskalierung von X= n X.
k = 0, ... , n.
D
Wir betrachten jetzt den Fall, daß X eine stetige Zufallsvariable mit einer Dichte f X
(gemäß 4.3) ist und wollen Dichte von g(X) für spezielle Transformationen g bestimmen.
Verteilungsfunktionen und Dichten
4-12
7.3.16
Satz 1 (Monotone Transformationen stetiger Zufallsvariablen)
X sei eine stetige Zufallsvariable mit Träger Tx= (ax,ßx) Verteilungsfunktion
1
Fx und Dichte fx: T x-----+ [0, oo), und die Menge D der Unstetigkeitsstellen vonfx
sei endlich. Weiter sei g: TX-----+ IR eine stetig-differenzierbare und streng monotone
(wachsende oder fallende) Funktion.
(a)
Für streng wachsendesgergibt sich die Verteilungsfunktion von g(X) aus
für zEg[Txl = (g(ax),g(ßx))
Fg(X)(z) = Fx(g-\z))
Fg(X)(g( ax)) = 0,
(b)
Fg(X)(g(ßx)) = 1.
Für streng fallendes g ergibt sich die Verteilungsfunktion von g(X) aus
Fg(X)(z) = 1- Fx(g-\z))
für zEg[Txl = (g(ßx),g(ax))
Fg(X)(g(ßx)) = o,
(c)
Fg(X)(g( ax)) = 1.
Ist N = {g' = 0} endlich, so ist eine Dichte von g(X) auf g[Txl gegeben durch
f)g-\z))
(i)
für zEg[Tx] \g[N],
lg'(g-1(z)) I
für zEg[N],
0
und fg(X) ist höchstens auf der endlichen Menge g [DUN] unstetig.
4.4.1 Lineare Transformationen stetiger Zufallsvariablen
Es sei X: .f2-----+ IR eine stetige Zufallsvariable mit Verteilungsfunktion FX und
einer Dichte fx:IR-----+[O,oo), die höchstens endlich viele Unstetigkeitsstellen hat.
Für festes a, ß E IR mit ß :;= 0 erfüllt die lineare Transformation g :IR-----+ IR mit
(1)
g(x) = a
+ ßx
für xE IR,
die Voraussetzungen von Satz 1 und die Inverse von g ist gegeben durch
(2)
für zE IR.
Die linear transformierte Zufallsvariable schreiben wir suggestiv als
(3)
g(X) = a
+ ßX.
Verteilungsfunktion und Dichte von a
(4)
ß>O
=?
+ ßX
ergeben sich aus Satz 1:
für zEg[ T],
Verteilungsfunktionen und Dichten
4-13
7.3.16
(5)
ß<O
=?
Fex +ßX(z)
1- Fx(ß (z- a))
(6)
ß;z::.O
=?
frx+ßX(z)
l~l·fx(ß (z- a))
für zEg[ T],
Normalverteilung: Jede Normalverteilung N(p,, a 2 ) ist eine lineare Transforma-
tion der Standard-Normalverteilung N(O, 1), weil
(7)
L(U) = N(O, 1)
L(p, + a U)
L(X) = N(p,, a 2 )
L(; [X- p,l)
2
= N(p,, a ) ,
=
N(O, 1) .
Stetige Gleichverteilung: Jede stetige Gleichverteilung SG( a 1 ß) mit L1 =
ß- a > 0
ist eine lineare Transformation der Gleichverteilung SG(O, 1), weil
(8)
L(a + L1 U) = SG(a,ß).
L(U) = SG(O, 1)
Exponentialverteilung: Jede Exponentialverteilung Expo(>.) ist eine Umskalierung
der Standard-Exponentialverteilung Expo(1) weil
(9)
L(~
L(U) = Expo(1)
U)
= Expo(>.).
4.4.2 Absolutbetrag und Potenzen stetiger Zufallsvariablen
Es sei X wieder : .f2-----+ IR eine stetige Zufallsvariable mit Verteilungsfunktion FX
und einer Dichte fx: IR-----+ [0, oo), deren Menge D der Unstetigkeitsstellen höchstens
endlich ist .. Für den Absolutbetrag
lXI und das Quadrat X2 ergeben sich Verteilungs-
funktion und Dichte auf dem Träger (0, oo) wie folgt:
(1)
(2)
FIXI(y) = Fx(Y) - Fx(- y)
für y > 0,
FIXI(y) =0
für y < 0.
!IXI(y) = f jy)
+ f X(- y)
!IXI(y) =0
(3)
für y > 0,
für y < 0.
FX2(y)
Fx(\/Y) -Fx(- VY)
für y > 0,
Fx2(Y)
0
für y < 0.
Verteilungsfunktionen und Dichten
(4)
4-14
7.3.16
2 ~ · Vx( h) +1x(- h) J
für y > 01
0
für y < 0.
Man beachte, daß die Dichten fiX I und fX 2 höchstens endlich viele Unstetigkeitsstellen haben, weil dies für f X der Fall ist. Zum Nachweis von (1) - (4) bestimmen wir
allgemeiner für r > 0 die Verteilungsfunktion und Dichte von
(5)
(6)
IX Ir:
FIXIr(Y)
Fx(yl/r) _ Fx(_ yl/r)
für y > 0,
FIXIr(Y)
0
für y < 0.
JIXIr(Y)
; y(l-r)/r[Jx(yl/r)
!IXIr(Y)
0
+ f)-yl/r)]
für y > 0,
für y < 0.
Mit f X hat auch die Dichte JIXI r höchstens endlich viele Unstetigkeitsstellen.
Für r = 1 ergeben sich (1) - (2) und für gerades r = n E W erhalten wir als Verallgemeinerung von (3) - (4) die Verteilungsfunktion und Dichte von
(7)
(8)
xn = IXIn
Fxn(Y)
Fx(yl/n) _ Fx(_ yl/n)
für y > 0,
n gerade,
Fxn(Y)
0
für y < 0,
n gerade.
fxn(Y)
~y(l-n)/n[Jx(yl/n)
für y > 01
n gerade
fxn(Y)
0
für y < 0,
n gerade.
+ f)-yl/n)]
1
Für ungerades n > 1 ist die Potenzfunktion g(x) = xn auf IR streng wachsend mit der
Inversen g-\y) = yl/n, wobei g-\- y) =- yl/n für y > 0 gesetzt wird. Für die Verteilungsfunktion und Dichte von g(X) =Xn ergeben sich
(9)
Fx(yl/n)
für y E IR
n > 1 ungerade.
(10)
~ y(l- n)/n Jx(yl/n)
für y E IR, y ;= 0,
n > 1 ungerade.
Da Fxn in y = 0 nicht differenzierbar ist, setzen wirfxn(O) = 0, und dort kann f xn
auch unstetig sein, wie das folgende Beispiel zeigt.
Verteilungsfunktionen und Dichten
4-15
7.3.16
Beispiel: Normalverteilung
Für X'""'"' N(O, 1) ist die Dichte f X 3 von X 3 auf ihrem Träger IR im Punkt 0 unstetig
und die Verteilungsfunktion FX 3 ist dort nicht differenzierbar (vgl. Abb. 3b), weil
Dies ist einer der Gründe, warum wir (in 1.4 und 4.3) auch Dichten mit endlich vie-
len Unstetigkeitsstellen zugelassen haben. - Dagegen hat die Verteilung des Quadrats
X 2 auf ihrem Träger (0, oo) eine stetige Dichte, aber die zugehörige (Gamma-)Verteilung wird erst in. 8.3.3 (3) angegeben.
-5
0
5
-5
0
5
0+-~~~~~--~~~--~~~
-5
0
5
Abb 3b: Vergleich der Dichten (oben) und Verteilungsfunktionen (unten) von N(0,1)
und N(0,1) 3 -bei jeweils gleicher Skalierungen der Achsen
links:
Dichte f X und Verteilungsfunktion FX von X,.....__ N(0,1).
rechts: Dichte f X 3 und Verteilungsfunktion FX 3 von X 3 '""'"'.N(0,1) 3. Im Punkt 0 ist
f x 3 unstetig und Fx 3 nicht differenzierbar (vgl. Text).
Verteilungsfunktionen und Dichten
4-16
7.3.16
4.4.3 Log-Normalverteilung
Für eine Zufallsvariable U mit Standard-Normalverteilung N(O, 1) und reelle Parameter a, ß,
r E IR mit ß> 0 betrachten wir die Zufallsvariable
(1)
X=a+ßU.
mit
Die Verteilung von Z heißt eine Log-Normalverteilung, weil die Verteilung des (um
r
2
geschifteten) Logarithmus X= ln(Z- r) eine Normalverteilung N( a,ß ) ist. Der Trä-
ger von Z ist das Intervall (/, oo). Mit der streng wachsenden Transformation
(2)
r + erx+ßu
g(u) ==
für u E IR
und ihrer Inversen
(3)
für
z> r
ergeben sich die Verteilungsfunktion F und Dichtefz der log-Normalverteilungaus
2
der Verteilungsfunktion P und Dichte cp von N(O, 1) zu
(4)
für
z> r.
Die Dichtefunktionfz stellt eine "schiefe" Glockenkurve dar (vgl. Abb. 4-5)
Dichten der Log-Normal-Vertei lung für verschiedene Werte von {3
(\
\
o~L_~~~----~----~~=-~===-~
1
1+2a
Abb.4: Dichten der log-normalverteilten Zufallsvariablen Z = r + a eß u aus 4.4.2 (1)
mit a = ea. und N(0,1)-verteiltem U für verschiedene Werte von ß. Man beachte, daß
r und a bzw. a bereits in der Skalierung der Achsen berücksichtigt sind. - Eine weitere Darstellung von log-normal-Dichten findet sich in 7.6 Abb. 2.
Verteilungsfunktionen und Dichten
J.1
4-17
7.3.16
j.1-2o
J.1+2o
Log-Normal-Dichte: Schiefe= 1.30
648 Mädchen
J.1 + 2o
J.1
Log-Normal-Dichte: Schiefe= 1.1 9
648 Jungen
J.1=70 .95
J.1=70 .90
1/ \
0=14.98
0= 12.83
1\
\
\
I
0
20 40 60 80 100 120 140
Gewicht: Kind (Kontrolle) [Pound ]
f.1-2o
0
I
J
I
I
~
I
I
20 40 60 80 100 120 140
Gewicht: Kind (Kontrolle) [Pound ]
J.l J1 + 2o
J1+2o
I
Log-Normal-Dichte: Schiefe=0.49
i296 Kinder
J1 ':28.28 / \
7
0 - 5 .99
\
,..,
\
1/
\
~
f
I
0
I
I
I
I
50
100 150 200 250 300
Gewicht: Mutter (Geburt) [Pound]
I
J
I
\
I
I
I
10
20
30
40
50
Alter: Mutter (Geburt) [Jahr]
Abb. 5: Histogramme mit "angepaßter" Dichte einer Log-Normalverteilung für
Daten aus einer amerikanischen Studie über Kindesentwicklung: Gewicht der
Kinder im Alter von 10 Jahren, das Gewicht der Mutter sowie das Alter der Mutter (bei Geburt des Kindes). Quelle: J.L. Hodges, D. Krech, R.S. Crutchfield (1975).
StatLab: an empirical introduction to statistics. McGraw-Hill, New York.
Die Parameter p, (Erwartungswert), a (Standardabweichung) und die Schiefe e3 werden erst in Kap. 7 erläutert und die hier angegeben Werte sind die jeweiligen
Schätzungen (vgl. Kap. 8).
Verteilungsfunktionen und Dichten
4-18
7.3.16
4.4.4 Weibull-Verteilung
Für eine Zufallsvariable X mit L(X) = Expo(1) betrachten wir für a, '"Y > 0 die transformierte Zufallsvariable Y = a ·X 111 . Die Verteilung von Y ist die nach Waloddi
Weibull (1887-1979) benannte Weibull-Verteilung W( a, '"Y), deren Dichte- und Verteilungsfunktion sich mit Satz 1 leicht aus denen der Exponentialverteilung bestimmen lassen. Die Dichte ist in Abb. 6 für '"Y = 0.5, 1 und 1.5 dargestellt .
1/ a
0
a
2a
3a
Abb.6: Dichte der Weibull-Verteilung W( a, '"Y) für '"Y = 0.5, 1 und 1.5 (der Skalenparameter a ist in der Skalierung der Achsen berücksichtigt).
Die Weibull-Verteilung wird oft für die ModelEerung einer zufälligen Lebensdauer Y
verwendet. Im Gegensatz zur Exponential-Verteilung (die hier als Spezialfall '"Y = 1
enthalten ist) kann mit der Weibull-Verteilung sowohl für '"Y > 1 ein "(positiver) Alte-
rungsprozeß", d.h.
(1)
P{Y>s+t I Y>s}
< P{Y>t}
für alle s, t > 0,
als auch für '"Y < 1 "negatives Altern" modelliert werden, d.h.
(2)
P{Y>s+t I Y>s}
> P{Y>t}
für alle s, t > 0.
Lediglich für '"Y = 1 (d.h. Exponentialverteilung) wird "kein Altern" modelliert:
(3)
P{Y>s+t I Y>s} = P{Y>t}
für alle s, t > 0.
Verteilungsfunktionen und Dichten
4-19
7.3.16
4.4.5* Erzeugung von Zufallszahlen
Die Verteilung einer reellen Zufallsvariablen X mit Verteilungsfunktion F läßt sich
unter Verwendung der Quasi-Inversen F- vonFauch aus der stetigen Gleichverteilung SG(0,1) erzeugen:
(1)
F-(U) hat F als Verteilungsfunktion
L(U) = SG(O, 1)
Für jede vorgegebene Verteilung L(X) mit Verteilungsfunktion F läßt sich daher
aus einer SG(O, 1)-verteilten Zufallsvariablen U durch Transformation mit der
Quasi-Inversen F- eine Zufallsvariable Z = F-(U) mit der vorgegeber Verteilungsfunktion F erzeugen. Man benutzt dieses Verfahren zur Erzeugung von Zufallszahlen
für eine vorgegebene Verteilung, indem man Zufallszahlen u , u , .... gemäß SG(O, 1)
1
2
erzeugt (was im Rechner besonders einfach und schnell möglich ist) und diese dann
mit F- transformiert zu x = F-( u ), x = F-( u ), .....
1
4.5
1
2
2
Zufallsvektoren
Bei komplexeren stochastischen Vorgängen interessiert man sich typischerweise
für mehrere reelle Zufallsvariable und für die möglichen Zusammenhänge dieser Zufallsvariablen. Bei einem (zufällig ausgewählten) Neugeborenen sind z.B. das Geburtsgewicht X 1, die Geburtsgröße X 2 und die Schwangerschaftsdauer X 3 von primärem Interesse für die Reife des Kindes und es besteht ein starker Zusammenhang zwischen diesen drei Zufallsvariablen. Die statistische Analyse des Zusammenhangs der drei Zufallsvariablen läuft auf die Untersuchung der Verteilung des
Zufalls-Tripels (X ,X ,X ) hinaus.
1
2
3
Allgemeiner betrachten wir auf einem Wahrscheinlichkeitsraum (f2, d,P) endlich
viele reelle Zufallsvariablen X.: f2 -----+ lR mit i = 1, ... , n. Die n Abbildungen X , ... ,X
z
1
n
lassen sich zu einer Abbildung zusammenfassen
(1)
X:=(X , ... ,Xn): f2-----+ lRn
mit
(2)
X(w) = (X1(w), ... , Xn(w))
für w E f2.
1
Unter Verwendung der Projektionen 1r.: lR n-----+ lR für i = 1, ... , n mit
z
(3)
1r.(x , ... , x ) = x.
z 1
n
z
Verteilungsfunktionen und Dichten
4-20
7.3.16
läßt sich (2) auch äquivalent schreiben als
(4)
1r.oX=X.
z
für alle i = 1, ... ,. n .
z
Um die Abbildung X: .f2-----+ IR n als Zufallsvariable auffassen zu können, benötigen
wir noch eine a-Algebra d C ~(IR n) bzgl. der X meßbar ist. Da die volle Potenzmenge d=~(IRn) hierfür "zu groß" ist, wollen wir jetzt (analog zum Fall n = 1)
eine geeignete a-Algebra d "interessierender" Ereignisse definieren.
4.5.1
Mehrdimensionale Borel-Mengen
Zur Konstruktion einer geeigneten a-Algebra auf IR n betrachten wir n Bore1-Mengen B , ... , B E lB, wobei wir B. als ein "Ereignis" für X. interpretieren. Das simul1
n
z
z
tane Eintreten aller dieser Ereignisse für den Vektor X entspricht dann (analog den
Überlegungen für simultane Vorgänge in 3.3) der Produktmenge
n
(1)
iD1Bi =
B1 xB2 x ... xBn
mit B1, ... ,Bn E lB.
Die Menge ggn aller Produktmengen der Form (1) ist noch keine a-Algebra, weil
z.B. das Komplement einer Produktmenge im allgemeinen keine solche mehr ist.
Die kleinste gJ umfassende a-Algebra wird mit lBn = a(gJn) bezeichnet und ihre
Elemente BE lBn werden auch (n-dimensionale) Borel-Mengen genannt. Insbesondere
ist jede höchstens abzählbare Menge B C IR n eine Borel-Menge. Außerdem enthält lBn
alle offenen und alle abgeschlossenen Teilmengen des IR n_
Von besonderem Interesse sind Produktmengen von reellen Intervallen
n
(2)
fli.
= I 1 xi2 x ... xin
mit Intervallen I 1, ... ,In ciR,
.
z
z= 1
die man auch als n-dimensionale Intervalle bezeichnet. Die Menge ._yn aller n-dimensionalen Intervalle - d.h. von der Form (2) - erzeugt ebenfalls die a-Algebra lBn, d.h.
lBn = a(.fn) ist die kleinste ._yn umfassende a-Algebra auf IRn.
Das Produkt von Intervallen der Form (a.,b.] CIR wird auch wie folgt bezeichnet
z z
(3)
n
(a,b] == fl(a.,b.] = {(x1, ... ,x )EIRnla.<x.<b.fürallei}.
i =1 z z
n
z
z
z
wobei a = (a , ... ,an) und b = (b , ... , bn). Weiter ist es zweckmäßig, die Ordnungsrela1
1
Verteilungsfunktionen und Dichten
tionen
(4)
< und < von IR
4-21
7.3.16
))komponentenweise auf IR n fortzusetzen 11, d.h. wir definieren
a b,
ein Gegenbeispiel für n = 2 liefert a = (0, 1) und b = (1, 0). - Mit dieser Notation ist
(a,b] = {xEIRnl a<x<b},
(5)
und die n-dimensionalen Intervalle [a, b], [a, b) und (a, b) sind analog definiert. Es
ist sinnvoll, hierbei auch
n
a. =
z
± oo bzw. b. = ± oo zuzulassen, z.B.
z
(- oo, b] : = .TI (- oo, bz.] = { (x1, ... , x n ) E IR n I - oo < x.z < b.z für alle i } .
z= 1
Die Menge ßt aller Intervalle der Form (6) erzeugt auch alle Bore1-Mengen d.h
(6)
lBn =
a(ßt)·
4.5.2 Die Verteilung von Zufallsvektoren
Für einen Wahrscheinlichkeitsraum (.f2, d,P) und Abbildungen X.: .f2 -----+IR mit
z
i = 1, ... , n wird in der Maß- und Wahrscheinlichkeitstheorie gezeigt
(1)
X= (X , ... ,Xn) : .f2-----+ IRn meßbar bzgl. d, lBn
1
X. : .f2 -----+ IR
z
meßbar bzgl. d, lB
für alle i = 1, ... , n.
Ein solches meßbares X heißt auch ein (reeller) Zufallsvektor. Für .f2 C IR m ist nach
(1) insbesondere jede stetige Abbildung X meßbar.
Die Verteilung L(X) des Zufallsvektors X im IR n wird auch als gemeinsame Verteilung der Zufallsvariablen X , ... ,X bezeichnet. Und die Verteilung
1
n
zelnen Komponente X. in IR heißt auch die Randverteilung von X ..
z
L(X.)
einer einz
z
Die Verteilungsfunktion eines Zufallsvektors ist analog zum Fall n = 1 definiert.
Definition: Für einen Zufallsvektor X heißt die Funktion F: IR n-----+ [0, 1] mit
(1)
F(x): = P{ X< x} = PX(-oo, x]
die Verteilungsfunktion von X oder Verteilungsfunktion von P x·
Die Verteilungsfunktion F des Zufallsvektors hat analoge Eigenschaften wie im ein-
Verteilungsfunktionen und Dichten
4-22
7.3.16
dimensionalen Fall, die wir aber hier nicht im einzelnen aufführen. Insbesondere ist
die Verteilung von X bereits eindeutig durch ihre Verteilungsfunktion F bestimmt.
4.6
Diskrete Zufallsvektoren
Ein Zufallsvektor X : .f2-----+ IR n heißt diskret, falls sein Träger T: = X [ .f2] höchstens
abzählbar ist. Im folgenden sei X diskret und somit TE IBn. Die Verteilung P X von X
ist durch die Zähl-Dichte f: T----+ [ 0, 1] mit
(1)
j( x) = PX { x} = P { X = x}
für x E T,
nach 1.3 bereits vollständig bestimmt, weil
(2)
2:= f(x)
P{XEB} = Px(B) =
xEBnT
4.6.1
Multinomial-Verteilung
Motivation und Auftreten: Bei einem Zufallsexperiment betrachten wir eine Zerlegung des Ergebnisraumes .f2 in K disjunkte Ereignisse A , ... , AK
1
K
(6)
.f2 = UAk'
k=l
mit positiven Wahrscheinlichkeiten
(7)
pk == P(Ak) E (0, 1).
Ein Beispiel hierfür ist die Befragung einer Person bei einer Wahlumfrage (vgl. 0.3)
wobei die Ereignisse A , ... , AK die K zugelassenen Parteien repräsentieren und pk
1
der Stimmanteil der Partei Ak ist. Ein weiteres Beispiel ist das Werfen eines (nicht
notwendig homogenen) Würfels, mit K = 6 möglichen Elementar-Ereignissen
A1 ={1}, ... , A6 = {6} und den zugehörigen Wahrscheinlichkeiten pk =P{k}.
Wir führen jetzt n unabhängige Wiederholungen des Zufallsexperiments durch z.B. n = 1300 Befragungen bei der Wahlumfrage. Bezeichnet Xk die Anzahl der
Wiederholungen, bei denen das Ereignis Ak eingetreten ist (also z.B. die Stimmen
für die Partei Ak), so interessieren wir uns jetzt für die Verteilung des K-dimensionalen
Zufallsvektors X= (X1'" .. ,XK). Die Komponenten von X sind nicht stochastisch
unabhängig, weil ihre Summe gleich n ist: X+= n. Wie wir später (in 6.1.2) zeigen
werden, handelt es sich hierbei um eine Multinomial-Verteilung M K( n, p) mit K Klas-
Verteilungsfunktionen und Dichten
4-23
7.3.16
sen, dem Umfang n und dem Wahrscheinlichkeitsvektor p = (p , ... , pK). Im folgenden
1
wird diese Verteilung formal definiert.
Zusammenhang zur Binomialverteilung: Im Spezialfall K = 2 haben w1r nur
zwei disjunkte Ereignisse A und A = CA , die wir als "Treffer" und "Nicht-Treffer"
1
2
1
interpretieren können. Dann ist p die Treffer- und p = 1- p die Nicht-Treffer1
2
1
Wahrscheinlichkeit. Die Anzahl X der Treffer ist B(n,p )-verteilt und die Anzahl
1
1
X 2 =n-X1 der Nicht-Treffer ist B(n,p 2)-verteilt. Das Paar X=(X1,X2) ist wegen
X
1
+ X2 = n
bereits vollständig durch eine seiner beiden Komponenten bestimmt,
und jede Komponente ist binomialverteilt. Die Multinomialverteilung ist daher eine
Verallgemeinerung der Binomialverteilung (vgl. hierzu auch 6.1.2)
Definition: Die Multinomial-Verteilung MK(n,p) mit K E W ,,Klassen 11, wobei K> 1,
vom Umfang n E W ist eine K-dimensionale diskrete Verteilung auf dem Träger
Ihre
Zähldichte
ist
durch
einen
K-dimensionalen
Wahrscheinlichkeitsvektor
P = (p , ... ,pK) E (0,1)K, d.h. p += 1, gegeben
1
(2)
f (x)
n
=
n!
K
1
X
k=l
xk.
k
TI -,. p
k
Speziell für n = 1 besteht der Träger T gerrau aus denK Einheitsvektoren
1
(3)
Tl = { el' ... , eK}
(4)
ek = (ekl) E IRK
wobei
mit
ekl = 8kl
für alle k, l
( 8 = Kronecker-Symbol)
und die Zähldichte vereinfacht sich zu
(5)
4.7
für alle k = 1, ... , K.
Stetige Dichten für zweidimensionalen Verteilungen
Analog zu den Dichten aus 1.4 betrachten wir jetzt zweidimensionale stetige Dichten.
Eine zwei-dimensionale stetige (Wahrscheinlichkeits-) Dichte auf einem offenen zweidimensionalen Intervall T = (al'ß ) x (a ,ß
1
2
) C IR
2
2
ist eine nicht-negative stetige Funk-
tion f: T------+ [0, oo), deren (Lebesgue-)Integral über T gleich 1 ist:
Verteilungsfunktionen und Dichten
ßl ß2
Jf(x 1,x2) d(x1,x2)
(1)
4-24
7.3.16
= 1
J J
bzw.
T
a1
f(x 1,x2 ) dx 2 dx1 = 1
a2
In der Wahrscheinlichkeitstheorie wird gezeigt (worauf wir hier verzichten):
Theorem: Zu jeder stetigen Wahrscheinlichkeitsdichte f: T-----+ [0, oo) gibt es genau
ein Wahrscheinlichkeitsmaß Pf auf IBT = {BE IB
2
1
B C T} 1 so daß für jedes zwei-
dimensionale Intervall ( a, b] = (a , b ] x (a , b ] C T gilt
1 1
1 2
b1 b2
(2)
P (a,b] =P ((a1,b1] x(a 2,b 2 ]) =
1
1
J J f(x 1,x2)dx2 dx1 .
al a2
Zusatz: Die Wahrscheinlichkeit einer beliebigen zweidimensionalen Borel-Menge B C T
ist dann das Lebesgue-Integral von f über der Menge B
Falls T :;= IR 2 ist, so setzt man die Dichte auf ganz IR 2 fort durch
(4)
und erhält dann äqivalent zu (1)
+oo +oo
(5)
J J
bzw.
-00
-00
f(x 1,x2 ) dx 2 dx1 = 1.
Wenn P die Verteilung eines Zufallsvektors X= (X ,X ): (.f2, d,P)-----+ IR 2 ist, so
1 2
1
heißt X ein stetiger Zufallsvektor mit der (stetigen) Dichte f Die Verteilungsfunktion FX
von X ergibt sich aus (2) und (4) zu
XI
(6)
FX( x1, x 2 ) =
X2
J J
-00 -00
f( u 1, uJ du 2 du 1
Intervall-Wahrscheinlichkeiten der Form (2) lassen sich mit FX berechnen zu
Und die Dichte f erhält man (auf T) durch zweifache partielle Differentiation
(8)
f(x 1, x 2)
ri
für (x1, x 2 ) E T.
= ßx/)x F X(x1, x 2)
2
Die Verteilungsfunktionen F bzw. F von X bzw. X sind gegeben durch
1
2
1
2
Verteilungsfunktionen und Dichten
4-25
7.3.16
b1
(9)
F 1 (b 1 ) =P{X1 <b 1 } =
1
j 1 (x 1)dx1
al
ßl
b2
F2(b2)=P{X2<b2}=
1
f2(x2)dx2
j 2(x2 ) =
mit
a2
1
al
f(x 1, x2) dx1
.
In der Maß- und Wahrscheinlichkeitstheorie ergibt sich hieraus, daß j bzw. j Dich1
1
ten von X bzw. X sind. Da wir jedoch (in 1.4 und 4.3) nur Dichten eingeführt ha1
2
ben, die in höchstens endlich vielen Punkten unstetig sind, werden wir bei Bedarf
zusätzlich zur Stetigkeit von f noch voraussetzen, daß für i = 1, 2 die Dichten f. auf
z
dem Träger T. = (a ., ß ) in höchstens endlich vielen Punkten unstetig sind.
z
z 1
Zum Integral-Begriff: Bei den obigen und den folgenden Betrachtungen liegt hier
wieder das Lebesgue-Integral zugrunde. Wir wollen kurz erläutern, wie man das Le2
besgue-Doppel- Integral in (3) von meßbaren Funktionen f: IR -----+ IR schrittweise auf
Lebesgue-(Einfachjintegrale und unter zusätzlichen Bedingungen (die hier bei den
hier konkret zu berechnenden Integralen erfüllt sind) sogar auf das Riemann-Integral zurückführen kann.
Wir betrachten in (3) zunächst für den Fall, daß B = I x I ein Produkt zweier In1
2
tervalle I , I C IR ist. Dann läßt sich das Doppel-Integral sukzessive auf zwei ver1 2
schiedene Arten auf Einfach-Integrale zurückführen
(10)
1 f(x1,x2) d(x1,x2)
=
~X~
(11)
1 [ 1 f(x1, x 2) dx 2 ]dx1
~
=
~
1 [ 1 f(x1,x2) dx1 [dx 2 .
12 11
Insbesondere ergibt sich auch (2) für die Intervalle I.= (a ., b.].
z
z z
Wir geben jetzt eine zu (10) analoge Darstellung für solche BE lB 2, die sich durch
"Schnitte" parallel zur x -Achse wie folgt disjunkt zerlegen lassen (vgl. Abb. 7)
2
(12)
B= U{x1}xB2(x1)
mit
x 1 EB1
B = 'n)BJ E lB
1
(Bild vonBunter der 1. Projektion
1r
1
:IR 2 -----+IR)
Dann läßt sich nach dem Satzes von Fubini (der hier nicht bewiesen wird) das Doppel-Integral in (3) durch Einfach-Integrale berechnen
Verteilungsfunktionen und Dichten
4-26
7.3.16
Alternativ läßt sich BE IB 2 durch "Schnitte" parallel zur x -Achse disjunkt zerlegen
1
(14)
B =
U
B1(x2) x { x2 }
mit
x 2 EB2
B =
2
7r
2
[ B] E
IB
(Bild von B unter der 2. Projektion
1r
1
2
: IR -----+ IR)
(vgl. Abb. 7), so ergibt sich aus dem Satzes von Fubini analog (13)
(15)
Jf(x 1,x2 ) d(x1,x2 )
=
B
J [ J f(x 1, x~ dx1 ] dx 2 .
B2
B 1(xi)
Insbesondere stimmen die Integrale in (13) und (15) überein, wenn sowohl (12) als
auch (14) gelten- z.B. für B=I xi nach (10) oder für dieEllipseBin Abb. 7.
1
2
bi1:1f - - - - - - - - - - - -
a,
x,
Abb. 7: Für eine Ellipse B sind die Schnitte parallel zur x 2-Achse (links) nach {12)
und die Schnitte parallel zur x1-Achse {rechts) nach {14) jeweils Intervalle.
Das Doppel-Integral in (13) bzw. (15) läßt sich auch unter Verwendung des Riemann-Integrals bestimmen, wenn in eine der beiden Darstellungen sich das innere
und das äußere Integral als Riemann-Integrale berechnen lassen. Letzteres ist ins-
besondere dann der Fall, wenn der Integrand eine stetige Funktion und der Integrationsbereich ein Intervall ist (vgl. Abb. 7) - oder etwas allgemeiner, wenn der Integrand in höchstens endlich vielen Punkten unstetig ist und der Integrationsbereich
eine disjunkte Vereinigung von Intervallen ist.
Verteilungsfunktionen und Dichten
4.7.1
4-27
7.3.16
Zweidimensionale Normalverteilung
2
Für J.L=(p,1,p, 2 ), a=(a1,a 2 )EIR mit a 1,a 2 >0 sowie eE IR mit -1<e<1 ist die
2x2-Matrix
(1)
positiv-definit (d.h. xTEx> 0 für alle x E IR 2 mit x :;= 0) mit der Inversen
(2)
Die zweidimensionale Normalverteilung NiJ.L, E) ist gegeben durch die zweidimensionale stetige Wahrscheinlichkeitsdichte f: IR 2 -----+ (O,oo) mit
(3)
----;.=~1===
(4)
. exp {-
J (2'nl· Det(E)
2
ul -
2 e ul u2
2
+ u2
}
2 [ 1- e2]
1
u. = [x.-p,.]a-:-
z
z
z z
mit
für i = 1, 2.
Grafisch stelltfeine (drei-dimensionale) Glocke mit Maximum in x = Jl bzw. u
dar (vgl. Abb. 8). Die Menge der Argumente, aufdenenfeinen festen Wert y
0
=0
> 0 an-
nimmt, also der Schnitt der Kurve parallel zur (x ,x )-Ebene, ist eine Ellipse (vgl.
1 2
Abb. 9).
Wenn ein Zufallsvektor X= (X ,X
1
2
) : (.f2,
d, P)-----+ IR 2 eine zweidimensionale Nor-
malverteilung N 2(Jl, E) besitzt, so sind seine beiden Komponenten Xi: .f2-----+ IR jeweils (eindimensional) normalverteilt
L(X.)
=N(p,.,a?)
z
z z
(5)
für i = 1, 2.
Die Umkehrung hiervon gilt nicht, d.h. es gibt gemeinsame Verteilungen von X, die
keine zweidimensionale Normalverteilung sind, obwohl beide Randverteilungen L(X )
1
und L(X
2
) eindimensionale Normalverteilungen
sind (auf ein Beispiel verzichten wir).
Verteilungsfunktionen und Dichten
4-28
7.3.16
g=-0.8
g=-0.6
g= O
g= + 0.6
0
Abb. 8: Dichten f der zweidimensionalen Normalverteilung für verschiedene (2 bei
gleicher Achsen-Skalierung. Der Vorzeichenwechsel von (2 =- 0.6 zu (2 = + 0.6 entspricht einer 90°-Drehung bzw. einer Richtungsänderung der x1- oder x2- Achse.
Für wachsendes lr2l wird die Glocke steiler und zieht sich stärker zusammen über
der Geraden x2 = p, 2 + a 2a:t1 [ x1 - p,1] für (2 > 0 bzw. x2 = p, 2 - a 2a:t1 [x1 - p,1] für
(2
< 0.
Die folgende Abb. 9 zeigt einige horizontale Schnitte durch obige Dichten (analog
den Höhenlinien auf topografischen Karten).
Insbesondere sind die Standardisierungen U.=[X.-p,.]a-:-1 für i=l, 2 wieder N(O,l)z
z z z
verteilt. Hieraus - und aus (4) - ergibt sich, daß p,l' a , p, , und a nur Skalierungs-Pa1
2
2
rameter sind, während der sogenannte Korrelationskoeffizient
(2
(wie wir in 7.8.3 noch
sehen werden) den Zusammenhang beider Komponenten X und X beschreibt (vgl.
1
Abb. 9 und 10).
2
Verteilungsfunktionen und Dichten
J12+4o:r
11z+2o,
~
7.3.16
4-29
1 -;;-1-m-l -;;;-t-;;;-l -;;-l-;;;;-1~1 ;:;;;;; I
1
/
Abb. 9: Horizontale Schnitte durch die Dichten f der zweidimensionalen Normalverteilungen aus Abb. 8. Die Schnittkurven sind Ellipsen und wurden so gewählt,
daß die Wahrscheinlichkeit (unter der Normalverteilung) für das Innere der Ellipse die Werte von 10% (innen) bis 99,9% (außen) annimmt. Für e < 0 (oben links
und rechts) liegt eine negative Korrelation vor: die Wahrscheinlichkeit für die beiden (durch p,1 und p, 2 definierten) Quadranten links-oben und rechts-unten ist größer als die der beiden anderen Quadranten - und für e > 0 (rechts unten) ist es genau umgekehrt (positive Korrelation). Für wachsendes Iei werden die Ellipsen
schmaler und ziehen sich stärker über der jeweiligen Diagonalen zusammen. Lediglich im Fall e = 0 (links unten) liegt keine Korrelation vor. - Die zusätzlich eingezeichneten Punkte sind 500 per Computer erzeugte Realisierungen der jeweiligen Normalverteilung.
Verteilungsfunktionen und Dichten
4-30
7.3.16
Stallab-Oal@n: 648 M3:dchen, 641 Jungen
15 - , - - - - - - - - - - - - - - - - - - - - - - ,
'5
~
~
~"'
"'
~
~
...o
--_._
-_ ,..,..
,.,.
__ ,..,.
~
-_..
'"
-_
..,.
""
_ ..,.,.
45
_ ...,
-
:KJ.:90%
<O
16
18
20
22
26
14
16
Geburbigr6ße(?ol]
18
'2D
22.
24
26
Ge~9J6ße- [Zo l ~
Abb. 10: Beobachtete Datenpunkte zum Zusammenhang von Geburtsgröße und
Geburtsgewicht (links) bzw. Körpergröße im Alter von 10 Jahren (rechts) aus einer
amerikanischen Studie über Kindesentwicklung (vgl. auch 1.4.1 Abb. 3) Quelle:
J.L. Hodges, D. Krech, R.S. Crutchfield (1975). StatLab: an empirical introduction to
statistics. McGraw-Hill, New York. Da die Geburtsgröße nur auf einen halben Zoll
gerrau bestimmt wurde liegen alle Punkte auf den zugehörigen senkrechten Geraden. Die Ellipsen sind (wie in Abb. 9) Schnitte einer "angepaßten" zweidimensionalen Normalverteilungsdichte. Der Zusammenhang von der Geburtsgröße
zum Geburtsgewicht (links) ist offenbar stärker als der zur Körpergröße im Alter
von 10 Jahren, was sich im höheren Betrag von e wiederspiegelt. - Die Parameter
p,1, p, 2 (Erwartungswerte), a 1, a 2 (Standardabweichungen) und der Korrelationskoeffizient e werden erst in Kap. 7 erläutert und die hier angegeben Werte sind die jeweiligen Schätzungen (vgl. Kap. 8) ..
4.8
Dichten mehrdimensionaler Verteilungen
Analog zu den zweidimensionalen Dichten aus 4.7 betrachten wir jetzt mehrdimensionale Dichten. Eine n-dimensionale stetige (Wahrscheinlichkeits-) Dichte auf einem of-
fenen n-dimensionalen Intervall T = (a, ß) = (a , ß ) x ... x (an' ßn) C IR n ist eine
1 1
nicht-negative stetige Funktion f: T-----+ [0, oo), deren (Lebesgue-)Integral über T gleich
1 ist
(1)
1
Jf(x) dx
1
bzw.
mit
T
In der Wahrscheinlichkeitstheorie wird wieder gezeigt (worauf wir hier verzichten):
Verteilungsfunktionen und Dichten
4-31
7.3.16
Theorem: Zu jeder stetigen Wahrscheinlichkeitsdichte f: T-----+ [0, oo) gibt es genau
ein Wahrscheinlichkeitsmaß Pf auf IBT = {BE IBn IB C T} 1 so daß für jedes
n-dimensionale Intervall ( a, b] = (a , b ] x ... x (an' bn] C T gilt
1 1
n
Pf ( a, b] = Pf ( .TI (az., bz.] ) =
z= 1
(2)
b1
bn
1 ... 1 f( x1, ... , x n ) dxn ... dx1 ..
al
an
Zusatz: Die Wahrscheinlichkeit einer beliebigen n-dimensionalen Borel-Menge B C T
ist dann das Lebesgue-Integral von f über der Menge B
(3)
PjB) =
1f(x) dx.
B
Falls T :;=IR n ist, so setzt man die Dichte auf ganz IR n fort durch
(4)
f(x): = 0
für
xt1.T
und erhält dann äqivalent zu (1)
(5)
1 f(x) dx
= 1
]Rn
bzw.
J. . 1f(xy··, xn) dxn ... dx1
= 1.
1R 1R
Wenn die Verteilung eines Zufallsvektors X= (X , ... , Xn): (.f2, d,P)-----+ IRn mit Pf
1
übereinstimmt, so heißt X ein stetiger Zufallsvektor mit der Dichte f. In diesem Fall
lautet (2) äquivalent
(6)
P{ a<X<b}
Zum Integral-Begriff: Da wir hier wieder das Lebesgue-Integral zugrunde gelegt
haben, wollen wir (analog zu Abschnitt 4.7) kurz erläutern, wie man das n-fache
Lebesgue-Integral in (3) schrittweise auf Lebegue-Einfach-Integrale - und somit in
Spezialfällen auch auf das Riemann-Integral zurückführen kann. Wenn sich BE IBn
wie folgt disjunkt zerlegen läßt
(7)
B =
U
{x1 } xB2(x1)
mit
x 1 EB1
B = 'n)BJ E IB
1
(Bild vonBunter der 1. Projektion
so gilt nach dem Satz von Fubini (der hier nicht bewiesen wird):
1r
1
:IRn-----+IR),
Verteilungsfunktionen und Dichten
4-32
7.3.16
Damit ist das n- fache Integral auf das (n-1)-fache Integral in den Klammern [ ... ]
sowie das (einfache) äußere Integral zurückgeführt. Das (n-1)-fache Integral läßt
sich nun mit derselben Methode nach weiteren n- 2 Schritten auf Einfach-Integrale
zurückführen.
4.8.1* Multivariate Normal-Verteilung
Für einen Vektor Jl E IRn und eine symmtrische, positiv-definite nxn-Matrix Eist die
Funktion f: IR n-----+ [ 0, oo), definiert durch
(1)
für x E IRn,
eine stetige Wahrscheinlichkeitsdichte, wobei wir die Normierungseigenschaft 4.8 (1)
hier nicht nachweisen wollen. Die hierdurch definierte Verteilung Pf auf IBn ist die
n-dimensionale (oder multivariate) Normalverteilung N (Jl, E). Für n = 2 entspricht
n
dies der Definition aus 4.7.1, und für n = 1 erhält man die Definition der eindimen-
sionalen Normalverteilung N(p,, a 2 ) mit a 2 = E.
Wenn ein Zufallsvektor X= (X , ... , Xn) : (.f2, d, P)-----+ IR n eine n-dimensionale Nor1
malverteilung N (Jl, E) besitzt, so läßt sich zeigen, daß seine Komponenten
n
X.: .f2-----+ IR jeweils eindimensional normalverteilt sind mit
z
(2)
L(X.)
=N(p,.,a?)
z
z z
mit
2
a. =E ..,
z
zz
wobei E .. > 0 das i- te Diagonal-Element der Matrix Eist.
zz
i = 1, ... , n
Verteilungsfunktionen und Dichten
4.9
4-33
7.3.16
Endliche Produkte von Wahrscheinlichkeitsräumen
In Verallgemeinerung der Betrachtungen aus 3.3 wollen wir jetzt Produkte von
nicht notwendig diskreten Wahrscheinlichkeitsräumen konstruieren. Hierzu betrachten wir endliche viele Wahrscheinlichkeitsräumen (f2 ., d., P.) mit i = 1, ... , n.
z z z
4.9.1 Spezialfall: reelle Wahrscheinlichkeitsräume
Wir betrachten zunächst den Spezialfall, daß alle Ergebnisräume f2. Borel-Teilmenge
z
von IR sind und d. die zugehörige a-Algebra von Bore1-Mengen ist, d.h.
z
(1)
~=IBn.= {A
f2.EIB,
z
cni AE IB}
1
für i = 1, ... , n.
2
Obwohl uns hier primär der Fall interessiert, daß alle Ergebnisräume f2. Intervalle
z
sind, wollen wir die Konstruktion des Produktraumes allgemein für beliebige Borel-Mengen f2. durchführen. Insbesondere sind also auch höchstens abzählbare
z
Mengen f2. zugelassen, und für solche wird sich hier natürlich derselbe Produkz
traumwie in 3.3 ergeben.
Auf dem Produkt der einzelnen Ergebnisräume
n
(2)
f2 : = .TI f2.z = f2 x f2 x ... x f2 n = { (w , w , ... , w n ) I w z. E f2.z für i = 1, ... , n}
1
2
1 2
z= 1
ist zunächst eine geeignete a-Algebra d gesucht. Da f2 C IRn ist, können wir für d
die a-Algebra aller n-dimensionalen Borel-Teilmengen von f2 wählen, d.h.
Insbesondere enthält d alle Produktmengen der Form
(4)
für
Man kann sogar zeigen (worauf wir hier verzichten), daß d die kleinste a-Algebra
ist, die alle Produktmengen der Form (4) als Elemente enthält.
Das gesuchte Produkt-Wahrscheinlichkeitsmaß P auf d soll folgende Bedingung
für beliebige A E .521 , ... , An E dn erfüllen. Wir werden im nächsten Abschnitt se1
1
hen, daß es genau ein Wahrscheinlichkeitsmaß P mit dieser Eigenschaft gibt.
Verteilungsfunktionen und Dichten
4-34
7.3.16
4.9.2 Allgemeiner Fall: beliebige Wahrscheinlichkeitsräume
Im allgemeinen Fall sind jetzt .f2. beliebige Räume, also z.B. (aber nicht notwendig)
z
mehrdimensionale Bore1-Mengen .f2. E lR ni. Unser Ausgangspunkt ist daher
z
(1)
(D ., d.,P.) Wahrscheinlichkeitsraum
z z z
für i = 1, ... , n.
Auf dem Produkt der einzelnen Ergebnisräume
n
.f2 : = .TI .f2.z = .f21 x .f2 2 x ... x .f2 n = { (w1, w2, ... , w n ) I w z. E .f2.z für i = 1, ... , n}
(2)
z= 1
ist zunächst wieder eine geeignete a-Algebra d gesucht. Analog zur Definition der
Bore1-Mengen überlegen wir zuächst, welche Teilmengen von .f2 relevant sind und
deshalb in d liegen sollten. Dann definieren wir d als die von den relevanten Teilmengen erzeugte a-Algebra. Motiviert durch den Spezialfall 4.9.1 (2) betrachten wir
das Mengensystem
n
f!ll== iD ~ = {A1 xA 2 x ... xAniA 1 E~, ... ,AnEdn}
1
(3)
als relevant und die hiervon erzeugte a-Algebra ist die gesuchte a-Algebra
d:= a(f!ll).
(4)
Im Spezialfall 4.9.1 stimmt dieses d mit der dortigen a-Algebra d überein, was
sich aus der Bemerkung nach dem dortigen (4) ergibt.
Das gesuchte Wahrscheinlichkeitsmaß P auf d läßt sich allerdings mit den hier
zur Verfügung stehen Mitteln nicht explizit angeben, und wir verweisen daher auf
das folgende Resultat aus der Maß- und Wahrscheinlichkeitstheorie.
Theorem (Produktmaß endlich-vieler Wahrscheinlichkeitsmaße):
Es gibt genau ein Wahrscheinlichkeitsmaß P auf (.f!, J?t), so daß für alle A E d , ... ,
1
A Ed
n
n
gilt:
n
(5)
1
P(TIA.)
1 z
z=
0
n
TI P.(A.)
z= 1 z z
bzw.
0
Man beachte, daß das Produktmaß P durch (5) zunächst nur auf dem relevanten
Mengensystem f!Jl festgelegt ist. Und das Theorem besagt, daß sich P auf die von f!Jl
Verteilungsfunktionen und Dichten
erzeugte a-Algebra d
4-35
11.3.16
eindeutig fortsetzen läßt. Dieses Wahrscheinlichkeitsmaß P
heißt das Produktmaß von P , ... , Pn und (f2, d,P) heißt auch der Produktraum. Als
1
suggestive Bezeichnung verwendet man wieder
n
(6) P = TI P. (Produktmaß),
(f2, d,P) =
z=
0
1 z
n
TI1 (f2z., d.,P.)
z z
(Produktraum).
z=
0
Wenn alle f2. höchstens abzählbar sind, so ist d = ~(f2) und dieses Produktmaß
z
stimmt mit dem aus 3.3 überein, weil sich speziell für A. = { w .} in (5) die Zählz
z
dichte aus 3.3 (2) ergibt.
Bezeichnet 1r.: f2-----+ f2. die i-te Projektion, definiert durch
z
z
(7)
1r .( w
z
, w , ... , w )
1 2
n
= wz. ,
so ergeben sich hier (wie in 3.3) die folgende Eigenschaften für beliebige A E d , ... ,
1
1
A Ed:
n
n
(8)
{ 1r. E A.} : = 1r .-1 [A .]
(9)
P{ 1r.EA.} = P.(A.)
z
z
z z
n
7r. E A.} = A x A x ... x A
1
2
(10)
z
n{
i =l
z
z
z
z
z
{ (w1, w2, ... , w n ) I w z. E A z. }
n
n
TI
z= 1
0
A.
z
0
Da (8) und (9) für jedes A. E d. gelten ergibt sich für jedes i = 1, ... , n
z
z
f2. ist meßbar bzgl. d und d . .
z
z
(11)
1r. : f2-----+
(12)
P. ist das Bildmaß von P unter 1r .,
z
z
z
d.h.
1
P. = P1r -:- = L(1r .).
z
z
z
Wenn nun die Einzelvorgänge voneinander unabhängig sind, dann sollten die Ereignisse { 1r E A }, ... , { 1rn E An} für beliebige A E d , ... , An E dn stochastisch unab-
1
1
1
1
hängig sein. Und dies ist für das Produktmaß P auch der Fall, d.h. für jedes
0 ;= K C {1, ... , n} gilt
(13)
Verteilungsfunktionen und Dichten
4.10
11.3.16
4-36
Abzählbare Produkte von Wahrscheinlichkeitsräumen
Neben den oben behandelten endlichen Produkten reeller Wahrscheinlichkeitsräume
sollen jetzt auch noch abzählbare Produkte solcher Räume eingeführt werden. Abzählbare Produkträume werden unter anderem als Modelle für unendliche Wiederholungen eines stochastischen Vorgangs benötigt. Ein erstes Beispiel hierfür ist die
Herleitung der geometrischen Verteilung in 5.1.2.
Den Ausgangspunkt bildet eine Folge (.f! n , d n ,PnnEm
) li.T von Wahrscheinlichkeitsräumenmi, die wir auch suggestiv als (Modelle für) stochastische Vorgänge interpretieren. Obwohl bei den meisten hiesigen Anwendungen alle Ergebnisräume .f2
n
später eine Borel-Teilmenge von lR sein werden, wollen wir diesen Spezialfall nicht
(wie in 4.9.1) vorab untersuchen, sonden gleich den allgemeinen Fall mit beliebigen
Ergebnisräumen .f2. betrachten.
z
n enthält jetzt gerrau diejenigen Folgen w = (w n)nEmli.T aus der Vereinigung .f2 : = U .f2 bei denen das n-te Folgenglied in .f2 liegt, d.h. w E .f2 :
oo
nElN n
n
n
n
Der Produktraum
(1)
.f2:=
TIn=
{w=(w)
li.TE.f!lNiw Ef2 fürallenEW}.
n
n nEm
oo
n
n
n E lN
Man beachte, daß der Produktraum .f2 selbst dann nicht mehr abzählbar ist, wenn
alle .f2. nur zwei Elemente enthalten, z.B. .f2. = {0, 1}, weil für Kardinalzahlen gilt
z
z
lN
lN
card({0,1} ) = 2 = card(~(W))
> card(W).
Eine geeignete a-Algebra auf dem Produktraum .f2 erhalten wir jetzt indem wir
wieder eine Menge f!Jl relevanter Ereignisse A
c .f2 spezifizieren und dann die von
erzeugte a-Algebra verwenden. Zu jeder Folge (A E d)
n
(2)
TI
A = { w=(w)
n E lN n
f!Jl
li.T von Ereignissen ist
n nEm
li.TE.f2 I w EA für alle nEW}
n nEm
n
n
ein n relevantes Ereignis im Produktraum. Die Menge relevanter Ereignisse ist dann
(3)
f!ll : = {
TI
A IA E d
nElN n
n
n
für alle n E W } ,
und die hiervon erzeugte a-Algebra
(4)
d= a(f!ll)
ist unsere gesuchte a-Algebra auf dem Produktraum .f2.
Um jetzt ein Wahrscheinlichkeitsmaß P auf d zu erhalten wollen wir zunächst
Verteilungsfunktionen und Dichten
4-37
16.3.16
spezielle relevante Ereignisse der Form (3) betrachten, bei denen für ein festes n E W
nur die ersten n Folgenglieder (w , ... , w n) in A x .... x An liegen müssen, während
1
1
w. E .f2. für i > n beliebig sein darf. Zur formalen Beschreibung solcher Ereignisse eig-
z
z
nen sich die Projektionen
(5)
1r. : .f2 -----+ .f2.
z
z
1rz.((w n )nEm
l'>T) = w.,
z
mit
iEW.
Die zugehörigen Ereignisse
1
{ 1r.EA.}
== 7r.[A.]
= {(w)
l'>T I w.EA.}
z
z
z
z
n nEm
z
z
(6)
beziehen sich nur auf den i-ten stochastischen Vorgang, dessen Ergebnis w. in A.
z
z
liegen soll.
Mit den Projektionen läßt sich das Ereignis (2) auch wie folgt beschreiben
TI
(7)
n {7r
A = {wE.f217r (w)EA fürallenEW} =
nElN n
n
nElN
n
n
EA }.
n
Für festes n und A. = .f2. für alle i > n liefert (7) in diesem Fall
z
z
n
n
oo
n
TIA.x TI .a. =
{7r.EA}.
z
z= 1 z z=n z
z =1 z
Man nennt solche Ereignisse auch n-dimensionale Zylindermengen. Analog zur Ei-
(8)
0
0
0
genschaft endlicher Produktmaße soll für das gesuchte Produktmaß P hier auch gel-
ten:
n
P( n1{1r.EA})
z
z
n
P{ 7r1EA1' ... , 7r EA } =
z=
0
n
n
TI
P.(A.)
i= 1 z z
0
Das folgende Resultat aus der Maß- und Wahrscheinlichkeitstheorie (das wir hier
nicht beweisen können) besagt, daß es genau ein Wahrscheinlichkeitsmaß P gibt,
sodaß die obige Eigenschaft für alle n und alle A , ... ,An gilt.
1
Theorem (Produktmaß abzählbar-vieler Wahrscheinlichkeitsmaße):
Es gibt genau ein Wahrscheinlichkeitsmaß P auf (.f!, J?t), so daß für alle n E W und
alle A E J?t , ... , An E J?tn gilt:
1
1
n
(9)
P( n1{1r.EA})
z
z
z=
0
n
P{ 7r1EA1' ... , 7rn EA n } =
TI
.
z= 1
P.(A.)
z z
bzw.
Verteilungsfunktionen und Dichten
4-38
11.3.16
Dieses Wahrscheinlichkeitsmaß P heißt das Produktmaß der Folge (Pn ) nEm
li.T' und
(.f2, d,P) heißt auch der Produktraum. Als suggestive Bezeichnung verwendet man
wieder
(10)
TI
P =
P.
(Produktmaß),
nElN z
TI
(n, d,P) =
nElN
(n ., d.,P.)
z
z
z
(Produktraum).
Wie bei den endlichen Produkten gelten auch hier für jedesiE W:
n-----+ n z ist meßbar bzgl. d
(11)
7r
(12)
P{ 1r.EA.}
= P.(A.)
z
z
z z
(13)
P. ist das Bildmaß von P unter 1r .,
z
z
z
0
:
0
und d.
z
0
für alle A.E d ..
z
z
d.h.
1
P. = P1r -:- = L(1r .).
z
z
z
Wenn nun die Einzelvorgänge voneinander unabhängig sind, dann sollte jede Folge
mit beliebigen (A n E d n ) nE li.T
stochastisch unabhängig
von Ereignissen ({1rn E A n}) nE li.T
m
m
sein. Und dies ist für das Produktmaß P auch der Fall, d.h. für jedes 0 :;= K C W gilt:
Stochastische Unabhängigkeit von Zufallsvariablen
5.
18.12.15
5-1
Stochastische Unabhängigkeit von Zufallsvariablen
Die Unabhängigkeit von Zufallsvariablen ist ein zentraler Begriff der Stochastik. Wir
definieren zunächst die Unabhängigkeit für endlich viele Zufallsvariablen.
Definition 1: Eine endliche Familie von Zufallsvariablen
X.:(fl,d,P)----+(fl!,d!) mit i=1, ... ,n heißt stochastisch unabhängig (bzgl. P),
z
z z
wenn eine der beiden äquivalenten Bedingungen erfüllt ist:
(U1)
Für beliebige B E d{, ... , B n E d~ sind die Ereignisse
1
{X EB }, ... , {Xn EBn} stochastisch unabhängig.
1
1
(U2)
Für beliebige B E d{, ... , Bn E d~ gilt
1
n
P{X1EB1' ... ,Xn EBn } =
TI P{X.EB.}
z
z
.
0
z= 1
Man beachte daß alle Zufallsvariablen X. zwar auf dem gleichen Wahrscheinlichz
keitsraum f2 definiert sind, aber ihre Wertebereiche fl. verschieden sein können.
z
Für reellwertige Zufallsvariablen läßt sich die stochastische Unabhängigkeit unter
Verwendung der Verteilungsfunktionen scharakterisieren.
Satz: Für i = 1, ... , n sei X.: fl----+ IR eine reelle Zufallsvariable mit Verteilungs-
z
funktion FX.' und FX sei die Verteilungsfunktion des Zufallsvektors
2
X= (X1, ... ,Xn). Dann sind X 1, ... , Xn genau dann stochastisch unabhängig wenn
n
P{X1 <a1, ... ,Xn <an}
=.TI
bzw.
P{Xi<ai}
z=1
für alle
a1 , ...,an E.IR
Aus (U1) ergibt sich, daß mit X1' ... ,Xn auch jede (endliche) Teilfamilie (Xk)kEK für
K C {1, ... , n} stochastisch unabhängig ist. Dementsprechend erweitern wir die sto-
chastische Unabhängigkeit auf beliebige Familien von Zufallsvariablen.
Stochastische Unabhängigkeit von Zufallsvariablen
18.12.15
5-2
Definition 2: Für eine beliebige Indexmenge I:;= 0 heißt eine Familie von
Zufallsvariablen X. :(.f!, J?t,P)-----+ (.f2 !, J?t!) mit i EI stochastisch unabhängig,
z
z
z
wenn für jede nichtleere endliche Teilmenge Kci die Teilfamilie (Xk)kEK
stochastisch unabhängig ist, d.h.
(U3)
für alle Bk E J?t~, k EK.
Aus der Definition ergibt sich sofort, daß mit einer Familie (X.). I auch jede durch
z zE
0
:;= J CI
gegebene Teilfamilie (X.). J stochastisch unabhängig ist.
J JE
Beispiel: Projektionen bei Produkträumen
Für eine Familie (.f!i' ~,P)iEI mit endlicher oder abzählbarer Indexmenge I:;= 0
haben wir in 4.9 und 4.10 den zugehörigen Produktraum
TI (n z., J?t.,P.)
. I
z z
zE
konstruiert. Dieser Produktraum sollte das unabhängige (und simultane) ausführen
(n, J?t,P) =
aller einzelnen "stochastischen Vorgänge" modellieren, und dies spiegelt sich darin
wieder, daß die Familie der Projektionen (1r.: .f2 -----t .f2 .) . I stochastisch unabhängig
z
z zE
ist - was sich sich unmittelbar aus 4.9 (13) und 4.10 (12) ergibt.
D
Insbesondere erhalten wir aus dem Beispiel den
Existenzenzsatz: Für eine vorgegebene Familie (.f2 z., J?t.,P.).
I von Wahrz z zE
scheinlichkeitsräumen mit höchstens abzählbarer Indexmenge I:;= 0 existieren
ein Wahrscheinlichkeitsraum (.f2, J?t,,P) und stochastisch unabhängige Zufallsvariablen X.: .f2-----t .f2. mit Verteilung L(X.) = P. für i EI.
z
z
z
z
Neben endlichen Familien werden wir hauptsächlich abzählbare Familien (also Fol-
gen) unabhängiger Zufallsvariablen betrachten. Hierbei gilt
(1)
(Xn ) nEm
-r-.T stochastisch unabhängig
{}
Für jedes n E W sind X , ... , Xn stochastisch unabhängig.
1
Stochastische Unabhängigkeit von Zufallsvariablen
18.12.15
5-3
In der Definition 1 haben wir die stochastische Unabhängigkeit von Zufallsvariablen
durch die Unabhängigkeit von Ereignissen beschrieben . Umgekehrt läßt sich die
Unabhängigkeit von Ereignissen A , ... , An E d äquivalent durch die Unabhängigkeit
1
der zugehörigen Indikatorfunktionen I : .f2-----+ {0, 1} formulieren:
A-
2
A , ... ,An stochastisch unabhängig
(2)
1
I , ... , I
Al
5.1
An
{}
stochastisch unabhängig.
Stochastische Unabhängigkeit diskreter Zufallsvariablen
Wir untersuchen den Unabhängigkeitsbegriff für Zufallsvariablen zunächst für dis-
krete Zufallsvariable X.: (.f!, d, P)-----+ (.f2 !, d.) d.h. das Bild X. [.f2] ist höchstens abz
z z
z
zählbar. Weiter sei ohne Beschränkung der Allgemeinheit X. surjektiv ist (andernz
falls ersetze man .f2! durch X.[ .f2])~ d.h.
z
z
.f2! = X. [.f2] ist höchstens abzähl bar,
(1)
z
z
d!=~(.f!!)
z
z
füri=l, ... ,n.
Die Verteilung von X. ist durch die Zähl-Dichtef. mit
z
z
(2)
f.(x.)
= P{X. = x.} = PX {x.}
z z
z
z
i z
für alle x. E .f2!
z
z
charakterisiert. Und die Verteilung des n- Tupels
n
(3)
X:= (X1' ... ,Xn ) : .a-----+ .TI .a~z =: .a'
z= 1
ist ebenfalls eindeutig bestimmt durch ihre Zähl-Dichte f mit
(4)
Unter Verwendung der Dichten läßt sich die Unabhängigkeit wie folgt beschreiben.
Satz: Diskrete Zufallsvariablen X , ... , Xn sind gerrau dann stochastisch
1
unabhängig, wenn gilt
n
(5)
TI1f.(x
.)
z z
z=
0
n
TIP{X.=x.}
z
z
z= 1
0
bzw.
Stochastische Unabhängigkeit von Zufallsvariablen
5-4
18.12.15
Die Eigenschaft (5) besagt, daß das Produktmaß der Randverteilungen mit der gemeinsamen Verteilung von (X , ... ,Xn) übereinstimmt, d.h. es gilt
1
(6)
n
x1, ... , xn stochastisch unabhängig
TI L(X.).
z
L(X1' ... ,Xn ) = .
z= 1
5.1.1
Randomisierte klinische Vergleichsstudie
Wir betrachten eine klinische Vergleichsstudie, bei der jeder Patient zufällig einem
von zwei möglichen Behandlungsarmen zugeteilt wird ("Randomisierung"). Hierbei
entspricht ein Behandlungsarm meist einer neuen Therapie (oder einem neuen Medikament), die man mit dem bisherigen Standard (oder einem Placebo) vergleichen
will. Kodiert man beide Behandlungsarme durch eine Zufallsvariable X mit den
Werten 1 (neu) und 0 (Standard), so hat X eine B(1,px)-Verteilung, wobei
Px = P{X = 1} die Wahrscheinlichkeit für die Zuteilung zur neuen Behandlung ist.
Typischerweise wird Px = ~ gewählt, aber wir wollen hier ein beliebiges Px betrachten. Von Interesse ist, ob ein (wohldefinierter) Behandlungserfolg eintritt oder nicht.
Verwendet man eine Indikatorvariable Y für den Erfolg (Y = 1) bzw. Nicht-Erfolg
(Y = 0), so hat Y eine B(1,py)-Verteilung mit Py=P{Y = 1} als Erfolgs-Wahrschein-
lichkeit. Die gemeinsame Verteilung des Paares (X, Y) nimmt dann die vier Werte
aus {0,1}x{0,1} an mit den Wahrscheinlichkeiten (vgl. Tab. 1)
(1)
für j, k E {0, 1} .
pjk == P{X=j, Y=k}
Wenn Behandlung X und Erfolg Y stochastisch unabhängig sind, so gilt (vgl. Tab. 1):
(2)
für j, k E {0, 1} .
pjk = P{X=j}·P{Y=k}
Unter der Unabhängigkeit sind die bedingten Erfolgs-Wahrscheinlichkeiten in beiden Behandlungs-Armen gleich der (unbedingten) Wahrscheinlichkeit py:
(3)
P{Y= 1IX=j} = P{Y= 1} =
Py
für j = 0, 1.
Stochastische Unabhängigkeit von Zufallsvariablen
18.12.15
5-5
X
Y=O
Y=1
~
X
Y=O
Y=1
~
0
Poo
POl
qx
0
qXqY
qXpY
qx
1
P1o
Pn
Px
1
pXqY
PxPy
Px
~
qy
Py
1
~
qy
Py
1
Tabelle 1: Die gemeinsame Verteilung von X und Y im allgemeinen Fall (links) und
bei stochastischer Unabhängigkeit von X und Y (rechts), wobei qX= 1- pX' qy = 1- Py·
Man überlegt sich leicht, daß (3) sogar äquivalent zur Unabhängigkeit (2) ist.
Mit einer solchen klinischen Studie will man herauszufinden, ob die Behandlung X
und der Erfolg Y unabhängig sind oder nicht (was man erhofft). Hierzu werden bei
i = 1, ... , n Patienten die Zufallsvariablen X. und Y. beobachtet, und man überprüft
z
z
(mit geeigneten statistischen Methoden), ob sich die beobachteten relativen Erfolgs-
Häufigkeiten in beiden Behandlungs-Armen stärker unterscheiden als unter der
Unabhängigkeit (zufallsbedingt) plausibel ist.
5.1.2
Geometrische V erteil ung
Warten auf den ersten Treffer: Ein Bernoulli-Experiment soll so lange wiederholt werden bis zum ersten Mal das interessierende Ziel-Ereignis (Treffer, z.B. ein
"Erfolg") eintritt. Wir wollen die Verteilung für die Anzahl vorangegangener Nicht-
Treffer (z.B. "Mißerfolge") bestimmen. Als Modell für die n-te Wiederholung verwenden wir den Wahrscheinlichkeitsraum
(.f2 ,d,P)
n
n n
mit
.f2.={0,1},
z
d
n
= ~(n ),
n
P = B(1,p) .
n
mit Treffer-Wahrscheinlichkeit 0 < p < 1. Der Produktraum
(n,d,P) =
TI
nElN
(n ,d ,P)
n
n
n
ist dann ein geeignetes Modell für abzählbar-unendlich viele unabhängige Wiedeholungen des Bernouilli-Experiments. Der Ergebnisraum enthält alle Folgen, die
nur 0 oder 1 als Folgenglieder enthalten, d.h . .f2 = {0, 1} w_ Bezeichnen wir die n-te
Projektion 7rn : n-----+ {0, 1} jetzt suggestiv mit X n ' so ist (Xn) nEm
li.T eine Folge stachastisch unabhängiger Zufallsvariablen mit
Stochastische Unabhängigkeit von Zufallsvariablen
(1)
5-6
18.12.15
für allen E W
L(X ) = B(1,p)
n
und wir interpretieren X = 1 als Treffer bei der n-ten Wiederholung. Die Anzahl Y
n
der Nicht-Treffer vor dem ersten Treffer ist dann als Funktion Y: .f2-----+ W U { oo}
0
definiert durch
(2)
Y(w)
Min {k E wo I xk+1(w) = 1}
Y
Min {k E W0 I X k+ 1 = 1 }
für w E .f2
bzw
mit der Konvention Min 0 = oo. Insbesondere gilt für k E W
(3)
und
Y=k
Und aus der stochastischen Unabhängigkeit von X 1, ... , Xk+ 1 ergibt sich
(4)
P{Y=k} = p(1-p)
k
für k = 0, 1, ...
Die Wahrscheinlichkeit, daß niemals ein Treffer eintritt (was Y = oo entspricht) ist
gleich Null
(5)
P { Y = oo} = P {X = 0 für alle n E W } = 0 .
n
Dies liefert im Rahmen diskreter Zufallsvariablen erstmals em Beispiel für ein
nicht-leeres Ereignis { Y = oo} ;= 0 mit Wahrscheinlichkeit Null. Die durch (4) defi-
nierte Verteilung auf W ist eine sogenannte geometrische Verteilung, die wir jetzt
0
formal einführen.
Definition der geometrischen Verteilung: Die geometrische Verteilung Geo(p) mit
Parameter 0 < p < 1 ist auf dem Ergebnisraum .f2 = W = {0, 1, 2, ... } definiert durch
0
die Zähldichte (vgl. Abb. 1)
(6)
g(k;p) := P{k}
p (1- p) k
für k = 0, 1, ...
Die geometrischen Wahrscheinlichkeiten sind streng fallend (vgl. Abb 1)
(7)
g( 0 ;p)
p
g( k;p)
q· g(k-1;p)
für k > 1
mit
q==1-p.
Stochastische Unabhängigkeit von Zufallsvariablen
5-7
18.12.15
Dichte von Geo(p) für p = 0,25
Dichte von Geo(p) fü r p = 0,5
0,5
r-
-
0
0
2
4
6
8
10 12 14 16 18 20
J
0
1.
2
4
6
8
I
10 12 14 16 18 20
Abb. 1: Dichten (als Histogramme) zweiergeometrischer Verteilungen.
Für eine Zufallsvariable Y mit Geo(p)- Verteilung ergibt sich für k, l E W
0
< k}
= 1
-l+ 1,
(8)
p{y
(9)
P{Y>k+ll Y>l} = P{Y>k}.
p{y
> k}
=
l'
Interpretiert man Y als eine Wartezeit (mit diskreten Zeitpunkten) auf ein interessierendes Ziel-Ereignis, so drückt die Eigenschaft (9) - analog zu 3.1.1 (2) bei der
Exponentialverteilung - wieder eine "Gedächtnislosigkeit" aus. In diesem Sinn ist die
geometrische Verteilung das diskrete Pendant zur Exponential-Verteilung. Der Parameter p ist hierbei interpretierbar als bedingte Wahrscheinlichkeit für den Eintritt
zum Zeitpunkt k unter der Bedingung daß bisher noch nichts passiert ist:
(10)
p = P{Y=k I Y>k}
Stochastische Unabhängigkeit von Zufallsvariablen
5.2
18.12.15
5-8
Unabhängigkeit bei stetigen Zufallsvariablen mit Dichten
Wir untersuchen den Unabhängigkeitsbegriff jetzt für reelle Zufallsvariablen
X.: (.f!, d, P)-----+ IR mit i = 1, ... , n, wobei die Verteilung von X. eine Wahrscheinlichz
z
keitsdichte f.: IR-----+ [O,oo) besitzt. Dann läßt sich die stochastische Unabhängigkeit
z
wie folgt charakterisieren.
Satz: Reelle Zufallsvariablen X. mit Dichten f. für i = 1, ... , n sind gerrau dann
z
z
stochastisch unabhängig, wenn das Produkt f: IR n-----+ [0, oo) der Dichten,
definiert durch
n
(1)
f(x 1, ... ,x)==
Tlf.(x.)
n
.
z z
z= 1
eine Wahrscheinlichkeitsdichte für den Zufallsvektor X= (X , ... ,Xn) ist.
1
Als Anwendung betrachten wir normalverteilte X , ... , Xn.
1
5.2.1
Normalverteilte Zufallsvariablen
Für i = 1, ... , n sei X. eine reelle Zufallsvariable mit Normal-Verteilung N(p, ., a?). Wir
z
z z
2
2
setzen J.L=(p,l' ... , p,n)' a =(a;, ... ,a~) und E = diag(a ) sei die nxn Diagonalmatrix
mit der Diagonalen a 2. Dann gilt:
(1)
xl' ... , xn stochastisch unabhängig
L(X1, ... ,Xn ) = N n (J.L,E).
Spezialfall n = 2: Insbesondere sind zwei normalverteilte Zufallsvariable X und
1
X gerrau dann stochastisch unabhängig, wenn (X ,X
2
1
)
2
eine zwei-dimensionale Nor-
malverteilung der Form N 2((p,l'p, 2), Diag(a~,a~)) besitzt, d.h. wenn in 4.7.1 (1) der
Korrelationskoeffizient
e=
0 ist. Die Dichtefund Verteilungsfunktion F von (X ,XJ
sind für diesen Fall in Abb. 2 dargestellt (vgl. auch 4.7.1 Abb.1).
1
Stochastische Unabhängigkeit von Zufallsvariablen
18.12.15
5-9
Abb. 2: Die gemeinsame Dichte f (links) und Verteilungsfunktion F (rechts) von
X= (X1,X2) mit stochastisch unabhängigen normalverteilten Komponenten
L(XJ = N(p,i, a'f) für i = 1, 2.
5.3
Unabhängigkeit bei Zufallsvektoren
Wir stellen weitere Eigenschaften der Unabhängigkeit von Zufallsvektoren zusammen. Zunächst sind Funktionen unabhängiger Zufallsvektoren wieder unabhängig:
Satz 1: Für i = 1, ... , n sei X. : .f2-----+ IR ni ein Zufallsvektor und g. :IR ni-----+ IR mi
z
eine meßbare Abbildung. Dann gilt:
(1)
... ,
X
n
z
stochastisch unabhängig
Wie bereits festgestellt wurde ist die Verteilung eines Zufallsvektors eindeutig durch
seine Verteilungsfunktion bestimmt. Folglich muß sich die Unabhängigkeit von Zufallsvektoren auch über ihre Verteilungsfunktionen charakterisieren lassen. Der
entsprechende Satz (den wir hier nicht vollständig beweisen können) besagt, daß
Stochastische Unabhängigkeit von Zufallsvariablen
18.12.15
5-10
Zufallsvektoren gerrau dann unabhängig sind, wenn die gemeinsame Verteilungsfunktion das Produkt der Rand-Verteilungsfunktionen ist (vgl. Abb. 2):
Satz 2: Für i = 1, ... , n sei X. : .f2-----+ IR mi ein
m .-dimensionaler Zufallsvektor mit
z
z
Verteilungsfunktion FX.' und FX sei die Verteilungsfunktion des Zufallsvek2
tors X= (X , ... ,Xn) der Dimension m +"Dann sind X , ... , Xn genau dann stocha1
1
stisch unabhängig wenn gilt
n
(2)
Fx( a 1, ... , a ) = TI Fx.( a .)
n
i=l
2
z
Wenn man unabhängige Zufallsvektoren in zwei oder mehrere Gruppen zu neuen
Vektoren zusammenfaßt, so sind diese wieder unabhängig. Wir formulieren dieses
Resultat nur für zwei Gruppen, aus dem man per Induktion das entsprechende Ergebnis für endlich viele Gruppen erhält.
Satz 3: Für stochastisch unabhängige Zufallsvektoren X , ... , Xn und Y , ... , Y m
1
1
auf demselben Raum .f2 (aber nicht notwendig von gleicher Dimension) sind
auch die beiden Zufallsvektoren X= (X , ... , Xn) und Y = (Y , ... , Y m)
1
1
stochastisch unabhängig.
Folgerung: Für meßbare Abbildungeng: IR k-----+ IR k' und h: IRl-----+ IRl' (mit
geeignetem k und l) sind auch die beiden Zufallsvariablen g(X) und h(Y)
stochastisch unabhängig.
Faltungen von Verteilungen
6.
6-1
8.3.16
Faltungen von Verteilungen
Sind X, Y: (.f2, d, P)-----+ IR n zwei stochastisch unabhängige Zufallsvariablen, so heißt
die Verteilung L(X + Y) der Summe X+ Y auch die Faltung der beiden Verteilungen L(X) und L(Y) und wird wie folgt bezeichnet
(1)
L(X) * L(Y) : = L(X + Y)
für stochastisch unabhängige X, Y.
Wir werden die Faltung zunächst für diskrete Verteilungen und anschließend für
stetige Verteilungen mit Dichten allgemein bestimmen und dabei auch Faltungen
von konkreten Verteilungen berechnen.
6.1
Faltung diskreter Verteilungen
Seien X, Y: .f2-----+ IR n zwei stochastisch unabhängige diskrete Zufallsvariablen mit den
(höchstens abzählbaren) Trägern
(1)
Dann hat die Summe Z =X+ Y den höchstens abzählbaren Träger
und ihre Elementar-Wahrscheinlichkeiten sind gegeben durch
(3)
P{X+Y=z} =
2:=
P{X=x}·P{Y=z-x}
xETx
2:=
P{Y=y} ·P{X=z-y}
für zE Tz.
yE Ty
Unter Verwendung der Zähl-Dichtenfx 1 jy undfz von X, Yund Z mit
f y(Y)
(4)
=
P{ Y = Y} ,
fz(z) =P{Z=z}
läßt sich (3) auch äquivalent schreiben als
(3)'
fz(z) =
2:=
f)x) -fy(z- x) = 2:= fy(y) -f)z- y)
xE Tx
yE Ty
für zE Tz.
Die Summe über x E T x in (3) und (3) 1 kann zusätzlich durch die Bedingung
z- x E T Y eingeschränkt werden, weil andernfalls der zweite Faktor des Summan-
den Null ist. Und analog kann die Summe über y E T Y durch den Zusatz z- y E T X
eingschränkt werden:
Faltungen von Verteilungen
(3) II
2:= f X (x) -fy (z- x)
2:= f y(y) -f)z- y)
XE T
für zE Tz.
y E T,
z-yE
7i
z-xE~
6.1.1
6-2
8.3.16
Binomial-Verteilung
Die Binomial-Verteilung B(n,p) ist die n-fache Faltung der Bernoulli-Verteilung
B(l,p)
(1)
B(n,p) = B(1,p) * .... * B(1,p)
t ... n-mal ... t
oder mit Zufallsvariablen formuliert
(1) I
Für stochastisch unabhängige xl' ... , xn mit B(1,p)- Verteilung gilt:
n
4 l:=X.)z = B(n,p).
0
z=1
Die Faltung von Binomial-Verteilungen mit gleichem Parameter p ist wieder eine
solche
Die Faltung zweier Binomialverteilungen B(nl'p ) und B(n ,p ) mit p
1
2 2
1
:;= p
2
ist im
allgemeinen keine Binomial-Verteilung1 was man bereits für n = n = 1 leicht er1
2
kennt.
6.1.2
Multinomial-Verteilung
Die Faltungs-Eigenschaften der Binomial-Verteilung gelten allgemeiner auch für
Multinomial-Verteilungen Zunächst ist die Multinomial-Verteilung MK(n,p) die nfache Faltung der Multinomial-Verteilung MK(1,p)
MK(1,p) * .... * MK(1,p)
t ... n-mal. . . t
(1)
MK(n,p) =
(1) I
Für stochastisch unabhängige
n
bzw.
xl, ... , xn mit MK(1, p)- Verteilung gilt:
4.2:= XJ = MK(n,p).
z=1
Die Faltung von Multinomial-Verteilungen mit gleichem Wahrscheinlichkeitsvektor
p ist wieder eine solche
Faltungen von Verteilungen
6-3
8.3.16
Die Faltung zweier Multinomial-Verteilungen MK(nl'p 1) und MK(n 2,p 2) mit p 1 :;= p 2
ist im allgemeinen aber keine Multinomial-Verteilung1 was man bereits für
n = n = 1 und K = 2 leicht erkennt.
1
2
Die Randverteilungen der Multinomial-Verteilung sind Binomial-Verteilungen, d.h.
(3)
für k = 1, ... ,K.
Für einen Zufallsvektor X= (X , ... , XK) mit Multinomial-Verteilung MK(n,p) sind
1
die Komponenten X , ... ,XK nicht stochastisch unabhängig, weil für k :;= l
1
Es gilt sogar mit Wahrscheinlichkeit 1 eine lineare Beziehung
Speziell für K = 2 ist die jeweils zweite Komponente von p bzw. X durch die erste
bereits bestimmt
(5)
für K= 2.
Also ist X= (X ,X ) mit Multinomial-Verteilung Min,p) schon eindeutig be1
2
stimmt durch die erste Komponente X mit Binomial-Verteilung B(n,p ). In diesem
1
1
Sinn entspricht die Multinomial-Verteilung mit K = 2 einer Binomial-Verteilung.
6.1.3
Faltung von Poisson-Verteilungen
Die Faltung von Poisson-Verteilungen ist wieder eine solche
oder mit Zufallsvariablen formuliert
(1) I
Für stochastisch unabhängige
xl "'Pois(p,l) und x2 "'Pois(p,2) gilt:
Faltungen von Verteilungen
6-4
8.3.16
6.1.4 Negative Binomial-Verteilung
Wir betrachten (wie in 5.1.2) eine Folge (X ) stochastisch unabhängiger B(1,p)-vern
teilt er Zufallsvariablen, die wir als Indiaktorvariablen für ein Ziel-Ereignis ("Treffer") interpretieren, mit 0 < p < 1 als Treffer-Wahrscheinlichkeit ist. Für festes n E W
ist die Anzahl Y der Nicht-Treffer bis zum n-ten Treffer definiert durch
(1)
Y=k
xk +n =
:{}
1
und
Die Verteilung von Y hat dann die Zähldichte
(2)
Diese Verteilung auf W heißt auch die negative Binomial-Verteilung mit den Para0
metern n E W, p E (0, 1) und wird hier mit NB(n,p) bezeichnet. Man beachte, daß es
prinzipiell möglich ist, daß niemals n Treffer eintreten (was Y = oo entspräche),
aber die Wahrscheinlichkeit hierfür ist Null
00
(3)
P{l:X.<n}
1 z
= 0.
z=
0
Speziell für n = 1 ergibt sich die geometrische Verteilung
(4)
Geo(p) = NB(1,p),
und die negative Binomial-Verteilung NB(n,p) ist die n-fache Faltung der geometrischen Verteilung Geo(p)
* .... *
(5)
NB(n,p) =Geo(p)
(5)'
Für stochastisch unabhängige Y , ... , Yn mit Geo(p)-Verteilung gilt:
1
n
cL( 2:: Y.) = NB(n,p).
Geo(p)
t ... n-mal ... t
0
z=1
bzw.
z
Der Beweis verwendet die folgende Beziehung für Binomial-Koeffizienten
k
'I\' (z n+_n -1)
u
1
0
(6)
i=O
__ (k n+ n)
f..ur n E 1\.11~T1 k E 1\.11~T .
0
Die Faltung von negativen Binomial-Verteilungen mit gleichem Parameter p ist
wieder eine solche ist
(7)
Faltungen von Verteilungen
6-5
8.3.16
Dichte von NB(n,p) mit p=0.4
Dichte von NB(n,p) mit p=0.4
n= 1
n= 2
0.4
0
5
10
15
20
25
30
0
Dichte von NB(n,p) mit p = 0.4
5
10
15
20
25
30
25
30
Dichte von NB(n,p) mit p=0.4
0.4
0.4
n= 4
0
Abb. 1:
5
10
15
n=8
20
25
30
0
5
10
15
20
Dichten (als Histogramme) der negativen Binomial-Verteilung
NB(n,p) mit p = 0,4 und verschiedenen Werten für n.
Faltungen von Verteilungen
6.2
6-6
8.3.16
Faltung stetiger Verteilungen mit Dichten
Seien X, Y: .f2-----+ IR zwei stochastisch unabhängige stetige Zufallsvariablen mit Trägern
Tx = (a x, ß) C IR und
T Y = (ay, ß y) C IR sowie den stetigen Dichten
fx:Tx-----+[O,oo) undfy:Ty-----+[O,oo), die außerhalb der jeweiligen Träger konstant
gleich Null gesetzt sind. Dann hat die Summe Z =X+ Y den Träger
und die Wahrscheinlichkeitsdichte fz: Tz-----+ [0, oo) von Z ist dort gegeben durch
(2)
für zE Tz.
Das erstes Integral über das Intervall (a X' ßx) kann zusätzlich durch die Bedingung
z- x E T Y eingeschränkt werden, weil andernfalls der zweite Faktor des Integran-
den Null ist. Analog kann das zweite Integral über (ay, ßy) durch z- y E Tx eingeschränkt werden. - Die auf IR fortgesetzte Dichte von Z läßt sich wie folgt schreiben
+oo
(2)'
fiz) =
1
+oo
fx(x) -fy(z- x) dx =
-00
1
f y(y) -fx(z- y) dy
für zE IR.
-00
In der Maß- und Wahrscheinlichkeitstheorie wird die Dichtedarstellung (2) bzw. (2)'
allgemeiner für meßbare (nicht notwendig stetige) Dichten f x und f Y hergeleitet.
6.2.1
Faltung von Normal-Verteilungen
Die Faltung zweier Normal-Verteilungen ist wieder eine solche
(1)
mit
Die Klasse der Normalverteilungen ist also abgeschlossen gegenüber Faltungen. Nach
4.4.1 (7) ist sie ebenfalls abgeschlossen gegenüber linearen Transformationen, d.h.
(2)
Für a, ß E IR mit
ß ;= 0 gilt:
L(X) = N(p,,a 2 )
Nach (1) ist auch eine beliebige Faltung von Normal-Verteilungen wieder eine solche
(3)
Für stochastisch unabhängige X , ... ,X mit L(X.) =N(p,.,a?) für alle
1
n
z
z z
n
n
n
i = 1, ... , n gilt:
N( 2: p, z., 2: a?z ) .
oi(l:X.)
z
z=1
z=1 z=1
0
0
0
Faltungen von Verteilungen
6.2.2
6-7
8.3.16
Faltung von Exponential- und Gamma-Verteilungen
Wie wir gleich sehen werden ist die Faltung von gleichen Exponentialverteilungen
keine Exponentialverteilung mehr. Zur Bestimmung einer solchen Faltung von Ex-
ponentialverteilungen führen wir erst die allgemeinere Klasse der Gamma-Verteilungen ein. Die Gamma-Verteilung Gam(a,ß) mit den Parametern a,ß>O ist auf
den Bereich ( 0, oo) C IR konzentriert, und besitzt dort die Dichte (vgl. Abb. 2)
(1)
für x>O.
Hierbei ist
r
die nach Leonhard Euler (1707 -1783) benannte Eulersche Gamma-
Funktion (vgl. Abb. 3 und Abschnitt 6.2.4)
00
(2)
T(a)= Jta-le-tdt.
0
Durch Substitution t = ~ ergibt sich die fundamentale Dichte-Eigenschaft
Die Dichte f( -I a,ß) von Garn( a,ß) für einige a. Man beachte, daß
die Darstellung (wegen der Achsenskalierung) für jedes ß gilt.
Abb. 3 (rechts): Die Eulersche Gamma-Funktion r (linke Skala) bzw. die LogGamma-Funktion Zn r (rechte Skala).
Abb. 2 (links):
Der Parameter ß ist ein Skalierungsfaktor1 weil
(3)
Gam( a,ß) = ß · Gam( a,1)
bzw.
L(X) = Gam( a,1)
L(ß ·X)= Gam( a,ß)
=?
Faltungen von Verteilungen
6-8
8.3.16
und allgemeiner
(4)
für c>O.
c · Gam( a,ß) = Gam( a,cß)
Für ß = 1 ergibt sich die Standard-Gamma-Verteilung Gam ( a) : = Gam ( a, 1) mit der
Dichte
(5)
f (z )
Q
=
f (z I a, 1)
1
= r(a) z
a-1 -z
für z>O.
e
0
Der Parameter a bestimmt die Form der Dichte (vgl. Abb. 2) und wird deshalb als
Formparameter bezeichnet. Wegen
(6)
für z> 0
beschreibt die Dichte f a für a
< 1 eine streng fallende Kurve und für
schiefe Glockenkurve mit einem Maximum in z
(7)
max
a > 1 eine
= a-1. Die allgemeine Dichte
f( x I a,ß)
für x>O
ist von derselben Form wie
fa
und hat für a > 1 ihre Maximalstelle m
x max = ß(a-1), vgl. Abb. 2.
Für a = 1 ergibt sich eine Exponentialverteilung
(8)
1
Gam(1,ß) = Expo(p ).
Die Faltung zweier Gamma-Verteilungen mit gleichem Skalenparameter ß ist wieder
eine solche
Insbesondere ist die Faltung von Exponentialverteilungen mit gleichem Parameter A
eine Gamma-Verteilung
(10)
Für stochastisch unabhängige X , ... ,X mit L(X.) =Expo(.A) für alle
1
n
z
n
i = 1, ... , n gilt:
l:X.) = Gam(n, .A-1).
4
0
z=l
z
Man beachte, daß Gam( n, ).- 1) für n > 1 keine Exponentialverteilung ist (vgl. Abb.2
für a =n=2 ).
Die Verteilungsfunktion dieser Gam(n, .A-1)-Verteilung läßt sich mit Hilfe von Poisson-Wahrscheinlichkeiten berechnen:
Faltungen von Verteilungen
1
P{ Gam(n, -A- )
(11)
6-9
8.3.16
< a}
P{ Gam(n, 1) < a-A}
n-1
-a>.
'I\' 1 ( ')i
1- e
·u
""'! a /\
z
z=O
0
P{ Pois(a-A)
6.2.3
0
für a > 0.
> n}
Poisson-Verteilung und Poisson-Prozeß
In verschiedenen Anwendungen interessiert man sich für die (absolute) Häufigkeit
Xt mit der ein interessierendes Ereignis innerhalb eines festen Zeitabschnitts t eingetreten ist, z.B. die Anzahl der Leukämiefälle bzw. Asbestfasern in 0.1 Tab. 1 bzw.
0.2 Tab. 2. Wir wollen jetzt zeigen, daß eine solche Anzahl Xt unter gewissen Be-
dingungen eine Poisson-Verteilung besitzt. Hierzu betrachten wir eine potentiell
unendliche Folge von Ereignissen und modellieren deren Eintreten durch eine Folge
(T
n
> 0) nEm-r-.T zufälliger Wartezeiten.
ersten Ereignisses, und T
n
Hierbei ist T1 die Wartezeit bis zum Eintreten des
soll die Wartezeit vom Eintreten des (n-1)-ten Ereignis
bis zum n-ten Ereignis darstellen. Die gesamte Wartezeit (vom Beginn des Wartens)
bis zum Eintreten des n- ten Ereignisses ist dann
(1)
S == T +. ..+ T
n
1
n
für nE W,
und der Vollständigkeit halber setzen wir
Für einen festen Zeitpunkt t > 0 betrachten Wlr die Anzahl
xt
der lm Zeitraum
[ 0, t] eingetretenen Ereignisse (vgl. Abb. 4)
(3)
t
0
Abb.
4:
Schema der Wartezeiten Ti, Si und der Anzahl Xf
Die Anzahl Xt ist eine Zufallsvariable mit Werten aus W , und für k E W gilt:
0
0
Faltungen von Verteilungen
6-10
8.3.16
(4)
sk < t
(5)
sk < t < sk+1.
Wir setzen jetzt folgende Bedingung an die Wartezeiten voraus:
(B)
Die Folge (T n ) nEm ist stochastisch unabhängig und jedes T n ist
Expo(-A)-verteilt mit A > 0.
1\. T
Zur Interpretation dieser Bedingung sei an die charakterisierende Eigenschaft 3.1.1
(2) der "Gedächtnislosigkeit" von Exponential-Verteilungen erinnert.
Unter der Bedingung (B) ist Xt dann Poisson-verteilt:
(6)
für t> 0.
(B)
Die Familie (Xt)t>O ist ein sogenannter homogener Poisson-Prozeß mit der Rate A > 0.
6.2.4 Elementare Eigenschaften der Gamma-Funktion
Wir stellen jetzt noch einige später benötigte Eigenschaften der Gamma-Funktion
00
(1)
r(x) =
1 tx- 1 e-t dt
für
x> 0
0
zusammen. Zunächst ergibt sich durch partielle Integration die Rekursionsformel
(2)
T(x+l) =
X·
T(x)
für
x> 0.
Zusammen mit
(3)
T(l)
=1
erhält man die Darstellung von Fakultäten
(4)
n! = T(n+l)
und folglich "interpoliert" die Gammafunktion die Fakultäten. Aus der Beziehung
(5)
r(~) =
v;
lassen sich mit der Rekursionsformel die Werte
rG)
stimmen (für gerades n ergibt sich der Wert mit (4)).
für alle ungeraden n E w be-
Faltungen von Verteilungen
6.3
6-11
8.3.16
Arithmetische Operationen von Zufallsvariablen
Für zwei reelle Zufallsvariablen X, Y: .f2-----+ IR sind neben der Summe X+ Y auch
die Verteilungen der Differenz X- Y, des Produkts X· Y und des Quotienten X/ Y
von Interesse, und zwar auch dann, wenn X und Y nicht stochastisch unabhängig sind.
Für diskrete Zufallsvariablen X und Y lassen sich die Verteilungen von Differenz,
Produkt und Quotient analog zur Summe in 6.1 (3) leicht herleiten, worauf wir hier
verzichten.
Wir betrachten hier deshalb nur den Fall, daß (X, Y) : .f2-----+ IR 2 stetig verteilt ist
2
und auf dem zweidimensionalen Träger-Intervall T=(ax,ß)x(ay,ßy)ciR eine
stetige Dichte
f: T-----+ [0, oo)
besitzt, die wieder außerhalb von T konstant gleich
Null fortgesetzt sei. Es wird jedoch nicht vorausgesetzt, daß X und Y stochastisch
unabhängig sind.
Die Verteilungsfunktion F
der Summe X+ Y ist dann gegeben durch
X+Y
(1)
für a E IR
+oo
J f( X, Z- X)
ßx
dx
-00
J
f( X, Z- X) dx
rxX
+oo
J
mit
ßy
f(z-y,y) dy
J f(z-y,y)
dy
für zE IR.
(Xy
-00
Und die Verteilungsfunktion F
X-Y
der Differenz X- Y ergibt sich aus
a
J fx_y(z)
(2)
dz
für a E IR
-00
ßx
+oo
J
f(x, x- z) dx
-00
f(x, x- z) dx
rxX
+oo
J
J
ßy
f(z+y,y) dy
Für die Verteilungsfunktion F
J
f(z + y, y) dy
(Xy
-00
X·Y
des Produkts X· Y erhält man
für zE IR.
mit
Faltungen von Verteilungen
6-12
8.3.16
a
(3)
1 fx.y(z)
P{X·Y<a}
für a E IR
dz
mit
-00
1
0
00
.l ·!( x, !. ) dx =
1R\{O} lXI
X
1 .1. !( x, .!)
O
X
1 ~ -!( x, ~) dx
dx -
X
-00
Und als Verteilungsfunktion FxjY des Quotienten X/ Y ergibt sich für Y :;= 0
a
(4)
FX/Y(a) = P{ :<a} =
1 fx 1y(z) dz
für a E IR
mit
-00
+oo
1 IY 1-f(zy, Y) dy
für zE IR.
-00
Mit Methoden der Maß- und Wahrscheinlichkeitstheorie läßt sich zeigen, daß auch
für beliebige (nicht notwendig stetige) Dichten fx und fy die obigen Funktionen JX+Y
bzw. fx-Y, fx.y und fxjY auch Dichten der Summe X+ Y bzw. der Differenz Y- Y,
des Produkts X· Y und des Quotienten : sind. Da wir hier aber nur Dichten mit
höchstens endlich vielen Unstetigkeitsstellen betrachten, werden wir bei Bedarf zusätzlich voraussetzen, daß diese Dichten in höchstens endlich vielen Punkten unstetig
sind.
Für stochastisch unabhängige X und Y vereinfachen sich die Darstellungen (1) - (4),
weil dann die gemeinsame Dichte f das Produkt beider Randdichten ist
(5)
X und Y stochastisch unabhängig mit Dichten f X und f Y
für x, y E IR.
Erwartungswert und Varianz
7.
7-1
15.12.15
Parameter von Verteilungen: Erwartungswert,
Varianz, Schiefe, Covarianz und Korrelation
Bei einer reellen Zufallsvariablen X (z.B. die Lebensdauer eines Produkts oder der
Wasserverbrauch eines Haushalts) ist es für viele praktische Fragestellungen nicht
so wichtig die gesamte Verteilung von X zu kennen, sondern es genügen oft schon
geeignete Maßzahlen (Parameter) 1 die wesentliche Aspekte der Verteilung charakterisieren. Primär interessiert man sich dafür, wo die X- Werte im Mittel liegen, d.h.welchen Wert X im Durchschnitt annimmt (also z.B. die durchschnittliche Lebensdauer
oder der mittlere Verbrauch). Wir werden im folgenden einen solchen Durchschnittswert durch den sogenannten Erwartungswert E(X) definieren. Darüberhinaus will
man meist noch wissen, wie stark X (im Mittel) um seinen Erwartungswert streut,
und hierfür werden wir die sogenannte Varianz (bzw. Standardabweichung) als Streuungsmaß einführen.
7.1
Definition des Erwartungswerts
Zur Motivation der Definition des Erwartungswerts als Durchschnittswert der reellen Zufallsvariablen X betrachten wir zunächst den Fall, daß X: .f2-----+ IR nur endlich viele verschiedene Werte ak mit Wahrscheinlichkeit pk annimmt, wobei
k = 1, ... , K - z.B. die Anzahl X der "Richtigen" eines Tipps beim Zahlenlotto "6 aus
49" mit den Werten 0, ... , 6. Zunächst erscheint das arithmetische Mittel
K
a ==Ku ak
k=l
ein geeigneter Kandidat für den Durchschnittswert von X zu sein. Beim Lotto-Bei-
(1)
spiel ist
a=
1'1\"'
3 allerdings nicht die durchschnittliche Anzahl der "Richtigen" eines
Tipps (diese wird erst in 9.8.3 bestimmt und beträgt 36/49 ~ 0,73). Dies liegt daran,
daß
a nicht
berücksichtigt, mit welchen Wahrscheinlichkeiten
X seine Werte an-
nimmt. Um dies zu berücksichtigen betrachten wir eine Stichprobe x = (xF ...1 xn)
vom Umfang n! d.h. konkrete Werte
X
=X.(w) wobei xl' ... ,Xn stochastisch unabhän-
z
z
gige Wiederholungen von X sind. Bezeichnet
0
die absolute Häufigkeit des Werts ak in der Stichprobe (x 11 ...1 xn), so läßt sich der
Mittelwert der Stichprobe schreiben als
Erwartungswert und Varianz
7-2
15.12.15
K
2::
p(n) a
k=1 k
mit
k
(n) -l.h(n)
Pk
-
n k
als relativer Häufigkeit des Werts ak in der Stichprobe (x 11 ...1 xn). Nach der Häufigkeits-Interpretation der Wahrscheinlichkeit (aus Kapitel 1) strebt p~n) für n---+ oo
gegen die Wahrscheinlichkeit pk und somit konvergiert der Mittelwert x(n) gegen
K
a:=
(2)
l:pkak.
k=l
Der Wert
a ist also der "langfristig zu erwartende Mittelwert" der Zufallsvariable X
und wird daher als Erwartungswert bezeichnet (vgl. Def. 1). Im Vergleich zum Mittelwert a der Werte a , ... , aK handelt es sich beim Erwartungswert
1
a um ein gewich-
tetes Mittel dieser Werte mit den Gewichtungsfaktoren pl' ... , pK (deren Summe p +ja
auf 1 normiert ist). Im Gegensatz hierzu sind die Gewichtsungsfaktoren beim Mittelwert
a alle
konstant gleich
k·- Nach diesen Vorüberlegen kommen wir jetzt zur
Definition des Erwartungswertes bei diskreten Zufallsvariablen.
Definition 1: Sei X: .f2-----+ IR eine diskrete Zufallsvariable mit dem höchstens
abzählbaren Träger T =X[ D] und Zähldichte f. Wenn gilt
(3)
2::
lxi·P{X=x} < oo,
xET
dann ist der Erwartungswert von X definiert als
(4)
E(X) : =
2::
X
0
p {X= X}
(Erwartungswert für diskretes X)
xET
=
2::
x -f(x).
xET
Da der Erwartungswert nur über die Verteilung PX (bzw. über ihre Zähldichte /)
von der Zufallsvariablen X abhängt, heißt E(X) auch der Erwartungswert von
PX und wird auch mit E(PX) bezeichnet.
Zusatz: Für nicht-negatives X- d.h. X[D] C [0, oo) -definiert man E(X) E [0, oo]
auch dann noch durch (4), wenn (3) nicht gilt, und in diesem Fall ist E(X) = oo.
Für endlichen Träger T ist die Bedingung (3) stets erfüllt, und der Erwartungswert
in (4) entspricht dem gewichteten Mittel der Werte aus T mit den zugehörigen
Wahrscheinlichkeiten als Gewichtsfaktoren - in Übereinstimmung mit obigen Vorüberlegungen. Für abzählbares T ist die Definition (4) die naheliegende Verallgemei-
Erwartungswert und Varianz
7-3
15.12.15
nerung vom endlichen Fall. Die Bedingung (3) garantiert die absolute Konvergenz
der Reihe (4) und damit auch, daß sich die Reihe (3) beliebig umordnen läßt, d.h. es
kommt nicht auf die Summationsreihenfolge an. - Man sagt, daß der Erwartungswert
E(X) E lR von X existiert, wenn (3) gilt, was für beschränktes X bzw. T der Fall ist.
Für nicht-negatives X>O bzw. Tc[O,oo) stimmen die Reihen in (3) und (4) überein,
und der Erwartungswert läßt sich auch dann noch durch (4) definieren, wenn die
Reihe nicht endlich ist, und somit auch E(X) = oo ist. Andernfalls bleibt der Erwartungswert jedoch zweckmäßigerweise undefiniert, wenn (3) nicht erfüllt ist.
Man beachte, daß der Erwartungswert E(X) im allgemeinen nicht im Träger T von
X liegt, und daher nicht notwendig ein mögliches Ergebnis von X repräsentiert.
Für eine stetige Zufallsvariable X mit Wahrscheinlichkeitsdichte f definieren wir
den Erwartungswert analog, indem wir die Summe durch ein Integral und die Zähldichte (d.h. die Wahrscheinlichkeiten) durch die Dichte f ersetzen.
Definition 2: Sei X: .f2-----+ lR eine stetige Zufallsvariable mit dem Träger
T = (a, ß) C lR und der Dichte f: lR-----+ [0, oo) mit höchstens endlich vielen
Unstetigkeitsstellen, die außerhalb von T konstant gleich Null gesetzt wird.
Wenn gilt
+oo
ß
1 I x I -f( x) dx <
(5)
oo
bzw.
1
I x I -f( x) dx < oo ,
-00
Q
dann ist der Erwartungswert von X definiert als
ß
(6)
E(X) : =
1
x -f(x) dx
(Erwartungswert für stetiges X)
+oo
J
x -f(x) dx.
-00
Da der Erwartungswert nur über die Verteilung PX (bzw. über ihre Dichte j)
von der Zufallsvariablen X abhängt, heißt E(X) auch der Erwartungswert von
PX und wird auch mit E(PX) bezeichnet.
Zusatz: Für nicht-negatives X- d.h. X[D] C [0, oo) -definiert man E(X) E [0, oo]
auch dann noch durch (6), wenn (5) nicht gilt, und in diesem Fall ist E(X) = oo.
Die Bedingung (5), die man auch als absolute Konvergenz des Integrals in (6) bezeichnet, ist eine Voraussetzung für die Definition des Erwartungswerts. Man sagt kurz,
Erwartungswert und Varianz
7-4
15.12.15
daß E(X) E IR existiert, wenn (5) gilt, was für beschränktes X bzw. T der Fall ist.
Für nicht-negatives X> 0 bzw. TC (0, oo) stimmen die Integrale in (5) und (6) überein, und der Erwartungswert läßt sich auch dann noch durch (6) definieren, wenn
das Integral nicht endlich ist, und somit auch E(X) = oo ist. Andernfalls bleibt der
Erwartungswert jedoch zweckmäßigerweise undefiniert, wenn (5) nicht erfüllt ist.
Wir werden später noch sehen, daß die Definition 2 (und auch Definition 1) unserer
Intention von E(X) als Durchschnittswert von X im folgenden Sinn entspricht. Das
arithmetische Mittell (X + ... +X ) von n stochastisch unabhängigen Wiederholunn 1
n
gen konvergiert nach dem Schwachen Gesetz der Großen Zahlen (vgl. 9.1) für n---+ oo
gegen E(X).
Eine andere Interpretation von (6) besagt, daß E(X) der "Schwerpunkt der Wahrscheinlichkeitsmasse" ist. d.h. derjenige Punkt auf der reellen Achse, der dem
Schwerpunkt der Fläche zwischen x-Achse und Dichtefunktionf entspricht, weil
+oo
J
[X-E( X)] -j( X) dx = 0 .
-00
So markiert z. B. in Abb. 1 links (sowie in 1 Abb. 5 und 4 Abb. 2) der Erwartungswert
f-L auf der horizontalen Achse den Schwerpunkt der Dichte und in 7.6 Abb. 1-2 ist der
Nullpunkt der Schwerpunkt aller Dichten.
Dichte von B(n,p) fü r n= 5, p= 0,4
Dichte voh N(p,o2)
1.0
1/20
0,5
1
p-4a
1-1-20
p +2a
J.H 4o
-1
0
•
2
r
3
4
5
6
7
8
Abb. 1: Der Erwartungswert (dargestellt als Dreieck) markiert den Schwerpunkt
Wahrscheinlichkeitsmasse (d.h. der Fläche links bzw. der Stäbe rechts) auf der x-Achse.
Erwartungswert und Varianz
7-5
15.12.15
Die Schwerpunkt-Interpretation trifft auch im diskreten Fall (4) zu: dort ist E(X)
der Schwerpunkt der Zähl-Dichte, d.h. des Stabdiagramms der Verteilung von X,
weil
2:
[x-E(X)] ·P{X=x} =
0.
xET
Für eine Binomialverteilung ist in Abb. 1 rechts (und für eine Poissonverteilung in 4
Abb 1) der Erwartungswert p, als Schwerpunkt des Stabdiagramms dargestellt.
Es ist unbefriedigend, daß ein so wichtiges Konzept wie der Erwartungswert hier
nicht durch eine geschlossenene Definition, sondern für diskrete und stetige Zufallsvariablen getrennt gegeben wird. Dieses Manko wird jedoch in der Maß- und Wahrscheinlichkeitsthoerie wie folgt beseitigt. Unter Verwendung des dort definierten In-
tegrals bzgl. eines Wahrscheinlichkeitsmaßes P läßt sich der Erwartungswert einer beliebigen Zufallsvariablen X: (.f2, d,P)-----+ IR definieren als
(7)
E(X) == 1 XdP
falls
11XIdP< oo.
D
D
Für diskretes bzw. stetiges X stimmt diese allgemeine Definition dann mit obiger
Definition 1 bzw. 2 überein. - Es gibt allerdings auch eine geschlossene Darstellung
des Erwartungswerts unter Verwendung der Verteilungsfunktion und des üblichen
(Lebesgue-) Integrals (vgl. hierzu auch Abb. 2):
Satz: Sei X: .f2-----+ IR eine Zufallsvariable mit Verteilungsfunktion F: IR-----+ [0, 1].
Dann gilt unter den Voraussetzungen von Definition 1 bzw. 2
+oo
(8)
E(X) =
1
0
0
[1-F(x)] dx -
1 F(x) dx,
-00
wobei beide Integrale endlich (d.h. konvergent) sind.
Folglich läßt sich der Erwartungswert emer beliebigen reellen Zufallsvariablen X
auch durch (8) definieren, sofern dort beide Integrale endlich sind. Allerdings ist
diese Definition nicht so intuitiv verständlich wie die Definition 1 und 2. Da wir bei
konkreten Anwendungen nur diskrete oder stetige Zufallsvariablen betrachten, reichen hier Definition 1 und 2 aus (und wir werden den Satz auch nicht beweisen).
Erwartungswert und Varianz
Verteilungstunktion von N(0,1)
------
1 ,o
7-6
15.12.15
0,5
Verteilungsfunk1ion von B(n,p) für n= S, p= 0,4
1,0
0,5
-4
-2
0
2
4
-1
0
2
3
4
5
6
7
8
Abb. 2: Der Erwartungswert als Differenz beider Integrale in (8). Links: Das erste
Integral in (8) stellt die obere und das zweite die untere Fläche dar. Da beide
Flächen gleich groß sind ist der Erwartungswert Null. Rechts: Die obere Fläche
entspricht wieder dem ersten Integral in (8) und das zweite Integral ist hier Null.
Erwartungswert und Varianz
7.2
7-7
15.12.15
Grundlegende Eigenschaften des Erwartungswerts
Zur Bestimmung der Erwartungswerte des bisher betrachteten Verteilungen ist es
zweckmäßig vorher einige grundlegende Eigenschaften (Rechenregeln) für Erwartungswerte bereitzustellen. Zunächst entspricht der Erwartungswert einer konstan-
ten Zufallsvariablen (d.h. mit Dirac-Verteilung) dieser Konstanten
(1)
L(X) = Dirac(a)
P{X=a} = 1
d.h.
E(X) =a.
Bei einer linearen Transformation einer reellen Zufallsvariablen X wird der Erwartungswert entsprechend transformiert:
(2)
E(a + ßY) = a + ßE(Y)
a,ßE lR,
für
Hier - und später - beinhaltet die Angabe eines Erwartungswertes auf der linken
Seite (von (2)) stets auch, daß dieser (im Sinn von Definition 1 bzw. 2) in lR existiert.
Allerdings gelten einige Ausagen auch dann noch, wenn die Zufallsvariablen nicht-
negativ sind und ihr Erwartungswert unendlich ist, was wir aber jeweils extra anmerken. Zum Beispiel gilt (2) auch noch für Y> 0 mit E(Y) = oo und ß> 0.
Wir betrachten jetzt einen zwei-dimensionalen Zufallsvektor (X, Y) : .f2
-----+
lR bei
dem die Erwartungswerte E(X) und E(Y) existieren. Dann ist der Erwartungswert
der Summe X+ Y gleich der Summe der Erwartungswerte
(3)
E(X + Y) = E(X)
+ E(Y) ,
wobei für X> 0 und Y> 0 auch deren Erwartungswerte unendlich sein dürfen.
Insbesondere ist der Erwartungswert ein linearer Operator.
(4)
E(aX + ßY) = aE(X)
+ ßE(Y)
für
a,ßE lR.
Für stochastisch unabhängige Zufallsvariablen X und Y ist der Erwartungswert des
Produkts X· Y gleich dem Produkt der Erwartungswerte:
(5)
E(X. Y) = E(X) . E(Y)
X, Y stochastisch unabhängig
wobei für X> 0 und Y> 0 auch deren Erwartungswerte unendlich sein dürfen.
Der Erwartungswert ist ein monotoner Operator
(6)
X>O
E(X) > 0,
(7)
X<Y
E(X) < E(Y),
1
Erwartungswert und Varianz
7-8
15.12.15
wobei in (7) für X> 0 die Erwartungswerte auch unendlich sein dürfen. Weiter gilt
IE(X) I< E(IXI).
(8)
Der Erwartungswert einer transformierten Zufallsvariablen der Form g(X) läßt sich
für diskretes bzw. stetiges X wie folgt berechnen.
Satz 1: Sei X: .f2-----+ IR n ein n-dimensionaler diskreter Zufallsvektor mit Träger
T =X[ D] und g: IR n-----+ IR sei meßbar. Wenn E[g(X)] E IR existiert, so gilt
(9)
E[g(X)] =
2:
g(x) ·P{X=x}.
xET
Für abzählbares T konvergiert die Reihe sogar absolut und umgekehrt folgt
aus absoluten Konvergenz der Reihe auch die Existenz von E[g(X)] E IR.
Zusatz: Für g(X)
> 0 gilt (9) auch dann noch, wenn E[g(X)] = oo ist.
Satz 2: Sei X: .f2-----+ IR eine stetige Zufallsvariable mit Träger T = (a, ß) C IR
deren Dichte f: T-----+ [0, oo) in höchstens endlich vielen Punkten unstetig
ist. Weiter sei g: T-----+ IR meßbar. Wenn E[g(X)] E IR existiert, so gilt
ß
(10)
E[g(X)] =
J g(x) -f(x) dx,
und das Integral konvergiert sogar absolut. Umgekehrt folgt aus absoluten
Konvergenz des Integrals auch die Existenz von E [g(X) J E IR.
Zusatz: Für g(X)
> 0 gilt (10) auch dann noch, wenn E[g(X)] = oo ist.
Ein vollständiger Beweis von Satz 2 ist hier nicht ohne weiteres möglich und wir
verweisen dafür auf die Maß- und Wahrscheinlichkeitstheorie. Wir beweisen (und
verwenden) Satz 2 daher hier nur für die folgenden stetigen Funktionen
• streng monotones stetig-differenzierbares g mit endlicher Menge {g' :;= 0},
1
lxl'
• Absolutbetrag:
g(x) =
• Potenzen:
g(x) = xk
• absolute Potenzen:
g(x) =
lxlr
für kE W,
für r> 0.,
Für den Absolutbetrag g(x) = Ixl ergibt sich aus dem Zusatz von Satz 1 bzw. 2, daß
der Erwartungswert E(X) einer diskreten bzw. stetigen Zufallsvariablen X gerrau
dann gemäß Definition 1 bzw. 2 existiert, wenn der Erwartungswert
endlich ist:
(11)
E(X) existiert
E(IXI) < oo.
E(IXI)
von
lXI
Erwartungswert und Varianz
7.3
7-9
15.12.15
Erwartungswerte spezieller Verteilungen
Wir geben jetzt die Erwartungswerte der bisherigen Verteilungen auf IR an.
7.3.1
Erwartungswerte spezieller diskreter Verteilungen
Für die diskrete Gleichverteilung DG(n) auf {1, ... , n} gilt:
(1)
E[DG(n)] = n+ 1
L(X) =DG(n)
bzw.
2
Der Erwartungswert der Binamial-Verteilung B(n,p) ist
(2)
bzw.
E[B(n,p)] = np
=?
E(X) =np.
Der Parameter p, der Poisson-Verteilung Pois(p,) ist ihr Erwartungswert
(3)
L(X) = Pois(p,)
bzw.
E [Pois(p,) J = p,
=?
E(X) = p, .
Für die negative Binomial-Verteilung NB( n,p) - und damit auch für die geometrische
Verteilung Geo(p) = NB(1,p) -ergibt sich
(4)
E(X) = n(l-p).
p
bzw.
Abschließend wollen wir noch zwei Beispiele von Verteilungen auf W angeben, bei
denen der Erwartungswert nicht existiert.
Gegenbeispiele: Für die Zufallsvariable X mit Träger W und der Zähldichte
(5)
1
für nE W,
P{X = n} = n (ntl)
existiert der Erwartungswert E(X) nicht, weil
00
(6)
2:=
n=1
00
n·P{X=n} =
2:= ~
= oo.
n=1 nt
Für die "alternierende" Zufallsvariable Y = (-1)X ·X mit Träger
(7)
T Y = { 2n I n E W} U {- 2n-11 n E W}
ist zwar die Reihe
00
(8)
2:=
00
(-1t·n·P{X=x} =
2:=
r 1)n
c_
nt1
n=1
n=1
konvergent, aber nicht absolut konvergent. Also existiert E(Y) nach 7.2 Satz 1 nicht.
Erwartungswert und Varianz
7.3.2
7-10
15.12.15
Erwartungswerte spezieller stetiger Verteilungen
Der Erwartungswert der stetigen Gleichverteilung SG( a,ß) auf dem Intervall (a,ß) ist
der Mittelpunkt des Intervalls
(1)
bzw.
L(X) = SG( a! ß)
:::}
E(X) = a~ß.
Bei einer Normalverteilung N(p,, a 2 ) ist der Parameter p, der Erwartungswert
(2)
:::}
bzw.
E(X) = p,.
Für die Gamma-Verteilung Gam( a,ß) ist der Erwartungswert das Produkt beider
Parameter
(3)
bzw.
L(X) = Gam(a ß)
1
:::}
E(X) =aß 1
und für die Exponential-Verteilung Expo(>.) = Gam(l, ~) erhält man speziell
(4)
E[Expo(>.)] = ~
bzw.
L(X) =Expo(>.)
:::}
E(X) = ~ .
Als Verallgemeinerung von (3) zeigen wir für spätere Zwecke noch
(5)
E[Gam(a~ßr]
=
r~(~r) ßr
L(X) = Gam(a ß)
1
bzw.
:::}
für
r> 0.
(6)
für kE W.
Der Erwartungswert einer Log-Normalverteilung ergibt sich aus
(7)
E['"Y + exp{ N( a,ß2) }] = "(
L(X) = N( a,ß2)
:::}
+ exp{ a + ~ ß2 }
E ["! + eX J = "(
bzw.
+ exp { a + ~ ß2}
.
Im nächsten Abschnitt geben wir eine stetige Verteilung an, deren Erwartungswert
nicht existiert.
Erwartungswert und Varianz
7.3.3
7-11
15.12.15
Ca uchy-V erteil ung
Die Standard-Cauchy-Verteilung C(O, 1) - auch die Studentsehe t - Verteilung genannt
1
(vgl. 10.3) - ist auf IR definiert durch die Wahrscheinlichkeitsdichte (vgl. Abb. 1)
(1)
für xE IR,
bzw. durch die zugehörige Verteilungsfunktion
F(x) = ~
(2)
+ ~ · arctan(x)
für xE IR.
mit der Ableitung F 1 = f.
Für eine Zufallsvariable U mit L(U) = C(O, 1) existiert der Erwartungswert von U
nicht, weil
+oo
J
(3)
lxl-f(x) dx
-00
Die Verteilung der linearen Transformation X= a + ß U mit aEIR, ß> 0 ist die nach
Augustirr Louis Cauchy (1789-1857) benannte Cauchy-Verteilung C(a,ß), d.h. es ist
(4)
C(a,ß) = a+ß·C(0,1).
Dichte der Cauchy-Verteilung C(a ,ß)
Cauohy-Verteilung vs. Normal-Verteilung
0.4/ß
d-5{3
a
d+5ß
25%
50%
a-ß
25%
a +ß
Abb. 1: links: Dichte f( -laß) der Cauchy-Verteilung C( a,ß)
rechts: Vergleich mit der Dichte der Normalverteilung N(a, a 2 ), wobei a so
gewählt ist, daß die Fläche unter beiden Dichten über dem Intervall
(a-ß, a + ß) jeweils 50% sowie links und rechts davon je 25%
beträgt (d.h. beide Verteilungen haben dieselben Quartile).
Erwartungswert und Varianz
7-12
15.12.15
Die Dichte f( -I a,ß) (vgl. Abb. 1) und Verteilungsfunktion F(x Ia,ß) von C (a,ß) sind:
(5)
f(x I a,ß)
7f1 ·ß· ( ß 2+ (x-a )2)-1 '
(6)
F(xl a,ß)
~ + ~ · arctan(*[x-al).
Der Erwartungswert von X existiert nach 7.2 (2) ebenfalls nicht.
Die Faltung von Cauchy-Verteilungen ist wieder eine Cauchy-Verteilung, (was hier
aber nicht hergeleitet wird)
Auftreten: Wenn W ein Zufalls-Winkel ist, der im Intervall (- ; , + ;
)
stetig-
gleichverteilt ist, so ist sein Tangens Standard-Cauchy-verteilt:
(8)
L(W) = SG(- ; , + ;
)
oi(tan(W)) = C(0,1).
Dies erlaubt eine Interpretation durch folgendes Zufalls-Experiment. Man betrachte
in der (x,y)-Ebene eine Zufallsgerade durch den Nullpunkt (0,0), deren Winkel W
mit der x-Achse stetig-gleichverteilt ist. Man stelle sich vor, die Gerade ist ein im
Nullpunkt befestigte "Zeiger", der zufällig gedreht wird und dann zum Stillstand
kommt. Dann ist der Anstieg tan(VV) dieser Zufallsgeraden C(0,1)-verteilt.
7.3.4 Anwendung: Das Sammlerproblem
Als Anreiz zum Kaufen liegt bei einigen Konsumprodukten jeder Packung ein
Sammelobjekt bei, z.B. ein Sammelbild (eine Plastikfigur, ein Mini-Buch). Es gibt
dabei eine feste Anzahl n von verschiedenen Typen des Sammelobjekts (z.B. verschiedene Bildmotive) und das Ziel eines Sammlers ist es, eine vollständige Sammlung aller Typen zu erhalten (z.B. alle Bildmotive des Sammleralbums). Wir interessieren uns dafür, wie viele Packungen ein Sammler im Durchschnitt kaufen muß,
um eine vollständige Sammlung zu erhalten. Hierbei wollen wir ausschließen, daß
der Sammler z.B. durch Tauschen mit anderen Sammlern auch auf andere Weise
Sammelobjekte beziehen kann. Um dieses Problem im Rahmen der Stochastik behandeln zu können, wollen wir es formaler fassen und dabei auch leicht idealisieren. Hierbei gehen wir davon aus, daß die vom Sammler gekauften Packungen
unabhängig voneinander sind und in jeder Packung mit gleicher Wahrscheinlichkeit ei-
nes der n verschieden Typen beiliegt.
Erwartungswert und Varianz
7-13
15.12.15
Die Situation läßt sich formal durch eine Urne mit n durchnumerierten Kugeln beschreiben. Der Sammler zieht zufällig eine Kugel und markiert die Kugel (als "gesammelt"), bevor er sie wieder in die Urne zurücklegt. Dieser Vorgang wird solange
wiederholt, bis alle Kugeln markiert sind. Im Spezialfall n = 6 entspricht dies dem
wiederholten Werfen eines homogenen Würfels so lange bis jede Zahl mindestens
einmal geworfen wurde.
Wir bezeichnen das Ziehen einer noch nicht markierten Kugel als "Erfolg" und wollen jetzt den Erwartungswert für die Anzahl X der Ziehungen bis zum n-ten Erfolg
n
bestimmen. Hierzu berechnen wir den Erwartungswert für die Anzahl der Mißerfolge bis zum n-ten Erfolg
(1)
Y=X -n.
n
Auf den ersten Blick scheint Y eine negative Binomialverteilung NB(n,p) zu haben.
Aber dies täuscht, weil die Erfolgs-Wahrscheinlichkeit hier nicht bei jeder Ziehung
konstant ist, sondern nach jedem Erfolg geringer wird. Wir betrachten daher für
k = 1, ... , n-1 die Anzahl Yk der Mißerfolge seit dem k-ten Erfolg bis zum nächsten
Erfolg. Die Erfolgswahrscheinlichkeit hierfür ist pk = ~ (n- k), weil dann jeweils k
Kugeln markiert sind. Yk hat eine geometrische Verteilung Geo(pk) = NB(1,pk) mit
(2)
E(Yk) = __!_k
1
n- = _!!:_kn-
vgl. 7.3.1 (4).
Die Gesamtzahl der Mißerfolge bis zum n-ten Erfolg läßt sich dann zerlegen
(3)
Y= y1
+ .. .+ yn-1'
und der gesuchte Erwartungswert ergibt sich zu
n
(4)
a : = E(X ) = n + E(Y ) + ... + E(Y
)
n
n
1
~1
n
.2:= ~z
z=1
Die Folge a läßt sich leicht rekursiv berechnen
n
an +1 = 1 + (1 + 1..)
n an
(5)
für nE W
und kann wie folgt approximiert werden (vgl. auch Tab. 1 und Abb. 2):
(6)
an
~
b(n) == n·log(2n+1).
Erwartungswert und Varianz
5
n
a
n
=E(X)
n
n · log(2n + 1)
7-14
15.12.15
10
15
20
25
30
11,4
29,3
49,8
72,0
95,4
119,8
12,0
30,4
51,5
74,3
98,3
123,3
Tabelle 1: Gerundete Werte der Folge an mit Approximation aus (6) für einigen.
-
• exakt
550
Approximation: n log(2n+1)
.-----
450
t/r.
400
••
~
500
:>.:;<:
c
0
>
<:
rn
350
t
300
3(/)
250
/
Q)
0)
c
~
t
CO
~
u.J
/
200
150
100
........V
50
0
0
10
V
/
V
./
~
•
~
•
••
••
-'
~-
~-
I
20
30
40
50
60
70
80
90
Anzahl n
Abb. 2: Die (exakten) Erwartungswerte a und die approximierende
n
Funktion b(n) = n ·log(2n + 1).
100
Erwartungswert und Varianz
7.4
7-15
15.12.15
Varianz und Standardabweichung
Nachdem wir für eine reelle Zufallsvariable X: D-----+ IR die Lage (Lokation) der Verteilung L(X) durch den Erwartungswert E(X) charakterisiert haben, wollen wir
jetzt ein Maß angeben, welches die Streuung der Verteilung um ihren Erwartungswert beschreibt. Hierbei setzen wir natürlich die Existenz des Erwartungswerts voraus und bezeichnen ihn mit
(1)
11 : = E(X).
Die Abweichung X- 11 vom Erwartungswert - auch die Zentrierung von X genannt hat den Erwartungswert Null
(2)
E(X- 11) = 0.
Die Varianz von X bzw. von L(X) ist definiert als erwartete quadratische Abweichung von fl, d.h. als Erwartungswert von [X- 11]
2
(3)
(Varianz von X).
Wegen [X- 11] 2 > 0 ist die Varianz Var(X) E [0, oo] durch (3) stets definiert, kann
aber oo sein. Im folgenden setzen wir bei Verwendung der Varianz Var(X) jedoch
implizit voraus, daß sie endlich ist, d.h. der Erwartungswert in (3) "existiert (in IR)".
Bei praktischen Anwendungen verwendet man oft die Standardabweichung (engl.:
standard deviation) von X
(4)
SD(X) : =
J V ar(X)
(Standardabweichung von X) 1
weil diese die gleiche "Dimension" wie X hat. Wenn z.B. X eine Länge [in cm] ist, so
ist dies auch für SD(X) der Fall, während Var(X) eine Fläche [in cm 2 ] ist.
Die Varianz von X existiert (d.h. ist endlich) gerrau dann, wenn der Erwartungswert
E(X2 ) existiert (d.h. endlich ist) und läßt sich berechnen als
Nebenbei bemerkt ergibt sich mit der Abschätzung lXI < 1 +X 2 auch die Existenz
von E(X) aus der von E(X2 ).
Die grundlegenden Eigenschaften der Varianz ergeben sich aus denen für Erwartungswerte (vgl. 7.2). Insbesondere gelten (wobei die Existenz der Varianz auf der
Erwartungswert und Varianz
7-16
15.12.15
jeweils linken Seite der Gleichung aus der Existenz auf der rechten Seite folgt):
+ ß Y)
ß2 · Var(Y)
(6)
Var (a
(7)
X, Y stochastisch unabhängig
=
a,ßE IR,
für
Var(X + Y) = Var(X)
::::}
+ Var(Y).
(Die Varianz einer Faltung ist die Summe der Varianzen.)
Auf die Unabhängigkeit in (7) kann nicht verzichtet werden, denn allgemein gilt nur
Var(X + Y) = Var(X)
(8)
+ Var(Y) + 2 ·E([X -E(X)]· [Y -E(Y)])
Hierbei folgt aus der Existenz der Varianzen von X und Y auch die Existenz des
Erwartungswerts in (8), den man auch als Covarianz von X und Y bezeichnet
(9)
Cov(X, Y) : = E( [X- E(X)] · [Y- E(Y)])
(Covarianz von X und Y)
= E(X Y) - E(X) · E(Y) .
Mit dieser Bezeichnung lautet (8) jetzt
(8)'
Var(X + Y) = Var(X)
+ Var(Y) + 2 · Cov(X, Y),
und (7) ergibt sich hieraus wegen
(10)
Cov(X, Y) = 0 .
X, Y stochastisch unabhängig
Die Umkehrung von (10) gilt nicht, wie folgendes Gegenbeispiel zeigt.
Gegenbeispiel: Für X mit N(O, 1)- Verteilung sind X und Y = X 2 nicht stochastisch
unabhängig, weil z.B.
P{IXI<1,X2 >1} =
o
;=
P{IXI<1} ·P{X2 >1}.
Nun ist E(X) = 0 und E(X2 ) = 1 (vgl. 7.5.2 (2)) und somit
2
Cov(X,X
)
2
3
= E( X· [X -1]) = E(X ).
Wie man leicht zeigt (vgl. auch 7.6 (3)) ist E(X3 ) = 0 und somit Cov(X, Y) = 0.
Für eine reelle Zufallsvariable X mit Erwartungswert
1-L
D
und Varianz a 2 > 0 heißt
die umskalierte Zufallsvariable
(11)
U = X-E(X)
SD(X)
auch die Standardisierung von X, weil
mit
1-L =
E(X),
2
a = Var(X)
>0
Erwartungswert und Varianz
(12)
7.5
15.12.15
E(U) = 0,
7-17
Var(U) = 1.
Varianzen spezieller Verteilungen
Wir wollen jetzt die Varianzen der bisher behandelten Verteilungen auf IR angeben.
7.5.1
V arianzen spezieller diskreter Verteilungen
Die Varianz einer Einpunkt-Verteilung (Dirac-Verteilung) ist Null
(1)
Var [Dirac(a)] = 0.
Für die diskrete Gleichverteilung DG(n) auf {1, ... , n} gilt:
(2)
2
n
1
Var[DG(n)] = --=-.
12
Die Varianz der Binomial-Verteilung B(n,p) ist
(3)
Var[B(n,p)] = npq
mit
q = 1-p.
Der Parameter 1-L der Poisson-Verteilung Pois(f-L) ist auch ihre Varianz
(4)
Var[Pois(!-L)] = 1-L = E[Pois(!-L)].
Für die negative Binomial-Verteilung NB( n,p) - und damit auch für die geometrische
Verteilung Geo(p) = NB(1,p) -ergibt sich
(5)
7.5.2
Var[NB(n,p)] =
n(l-p)
p2
V arianzen spezieller stetiger Verteilungen
Die Varianz der stetigen Gleichverteilung SG( a,ß) auf dem Intervall (a,ß) ist
Bei einer Normalverteilung N(f-L, a 2 ) ist der Parameter a 2 die Varianz
Erwartungswert und Varianz
7-18
15.12.15
Die Varianz der Gamma-Verteilung Gam( a,ß) ist
und die Parameter
a,ß lassen sich aus dem Erwartungswert und der Varianz wie
folgt bestimmen
(4)
2
L(X) = Gam( a,ß)
a = E(X) / Var(X),
Für die Exponential-Verteilung Expo(>.) = Gam(1,
(5)
Var[Expo(>.)] = >.-
2
ß = Var(X)jE(X).
i) erhält man speziell
2
= (E[Expo(>.)]) .
Und die Varianz einer Log-Normalverteilung ergibt sich aus
Für die Cauchy-Verteilung C( a,ß) existiert die Varianz nicht, weil bereits ihr Erwartungswert nicht existiert.
7.6*
Symmetrie und Schiefe
Die Dichte der Normalverteilung N(p,, a 2 ) ist symmetrisch um den Erwartungswert p,
(vgl. 4.2 Abb.2), während die Dichte der Gamma-Verteilung Gam( a,ß) keinen Symmetriepunkt besitzt und somit "schief" ist (vgl. 6.2 Abb. 2). Zur Klassifikation von
Verteilungen wollen wir zunächst symmetrische Verteilungen definieren und dann
eine Maßzahl für die "Schiefe" einer Verteilung angeben.
Die Verteilung einer reellen Zufallsvariablen X heißt symmetrisch um einen Punkt
~ E IR,
(1)
wenn X-~ und- (X-~) dieselbe Verteilung haben, d.h. wenn
L(X-~) = L(~-X).
Insbesondere ist L(X) symmetrisch um 0, wenn L(X) = L(-X) gilt. Und die Verteilung von X ist gerrau dann symmetrisch um
~'
wenn die Verteilung von
X-~
symmetrisch um 0 ist.
Stetiger Fall: X sei stetig verteilt mit stetiger Verteilungsfunktion F. Dann ergeben
sich die Verteilungsfunktionen von X-~ bzw.
~-X
nach 4.4.1 (4) bzw. (5) zu
Erwartungswert und Varianz
7-19
15.12.15
F~_JA = 1- F(~-z),
zEIR.
Da Verteilungen durch ihre Verteilungsfunktionen eindeutig bestimmt sind (4.1
Theorem) ist die Verteilung von X gerrau dann symmetrisch um ~' falls FX-~ mit
F~-X übereinstimmt, d.h. falls gilt
F(z+~) = 1-F(~-z)
für alle z E IR.
Für z = 0 folgt hieraus F(~) = ~,und der Graph von Fist nach (1) 5 drehsymmetrisch
um den Punkt (~, ~). - Die Normalverteilung N(p,,a 2 ) ist in diesem Sinn symmetrisch um ihren Erwartungswert p, (vgl. 4.3 Abb. 2).
Falls F auf ganz IR stetig differenzierbar ist, so ergibt sich durch Differenzieren von
(1) als äquivalente Symmetriebedingung für die Dichte f = F 1 ( vgl. 4.3 Satz)
5
(1)~
f(z + ~) = f(~-z)
für alle z E IR,
d.h. der Graph der Dichte f ist symmetrisch um ~- - Die Cauchy-Verteilung C( a, ß)
ist in diesem Sinne symmetrisch um den Parameter a (vgl. 7.3 Abb. 1).
D
Diskreter Fall: X sei diskret verteilt. Dann ist die Symmetriebedingung (1) äquivalent zu
P{X=z+~} = P{X=~-z}
für alle z E IR,
d.h. die (auf ganz IR fortgesetzten) Zähldichte f(x) =P{X = x} von X ist symmetrisch um ~- - Die Binomialverteilung
B(n, ~)
ist in diesem Sinn symmetrisch um
ihren Erwartungswert p, = ~ .
D
Der Symmetrie-Punkt einer Verteilung ist immer der Erwartungswert, sofern dieser existiert:
(2)
E(X) existiert und L(X) symmetrisch um
~
~=
E(X).
Weitere Beispiele von (um ihren Erwartungswert) symmetrischen Verteilungen
sind die diskreten und die stetigen Gleichverteilungen. Es gibt aber auch symmetrische Verteilungen, deren Erwartungswert nicht existiert, z.B. die bereits oben erwähnten Cauchy-Verteilungen.
Wir wollen jetzt eine Maßzahl für die "Schiefe" der Verteilung von X entwickeln.
Den Ausgangspunkt bildet die folgende Eigenschaft symmetrischer Verteilungen
Erwartungswert und Varianz
E([X- p,] 3 ) existiert
L(X) symmetrisch um p, = E(X),
(3)
7-20
15.12.15
E([X-tt]
3
= 0.
)
Als ein Maß für die "Schiefe" kann man daher den Erwartungswert der kubischen
Abweichung [X- p,] 3 verwenden
(3. zentrales Moment von X).
(4)
Allgemeiner verwendet man für r > 0 die Bezeichnungen
E(Xr)
r-tes Moment
E(IXIr)
r-tes absolutes Moment
E([X -p,r)
r-tes zentrales Moment
von
X bzw. L(X).
Insbesondere ist die Varianz das 2. zentrale Moment. Das 3. zentrale Moment von X
3
existiert (sogar gerrau dann), wenn das 3. Moment E(X ) existiert und läßt sich be-
rechnen als
E(X3 )
(5)
-
3E(X2 ) · E(X)
+ 2 [E(X)] 3
E(X3 ) - p, (3a 2 + p, 2 )
2
mit
Nebenbei bemerkt ergibt sich mit der Abschätzung
a = Var(X).
lxl < 1 + lxlr
8
für s < r aus der
Existenz von E(Xr) auch die Existenz von E(X8 ). Die grundlegenden Eigenschaften
des 3. zentralen Moments ergeben sich aus denen für Erwartungswerte (vgl. 7.2).
Insbesondere gelten (wobei die Existenz der Momente auf der jeweils linken Seite
der Gleichung aus der Existenz auf der rechten Seite folgt):
(6)
für a,ßE IR,
(7)
X und Y stochastisch unabhängig
Die (standardisierte) Schiefe ist definiert als 3. zentrales Moment der Standardisierung von X
(8)
mit
p, =
E(X), a 2 = Var(X).
Bei linearen Umskalierungen von X ändert die Schiefe höchstens ihr Vorzeichen
(9)
für a, ß E IR mit ß > 0.
Erwartungswert und Varianz
15.12.15
7-21
Wir geben jetzt die 3. zentralen Momente und Schiefen einiger (nicht-symmetrischer) Verteilungen an.
Bei der Binamial-Verteilung B(n,p) mit q = 1- p ist
(10)
~t 3 [B(n,p)] = (q- p) · (npq),
Die Schiefe konvergiert für n---+ oo gegen Null und verschwindet für p = ~Für die Paissan-Verteilung
Pais(~t)
ist
(11)
und ihre Schiefe ist stets positiv und konvergiert für Ii---+ oo gegen Null.
Und für die negative Binamial-Verteilung NB(n,p) mit q = 1-p ist
(12)
Die Schiefe ist wieder stets positiv und konvergiert für n---+ oo gegen Null.
Bei der Gamma-Verteilung Gam( a,ß) ist
(13)
Die Schiefe hängt nur vom Form-Parameter a ab. Sie ist immer positiv und konvergiert für a---+ oo gegen Null (vgl. auch Abb. 1).
Und für die Lag-Narmalverteilung ist
(14)
~t 3 ["( + exp {N( a,ß2 )}]
e3aw3(w2-1)2(w2+2)'
e3 ["( + exp {N( a,ß2)}]
(w2 -1)1/2 (w2 + 2)
Die Schiefe ist wieder stets positiv und konvergiert für ß---+ 0 bzw. w---+ 1 gegen Null.
In Abb. 2 und 4.4 Abb.
4 sind verschiedene
Dichten der log-Normalverteilung darge-
stellt.
Die log-Normalverteilung '"Y + exp { N( a,ß 2 ) ist durch ihren Erwartungswert ft, ihre
e3 bereits eindeutig bestimmt, d.h. die Parameter a, ß
und '"Y lassen sich aus ft, a 2 und e bestimmen (was hier aber nicht gezeigt wird).
3
Varianz a 2 und ihre Schiefe
Erwartungswert und Varianz
7-22
15.12.15
Dichte der standardisierten Gamma-Verteilung für verschiedene Schiefen
1
-1
0
2
3
Abb. 1: Dichten der standardisierten Gamma-Verteilung ; [Gam( a 1 1) -p, J für
verschiedene Schiefen e3 = 0.5, 1, 1.5, 2.
Dichte der standardisierten Log-Normal-Verteilung für verschiedene Schiefen
1
4
-3
-2
-1
0
2.
3
Abb. 2: Dichten der standardisierten Log-Normal-Verteilung ; [exp {N(O,ß 2)} -p, J
für verschiedene Schiefen e3 = 0.5, 1, 2, 4.
Erwartungswert und Varianz
7.7
7-23
15.12.15
Die Ungleichungen von Chebyshev und Markov
Für eine reelle Zufallsvariable X mit Erwartungswert p, = E(X) haben wir die Varianz a 2 = Var(X) als ein Maß für die Streuung von X um p, eingeführt. Die folgende
Ungleichung von Chebyshev (Pafnuty Lvovich Chebyshev, 1821-1894) gibt eine Ab-
schätzung für die Wahrscheinlichkeit P {I X -p, I> c} daß X um mindestens c > 0
von f-L abweicht.
Ungleichung von Chebyshev: Für eine reelle Zufallsvariable X mit
existierenden p, = E(X) und Var(X) gilt für jedes c > 0 :
(1)
Für die zentrierte Variable Z =X -p, lautet die Ungleichung (1) äquivalent
(1) I
und dies ist ein Spezialfall der folgenden - nach Andrei Andreyevich Markov
(1856-1922) benannten- Ungleichung.
Ungleichung von Markov: Für eine reelle Zufallsvariable Z und r > 0
existiere das r-te absolute MomentE( IZrl). Dann gilt für jedes c > 0 :
(2)
Wählt man c = r a in (1) als r-faches der Standardabweichung a = SD(X), so gilt
(3)
für
r> 0,
wobei nur der Fall r > 1 eine nicht-triviale Abschätzung liefert. Insbesondere gelten
(4)
P{p,-2a <X< p,+2a}
P{IX-p,l<2a} >.1
- 4
P{p,-3a <X< p, + 3a}
P{IX-p,l<3a} >_§.
- 9
P{p,-4a <X< p, +4a}
P{IX-p,l<4a} -> !~
16
75%'
,......,
,......,
88.9%'
93.75%0
Diese Abschätzungen sind für spezielle Verteilungen von X zwar relativ grob (z.B.
bei Normalverteilung, vgl. 7.7.1), haben dafür aber den Vorteil, daß sie für jede Verteilung von X gelten. Generell ist die Chebyshev-Ungleichung eher von theoretischen
Interesse als vom praktischen Nutzen für Abschätzungen der Form (4).
Erwartungswert und Varianz
7-24
15.12.15
Als erste wichtige Folgerung aus der Chebyshev-Ungleichung ergibt sich. daß eine
reelle Zufallsvariable X gerrau dann eine Einpunkt-Verteilung (Dirac-Verteilung) besitzt, wenn ihre Varianz Null ist:
(5)
L(X) = Dirac(E(X) ).
Var(X) = 0
Äquivalent hierzu ist
(5) I
L(X) = Dirac(E(X)) ,
d.h. in der Ungleichung
gilt die Gleichheit gerrau dann, wenn X Einpunkt-verteilt ist.
7.7.1
Normalverteilung
Für eine Zufallsvariable X mit Normalverteilung N(p,,a 2 ) läßt sich für r > 0 die
Wahrscheinlichkeit
(1)
unter Verwendung der Verteilungsfunktion P von N(O,l) explizit angeben und hängt
nicht von den Parametern p, und a 2 ab. Insbesondere ist (vgl. Abb. 1)
(2)
P{p,-la <X< p,+la}
P{IX-p,l<la}
,......,
,......,
68.3%'
P{p,-2a <X< p,+2a}
P{IX-p,l<2a}
,......,
,......,
95.4%'
P{p,-3a <X< p, + 3a}
P{IX-p,l<3a}
,......,
,......,
99.7%0
und somit liefert 7.7 (4) hier nur eine relative grobe Abschätzung.
f.l-0
f.I +O
f.l-2o
f.1
f.1 + 2o
f..l-30
f.l
f.1 + 3o
Abb. 1: Die (gerundete) Wahrscheinlichkeit des la-, 2a- und 3a-Bereichs bei der
Normalverteilung N(p,, a2).
Erwartungswert und Varianz
7-25
15.12.15
7.7.2* Empirische Verteilung
Für ein festes n-Tupel x = (x , ... , xn) E IRn (mit nicht notwendig verschiedenen Kom1
ponenten) betrachten wir auf der Menge T = { x ·I i = 1, ... , n} die empirische Verteiz
lung P des Tupels x (vgl. 1.2.4), definiert durch die Zähldichte
X
(1)
P { x .} : = .l. # { k = 11 ••• 1 n I xk = x.}
x
z
z
n
= relative Häufigkeit des Werts x. im Tupel
z
(x1, ... , x n ).
Interpretiert man das n- Tupel als eine Abbildung x: {1, ... , n}-----+ T mit x(i) = x. und
z
ist U eine Zufallsvariable mit diskreter Gleichverteilung DG(n) auf {1, ... , n}, so hat die
Zufallsvariable X= x(U) die Verteilung P, d.h.
X
(2)
P{X= x.}
= .l·#{k=1
1 ••• 1 n I xk=x.}.
z
n
z
Als Erwartungswert und Varianz von X bzw. P ergeben sich
X
n
(3)
E(X) = .l
n
2:: x.z
.ln
1
i=1
n
Var(X)
Mittelwert von x , ... , x n ,
==x
2:: (xz.- x) 2
.
z=1
2
Varianz von x 1, ... , x n .
==a X
Nach 7.7 (3) erhält man für jedes r > 0 die folgende Abschätzung
(4)
~-#{k=1 1
••• 1
nlx-rax<xk<x+rax}
> 1-~2
wobei die rechte Seite der Ungleichung für r = 2, 3, 4 in 7.7 (4) angegeben ist.
In Verallgemeinerung von (3) erhält man für jedes r > 0
n
(5)
E(Xr) = .l
n
E([X -xr) =
~
2:: x:z
r-tes Moment von x , ... , x n ,
1
i=1
n
2:: (xi- xr
=: p,rx
r-tes zentrales Moment von x 1, ... , xn,
i=1
und hieraus ergibt sich die Schiefe von X bzw. P
X
(6)
-· n
- · c:3x ·
Erwartungswert und Varianz
7.8*
7-26
15.12.15
Covarianz Korrelation und linearer Zusammenhang
1
Bisher haben wir nur Parameter einer reellen Zufallsvariablen X: .f2-----+ IR untersucht, insbesondere den Erwartungswert E(X), die Varianz Var(X) sowie die Schiefe
e3(X).
Wir betrachten jetzt zwei Zufallsvariablen X, Y :.f!-----+ IR und wollen Parame-
ter für die gemeinsame Verteilung beider Zufallsvariablen, d.h. für die Verteilung des
Paares (X, Y) definieren. Hierbei setzen wir dabei generell voraus, daß die Erwartungswerte und Varianzen existieren:
(1)
1-Lx: = E(X) ,
1-Ly : =
E(Y) ,
a; :
= Var(X)
<
oo ,
a y : = Var(Y)
2
<
oo .
7.8.1 * Die Covarianz
Der einfachste und zugleich wichtigste Parameter der gemeinsamen Verteilung ist
die bereits in 7.4 definierte Covarianz von X und Y
(1)
E( [X -p,) . [Y -p,yl)
Cov(X, Y)
(Covarianz von X und Y)
E(X Y) - 1-Lx 1-Ly.
Die Existenz des Erwartungswerts E(X Y) bzw. E( [X -p,)· [Y -p,Yl) ergibt sich hierbei
aus der Schwartz 1schen Ungleichung
(2)
(Ungleichung von Schwartz).
Man beachte, daß sich die Varianz von X auch als Covarianz schreiben läßt
(3)
Var(X) = Cov(X,X).
Der Covarianz-Operator Cov( -, -) ist symmetrisch
(4)
und invariant gegenüber Verschiebungen (Translationen)
(5)
Cov( a
+ X ß + Y)
1
= Cov(X1 Y)
für a,ßE IR.
Weiter ist der Covarianz-Operator bi-linear1 d.h. für a E IR und eine Zufallsvariable
Z: .f2-----+ IR mit existierender Varianz gilt
Erwartungswert und Varianz
Cov(aX1 Y)
(6)
7-27
15.12.15
a · Cov(X1 Y)
Cov(X1 a Y),
(7)
Cov(X~ [Y + Z])
Cov(X~ Y)
+ Cov(X,Z)
Cov([X +ZL
Cov(X1 Y)
+ Cov(Z,Y).
Y)
,
Unter Verwendung der Covarianz Cov(X, Y) lassen sich der Erwartungswert des
Produktes X Y sowie die Varianz der Summe X+ Y wie folgt bestimmen
(8)
E(XY) = E(X) ·E(Y)
Var(X + Y) = Var(X)
(9)
+ Cov(X, Y),
+ Var(Y) + 2 · Cov(X, Y) .
Durch Induktion ergibt sich für Zufallsvariablen X , ... ,Xn: .f2-----+ IR
n
(10)
Var(.l:
z=1
xJ
n
2:
"1
n
Var(X.)
z=
z
1
+ 2 2:
Cov(X.,X.).
.. 1
ZJ
z,J =
i <j
Die Covarianz von stochastisch unabhängigen Zufallsvariablen ist Null
(11)
X, Y stochastisch unabhängig
Cov(X, Y) = 0 )
wobei allerdings die Umkehrung nicht gilt (vgl. das Gegenbeispiel in 7.4 ).
Beispiel: Multinomialverteilung
Für einen K-dimensionalen Zufallsvektor X= MK(n,p) mit Multinomialverteilung
gilt (8 bezeichnet das Kronecker Symbol):
Mit (11) ergibt sich hieraus (wie bereits in 6.1.2 festgestellt), daß je zwei Komponenten X k und Xl stochastisch abhängig (d.h. nicht unabhängig) sind.
Erwartungswert und Varianz
15.12.15
7-28
7.8.2* Der Korrelationskoeffizient
Zur Vermeidung von Trivialitäten wollen wir jetzt zusätzlich voraussetzen, daß weder X noch Y eine Einpunkt-Verteilung haben, d.h.
a; :
(1)
= Var(X)
>
a; : = Var(Y)
0,
>
0,
Die Covarianz Cov(X, Y) ist zwar invariant gegenüber Translationen, aber nicht invariant gegenüber linearen Umskalierungen, vgl. 7.8.1 (6). Deshalb definiert man die
Korrelation (den Korrelationskoeffizient) von X und Y
(2)
Corr(X,Y)
Cov(X,Y)
)Var(X) · Var(Y)
Cov(X,Y)
ax·ay
Der Korrelations-Operator ist symmetrisch
(3)
und invariant gegenüber positiven linearen Umskalierungen
(4)
Corr( a + ßX, Y) = Corr(X, Y) = Corr(X, a + ßY)
für a E IR, ß > 0.
Bei negativen linearen Umskalierungen ändert der Korrelationskoeffizient sein Vorzeichen
(5)
Corr( a- ßX, Y) = - Corr(X, Y) = Corr(X, a- ßY)
für a E IR, ß > 0.
Der Korrelationskoeffizient von stochastisch unabhängigen Zufallsvariablen ist Null
(6)
X, Y stochastisch unabhängig
Corr(X, Y) = 0 1
wobei wieder die Umkehrung im Allgemeinen nicht gilt.
Der Korrelationskoeffizient liegt stets im Intervall
(7)
-1
< Corr(X, Y) < + 1.
[-1, +1]:
Erwartungswert und Varianz
7-29
15.12.15
7.8.3* Die zweidimensionale Normal-Verteilung
Wir betrachten einen Zufallsvektor (X ,X
1
2
) : .f2-----+
IR 2 mit einer zwei-dimensiona-
len Normalverteilung Nip,, E), vgl. 4.7.1 . Hierbei ist Jl = (p, ,p, ) der Vektor der Er1
2
wartungswerte p,.=E(X.). Und Eist die 2x2-Matrix
z
z
(1)
mit den Varianzen
a?z = Var(X.)z und einem weiteren Parameter -1 < e< 1.
Die (hier nicht durchgeführte) Berechnung der Covarianz von X und X ergibt
1
2
Damit ist E die sogenannte Covarianz-Matrix von (X ,X ), d.h.
1
2
(3)
Und derParametereist gerade der Korrelationskoeffizient
7.8.4* Linearer Zusammenhang und Regressionsgerade
Bei Anwendungen interessiert man sich oft für den Zusammenhang zweier Merkmale X und Y eines zufällig ausgewählten Objekts w E D, z.B. die Körpergröße X
und das Gewicht Y oder das Alter X und der Blutdruck Y einer Person w aus der
betrachteten Population .f2. Eine wichtige Fragestellung ist hierbei, inwieweit sich Y
durch eine Funktion f(X) von X vorhersagen läßt1 also z.B. das "Normalgewicht" f(X)
für die Körpergröße X oder der "normale Blutdruck" f(X) für das Alter X. Wir wollen dies näher untersuchen, wobei wir uns auf lineare Funktionen beschränken
(1)
f( x I a, b) : = a + bx ,
für xE IR.
Für jede Wahl der Parameter a, b E IR ergibt sich eine andere Prognose f(X I a, b) für
Y und wir suchen zunächst nach einem Kriterium zur Bestimmung der "optimalen"
Parameterwerte. Hierzu betrachten wir den Prognose-Fehler, d.h. die Abweichung der
Zufallsvariablen Y von ihrer Prognose f(X I a, b)
(2)
Y-f(XIa,b) = Y- a-bX.
Erwartungswert und Varianz
7-30
15.12.15
Als Masszahl für die Abweichung der Prognose f(X I a, b) von Y verwenden wir den
erwarteten quadratischen Prognose-Fehler
2
(3)
2
E{(Y-j(XIa,b)) } = E{(Y- a-bX) }
und wollen diesen durch geeignete Wahl von a und b minimieren. Unter Verwendung
der zentrierten Zufallsvariablen
(4)
Y'
X' = X-II.
rx'
läßt sich der Prognose-Fehler darstellen als
(5)
Y- a- bX = Y' - c- bX'
mit
Und der erwartete quadratische Prognose-Fehler läßt sich schreiben als
(6)
E{(Y- !(XI a,b))
2
}
E{(Y'- c- bX'?}
2
a Y2 b Cov(Y)
X,
+ b22
a X + c2
2
a~(l-e ) + (bax-eay) + c
e: =
(7)
2
2
mit
Corr(X, Y).
Folglich wird (6) minimal bzgl. b und c1 wenn b a x =
ea Y
und c = 0. Die zugehörigen
Argumente (a,ß) von (a,b) im Minimum von (6) lauten daher
(8)
a
a : = 1-Ly- ß1-Lx'
ß==eaY'
X
und das Minimum des erwarteten quadratischen Prognose-Fehlers ist
2
(9)
min E{(Y-f(XIa,b)) } =
2
E{(Y-f(XIa,ß)) }
a,bE 1R
Die so gefundene "optimale" lineare Funktion
(10)
für xE IR
heißt auch die Regressionsfunktion (oder Regressionsgerade) von Y auf X. Der Fehler
der zugehörigen linearen Prognose f(X) = a
(11)
R : = Y- f(X) = Y- a -
Folglich läßt sich Y darstellen als
ßX
+ ßX
wird auch als Residuum bezeichnet
(Residuum).
Erwartungswert und Varianz
(12)
y
(13)
E(R)
(14)
Var(R)
7-31
15.12.15
a+ßX +R,
wobei
o,
und
Aus der letzten Beziehung ergibt sich einerseits
(15)
bzw.
Andererseits wird für wachsendes
e2
die Varianz des Residuums und somit die
Streuung von Y um die lineare Prognose f(X) = a
+ ßX geringer.
In diesem Sinn ist
e 2 eine Maßzahl für den linearen Zusammenhang zwischen X und Y und wird als
(lineares) Bestimmtheitsmaß von (X,Y) bezeichnet. Der Extremfall
dann ein, wenn die lineare Beziehung Y = a
i
= 1 tritt gerrau
+ ßX mit Wahrscheinlichkeit 1 gilt
(16)
P{Y = a+ßX} = 1.
wobei das Vorzeichen des Anstiegs
ß mit dem von e übereinstimmt. Zur Illustration
sei hier noch einmal auf Abb. 8 in 4.7.1 hingewiesen (die dort erwähnten Geraden
sind gerrau die Regressionsgeraden für den Falle=± 1).
Im anderen Extremfall
und Y vorliegt, ist
e= 0,
ß = 0 und
der ja insbesondere bei stochastisch unabhängigen X
a = 1-Ly' d.h. die Regressionsgerade ist konstant f
Das Gegenbeispiel in 7.4 zeigt, daß der Fall
1-Ly·
e= 0 aber auch bei einem exakten qua-
2
dratischen Zusammenhang Y = X eintreten kann. Deshalb ist der Korrelationskoef-
fizient nur eine Maßzahl für den linearen - aber nicht für einen beliebigen, z.B. quadratischen - Zusammenhang.
Löst man (14) nach dem Bestimmtheitsmaß e 2 auf, so ergibt sich mit
(17)
e 2 = Var(Y)- Var(R)
Var(Y)
Reststreuung von Y nach Regression auf X
Streuung von Y
eine weitere Interpretation von e 2 als derjenige Anteil der Varianz von Y, der durch
die Regression auf X "erklärt" wird. In diesem Zusammenhang wird das Bestimmtheitsmaß e 2 auch in Prozent angegeben.
Unter Verwendung der Chebyshev-Ungleichung läßt sich die Wahrscheinlichkeit
dafür abschätzen, daß die Zufallsvariable Y um mehr als das r-fache ihrer Standardabweichung a Y von der linearen Prognose f(X) abweicht
Erwartungswert und Varianz
7-32
15.12.15
(18)
für
Die obere Schranke wird bei festem r für wachsendes
Obwohl der Korrelationskoeffizient
r> 0.
ri immer kleiner.
ri = Corr(X, Y) in X und Y symmetrisch ist, ist
dies für die Regressiongeraden nicht der Fall1 weil durch die Prognose eine "Richtung" (Prognose von Y aus X) und somit eine Asymmetrie ins Spiel kommt. Vertauscht man in obigen Betrachtungen X mit Y so ergibt sich als Regressionsgerade
von X aufY
(19)
für y E IR.
Die beiden Regressionsgeraden
in IR
2
-
f
und g - d.h. gerrauer ihre zugehörigen Graphen
1
stimmen aber nur im Falle= e- bzw.l eI= 1 überein.
Schätzen von Erwartungswert und Varianz
8.
15.12.15
8-1
Schätzung von Erwartungswert und Varianz
In der Praxis ist die Verteilung einer interessierenden reellen Zufallsvariablen
X: .f2-----+ IR typischerweise nicht vollständig bekannt. Selbst wenn der Typ der Verteilung L(X) bekannt ist - z.B. eine Poisson-Verteilung L(X) = Pois(p,) bei den Anwendungen in 0.1 (X = Anzahl der Leukämiefälle) oder 0.2 (X = Anzahl der Asbestfasern) - so ist der Parameter p, = E(X) unbekannt und von primärem Interesse.
Auch bei stetigem X, z.B. bei Normalverteilung L(X) = N(p,, a 2 ) sind die Parameter
2
p, = E(X) und a = Var(X) typischerweise unbekannt. Eine wesentliche Aufgabe der
Statistik besteht deshalb darin, unbekannte Parameter von Verteilungen aus beobachteten Daten zu schätzen. Wir wollen uns hier mit dem Schätzen des Erwartungswerts
E(X) und der Varianz Var(X) beschäftigen, d.h. wir wollen sogenannte Schätzer an-
geben und deren Eigenschaften untersuchen.
Der Ausgangspunkt dazu ist ein Stichproben-Modell, das aus n stochastisch unabhängigen und identisch wie X verteilten Zufallsvariablen X.: .f2-----+ IR für i = 1, ... , n be-
z
steht. Man bezeichnet X , ... ,Xn auch als unabhängige Wiederholungen von X und
1
schreibt hierfür kurz (iid steht für independent identically distributed)
(1)
X 1, ... ,Xn u':':"'d X.
Die Stichprobe stellt einen n-dimensionalen Zufalls-Vektor dar
wobei wir den Stichprobenumfang als oberen Index "(n)" nur dann mitschreiben,
wenn dies zur Klarstellung erforderlich ist (z.B. wenn n variiert oder n---+ oo strebt).
Die beobachteten Daten sind Realisierungen x. =X.( w) E IR der Zufallsvariablen X.,
z
z
z
wobei wEil das eingetretene Ergebnis ist. Der beobachtete Vektor
ist dann die zugehörige Realisierung von X. Ebenso wie man zwischen einer Funktion f und einem konkreten Funktionswert f(x) unterscheidet, so wollen wir auch
streng zwischen dem Zufallsvektor X und seiner beobachteten Realisierung
x = X( w) unterscheiden.
Schätzen von Erwartungswert und Varianz
8.1
15.12.15
8-2
Schätzung des Erwartungswerts
Wir setzen jetzt voraus, daß der Erwartungswert und die Varianz von X existieren
(1)
2
p,: = E(X) ,
a : = Var(X),
wollen aber sonst keine weitere Annahmen über die Verteilung L(X) machen.
Unter Berücksichtigung der Ausführungen in 7.1 bei der Einführung des Erwartungswerts ist es naheliegend, den Mittelwert (arithmetisches Mittel) der Beobachtungen als Schätzung des Erwartungswerts p, zu verwenden. Formal definiert man
hierzu die Schätzfunktion
4: IR n-----+ IR,
die jeder Realisierung x von X den Mittel-
wert von x zuordnet, d.h.
n
(2)
4(x) =
x
= l.
2:=
n.
z=l
x.
z
1
-x
n
+
(Schätzung für p,) .
Die Abhängigkeit der Schätzung von den ))zufälligen" Daten wird beschrieben durch
den Schätzer (die Schätzgröße)
(3)
-
1
4(X) = X = n
n
2:=
i=l
X.z
l.x
n
+
(Schätzer für p,) .
4(X) ist eine Zufallsvariable auf .f2 mit Werten in IR, und der Schätzwert 4(x) =
4 (X( w)) ist die zugehörige Realisierung des Schätzers.
Wir wollen jetzt einige elementare (aber wichtige) Eigenschaften des Schätzers
4(X) zusammenstellen. Zunächst ergibt sich als Erwartungswert des Schätzers
(4)
E(4(X)) = 1-L ,
und man sagt deshalb, daß der Schätzer erwartungstreu oder unverfälscht ist. Allgemein heißt ein Schätzer für einen Parameter erwartungstreu, wenn der Erwartungswert des Schätzers gerrau der zu schätzende Parameter ist.
Die Varianz des Schätzers ist umgekehrt proportional zum Stichprobenumfang n:
(5)
Var(4(X)) = ~ a
2
.
Insbesondere wird der Schätzer für wachsendes n immer besser, weil er immer weniger um den zu schätzenden Parameter p, streut (vgl. Abb. 1). Wir werden sogar (unter Verwendung des Schwachen Gesetzes der großen Zahlen) noch sehen, daß der
Schätzer für n---+ oo in einem noch zu präzisierenden Sinn gegen p, konvergiert.
Schätzen von Erwartungswert und Varianz
8-3
15.12.15
Abb. 1: Verteilung des Mittelwerts P,(X) =X bei wachsendem Stichprobenumfang n
X ist Gamma-verteilt
X ist diskret gleichverteilt (Würfel)
I
I
I
J1 = 7/2
J1 = 7/2
n= 1
0
2
n= 1
a 2 = 35/12
a <=35/12
3
J1 4
5
6
Mittelwert
0
2
3
J1 4
5
n= 4
6
Mittelwert
n=4
o~---r-=~~~~~~~~~~---
o
2
3 J1
4
5
6
Mittelwert
0
2
3 J1 4
5
n= 16
0
2
3
J1 4
5
6
Mittelwert
6
Mittelwert
n = 16
0
2
3
J1 4
5
6
Mittelwert
n= 64
n = 64
0 4---~--~---L~+-~--~--~----
0
2
3
J1 4
5
6
Mittelwert
0
2
3
J1 4
5
6
Mittelwert
Schätzen von Erwartungswert und Varianz
15.12.15
8-4
Offenbar ist ein erwartungstreuer Schätzer für 1-L umso besser1 desto kleiner seine
Varianz ist. Verwendet man aus "Faulheit" z.B. nur die erste Komponente
JiiX): =X1 oder das Mittel P,1n(X): = ~ (X1 +Xn) von erstem und letzten Wert, so
sind diese beiden Schätzer zwar erwartungstreufür f-L, aber ihre Varianzen
sind für n > 2 größer als die von P,(X). Die Erwartungstreue ist zwar eine wünschenswerte Eigenschaft eines Schätzers, aber sie sagt nichts über die Varianz des
Schätzers aus.
Das 3. zentrale Moment und die Schiefe des Schätzers P,(X) ergeben sich aus denen
von X - sofern diese existieren - zu
(6)
Insbesondere konvergiert die Schiefe des Schätzers P,(X) für n---+ oo gegen Null (vgl.
auch Abb. 1).
8.2
Spezielle V erteil ungsmodelle
Wenn man voraussetzt, daß die Verteilung L(X) aus emer speziellen Klasse
stammt, die gegen Faltungen abgeschlossen ist, so gehört auch die Verteilung der
Summe X+ =X + .. .+Xn zu dieser Klasse und die Verteilung des Schätzers
1
P,(X) = ~X+ läßt sich explizit angeben. Wir geben hierfür einige Beispiele.
8.2.1
Das Binomial-V erteil ungsmodell
Das Binomial-Verteilungsmodell liegt vor, wenn X diskret ist mit
(1)
L(X) = B(l,p) .
Wegen 1-L = E(X) = p entspricht die Schätzung von 1-L hier der Schätzung der Wahrscheinlichkeit p und wir bezeichnen die Schätzfunktion P, dann auch suggestiv mit
p: = P,.
Bei Anwendungen ist p typischerweise die Wahrscheinlichkeit eines interes-
sierenden Ziel-Ereignisses und die Schätzung ß(x) = ~ x +ist gerrau die relative Häufigkeit mit der das Ziel-Ereignis bei denn Wiederholungen eingetreten ist.
Die Verteilung des Schätzers ß(X) = ~X+ ergibt sich aus
(2)
bzw.
L(ß(X)) = ~- B(n,p).
Schätzen von Erwartungswert und Varianz
8-5
15.12.15
Die zweite Formulierung bedeutet, daß .ß(X) den Träger { 1 I k = 0, ... , n} besitzt
n
mit der Zähldichte:
(3)
8.2.2
k = 0, ... , n.
Das Poisson-Verteilungsmodell
Das Poisson-Verteilungsmodell ist bei diskretem X gegeben durch
(1)
L(X) = Pois(p, ),
und dann folgt aus 6.1.3 (1)
(2)
L(X+) = Pois( np,)
Die Verteilung von
bzw.
4 (X) = ~X+
L(Jl(X)) = ~- Pois(np,).
hat also den Träger { ~ I k E W0 } und die Zähl-
dichte:
(3)
8.2.3
Das Normal-Verteilungsmodell
Für stetiges X ist das Normal-Verteilungsmodell gegeben durch
und dann folgt aus 6.2.1 (1)
(2)
L(X+) = N( np,, na
2
)
bzw.
8.2.4 * Das Gamma-V erteil ungsmodell
Das Gamma-Verteilungsmodell liegt bei stetigem X> 0 vor, wenn
(1)
L(X) = Gam(a,ß)
mit
1-L =aß'
bzw.
L(Jl(X)) = Gam(na ~ß).
und dann folgt aus 6.2.2 (9)
(2)
L(X+) = Gam(na,ß)
1
Schätzen von Erwartungswert und Varianz
8-6
15.12.15
8.2.5* Das Cauchy-Verteilungsmodell
Für stetiges X ist das Cauchy-Verteilungsmodell gegeben durch
(1)
L(X) = C(a,ß)
und für den Mittelwert X = ~X+ folgt aus 7.3.3 (7) (4)
(2)
L(X+) = C(na, nß) = n C( a,ß)
bzw.
L(X) = C( a! ß).
Folglich hat der Mittelwert von unabhängigen Wiederholungen von X dieselbe Cauchy-Verteilung wie X, d.h. Mittelwertsbildung erhöht hier nicht die Präzision. Dies
ist aber kein Widerspruch zu 8.1(5), weil bei der Cauchy-Verteilung der Erwartungswert und somit auch die Varianz nicht existiert.
8.3*
Schätzung der Varianz
Nachdem wir für die Zufallsvariable X zunächst ihren Erwartungswert 1-L geschätzt
haben, wollen wir jetzt ihre Varianz a 2 schätzen. Aus methodischen Gründen betrachten wir zuerst den (in der Praxis eher seltenen) Fall, daß der Erwartungswert
1-L bekannt
ist. Danach wird der Fall für unbekanntes 1-L behandelt.
8.3.1 * Schätzung der Varianz bei bekanntem Erwartungswert
Der Erwartungswert des Quadrats Y = [X- f-L] 2 ist gerrau die Varianz von X
(1)
E(Y) = Var(X) = a 2.
Damit läßt sich die Schätzung von a 2 auf die Schätzung des Erwartungswerts von
Y zurückgeführt. Die Zufallsvariablen Y. = (X.- 1-L) 2 sind für i = 1, ... , n unabhängige
z
z
Wiederholungen von Y. Also ist ihr Mittelwert Y nach 8.1 ein Schätzer für a 2
(2)
5 2 (X)
0
=Y
= .l ~ (X.- )
n i
z 1-L '
2
und der Schätzer ist erwartungstreu
(3)
(erwartungstreu).
Unter Verwendung des vierten zentralen Moments von X
dessen Existenz wir jetzt voraussetzen, ergibt sich die Varianz von Y
Schätzen von Erwartungswert und Varianz
(5)
8-7
15.12.15
4
Var(Y) = p, - a ,
4
und somit auch die Varianz des Schätzers
8.3.2* Schätzung der Varianz bei unbekanntem Erwartungswert
Bei unbekanntem Erwartungswert p, kann der Schätzer 5 2 (X) aus 8.3.1 nicht be0
rechnet werden. Man verwendet daher einen analogen Schätzer, indem man den
Erwartungswert p, durch seinen Schätzer (t =X ersetzt und dafür durch n -1 statt
n teilt (damit der Schätzer erwartungstreu wird):
(1)
a2 (X)
= - 1- ~ (X.-X) 2 = - 1- SXX.
n-1 ·
z
z
n-1
Hierbei ist SXX eine quadratische Form in X
XTAX
(2)
'
wobei die nxn Matrix A = (a . .) gegeben ist durch:
ZJ
(3)
a .. = 8 . .-1..
ZJ
ZJ n
(8 ist das Kronecker-Symbol).
Zur Berechnung des Schätzers kann man die Beziehung
(4)
für aEIR
verwenden. Speziell für a = 0 ergibt sich wieder (2).
Der Nenner (n-1) in (1) garantiert, daß der Schätzererwartungstreu ist:
(5)
(erwartungstreu).
Die zugehörige Schätzung a(X) der Standardabweichung a ist nicht erwartungstreu1 da
(6)
E(a(X))<a,
wobei die Gleichheit nur im trivialen Fall gilt, wenn a2(X) Dime-verteilt ist.
Man beachte in diesem Zusammenhang, daß die Schätzung (t( x) =
x für den Erwar-
tungswert p, ebenfalls mit dem Erwartungswert der empirischen Verteilung P übex
reinstimmt. Aber die Varianz der empirischen Verteilung P
X
n
2
a
1.. 2:: (x .- x) 2
(7)
X
n .
z=1
z
Schätzen von Erwartungswert und Varianz
8-8
15.12.15
ist stets kleiner als die (erwartungstreue) Schätzung a2(x)
Bei Computer-Programmen und Taschenrechnern, die für em n-Tupel x eme
"Standardabweichung" berechnen, sollte man sich vergewissern, ob a oder a(x) gex
meint sind, weil dies nicht einheitlich gehandhabt wird.
Die Varianz des Schätzers a2 (X)
(9)
mit
- die sich sich aus dem nachfolgenden Theorem ergibt - konvergiert für n---+ oo gegen Null.
Theorem: Erwartungswert und Varianz quadratischer Formen
U = (U , ... , Un) sei ein Vektor unabhängiger identisch verteilter Zufallsvariablen
1
U , ... , U mit Erwartungswert E(U.) = 0 und exisitierenden Momenten
1
n
z
für 1 < k
< 4.
Für eine symmetrische nxn Matrix A = (a . .) hat die quadratische Form
ZJ
U TAU= "E,"E,a .. U.U.
i j ZJ Z J
den Erwartungswert und die Varianz
(a)
E(UTA U)
(b)
Var(UTAU)
Spur(A) ·m 2
(~aii) ·(m 4 -3m;)
z
+ 2Spur(AA) ·m;.
8.3.3* Verteilung der Varianz-Schätzer im
Normal-Verteilungsmodell
Im Normal-Verteilungsmodell, d.h für
läßt sich die Verteilung von a2(X) unter Verwendung der sogenannten ChiquadratVerteilung explizit angeben. Die Chiquadrat-Verteilung
m E W ist eine spezielle Gamma-Verteilung (vgl. Abb. 1)
2
xm
mit dem Freiheitsgrad
Schätzen von Erwartungswert und Varianz
(2)
x! =
8-9
15012015
Gam(~\2) 0
Speziell ist x~ =Garn ( ~ , 2) die Verteilung des Quadrats einer N(O, 1)-Verteilung, doho
(3)
L(U) = N(O, 1)
Aus der Faltungseigenschaft der Gamma-Verteilung (vgl. 6.2.2) ergibt sich, daß
die m-fache Faltung von
xm2
x{- also die Verteilung der Quadratsumme u; + 000 + U!für
stochastisch unabhängig und identisch N(O, 1)-verteilte U , 000, Um- ist:
1
2
2
2
(4)
U1, 000, Um u::--d N(O, 1)
U1+ooo+Um "'X m
2
Hieraus ergibt sich die Verteilung der Varianz-Schätzung 5 (X) für bekanntes p,
0
n
(5)
n 0o-2 (X) = .l 0
a2
J-L
a2
bzwo
2:: (Xo-p,)2
z
"' X2 0
z=l
10
5
0
0
20
15
n
25
Abbo 1: Dichten der x2 -Verteilung für die Freiheitsgrade m = 1, 3, 5 und 100
m
2
Und für unbekanntes p, erhält man als Verteilung der Varianz-Schätzung a (X)
(was hier aber nicht bewiesen wird):
a2
2
"'--ox
n-1
n-1
(6)
n
1
0
-
a2
- 2
l:(Xo-X)
z
i=1
n-1 oa2(X)
a2
"'
2
X n-1
0
bzwo
Schätzen von Erwartungswert und Varianz
8.4*
15.12.15
8-10
Schätzung der Schiefe
Die Schätzung der Schiefe
e3 : = eiX)
von X - sofern diese existiert - ist gegeben
durch die Schätzfunktion g3 , die jeder Realisierung x = (xl' ... , xn) E IR n die Schiefe
der empirischen Verteilung P von x zuordnet, d.h. nach 7.7.2 (7)
X
Bei den Dichten in 4.4.2 Abb. 4 ist der angegebene Erwartungswert 1-L bzw. die
Standardabweichung a und Schiefe
e3 der log-Normalverteilunggerade die aus den
beobachteten Daten berechnete Schätzung ;l bzw.
8.5*
a und g3.
Schätzung der Korrelation und Regressionsgeraden
Wir knüpfen an die Betrachtungen aus 7.8.4 an und interessieren uns jetz für die
Schätzung des linearen Zusammenhangs zweier reeller Zufallsvariablen X und Y.
Unser Ausgangspunkt sind jetzt n unabhängige Wiederholungen von (X,Y), also
(1)
(X1,Y1) , ... , (Xn ,Yn) u::--d (X,Y).
Die beobachteten Realisierungen x. =X.(w) und y. = Y .(w) für i = 1, ... , n fassen wir
z
z
z
z
wieder als n- Tu pel zusammen
(2)
Als Schätzung der gemeinsamen Verteilung P von (X,Y) verwenden wir die empiri-
sche Verteilung
P von
(x,y) = ((xl'y 1),
... ,
(xn,yn)) E (IRxiRt, die auf dem Träger
T = { (x .,y.) I i = 1, ... , n} definiert ist durch die Zähldichte (vgl. 1.2.4)
z z
(3)
1
A
P{(x.,y.)}
== -·#{k=1
z z
n
nl(xk,yk)=(x.,y.)}
z z
= relative Häufigkeit des Paares (x .,y.) im Tupel (x,y).
z z
1 ••• 1
Man beachte aber, daß die geschätzte Verteilung
P immer
eine diskrete Verteilung
(mit endlichem Träger) ist, selbst wenn die Verteilung P von (X,Y) stetig ist. Trotzdem läßt sich zeigen (was wir hier nicht tun werden), daß
P eine "gute" Schätzung
für P ist, die für wachsendes n immer besser wird. Zur Schätzung des Korrelationskoeffizienten
e=
Corr(X,Y) sowie der Koeffizienten a und b der Regressionsgeraden
aus 7.8.4 verwendet man deshalb einfach die zugehörigen Parameter der geschätzten
Schätzen von Erwartungswert und Varianz
Verteilung
P,
15.12.15
8-11
Zur Bestimmung dieser Schätzungen gehen wir schrittweise von und
beginnen mit den Schätzungen der Erwartungswerte 1-Lx = E(X), 1-Ly = E(Y) und der
Varianzen
a;=
Var(X),
a;=
Var(Y), deren Existenz natürlich voraussgesetzt wird.
Zunächst interpretieren wir (x,y) als eine Abbildung (x,y): {1, ... , n}-----+ T mit
(x,y)(i) = (x.,y.).
Ist U eine Zufallsvariable mit diskreter Gleichverteilung P =DG(n)
z z
n
auf {1, ... , n}, so hat das Paar (x,y)(U) = (x(U), y(U)) die Verteilung P, und für jede
Funktiong:T-----+IR ergibt sich der Erwartungswert vong((x,y)(U)) mit 7.2Satz 1 zu
n
E[g((x,y)(U))] = 1.n
(4)
2:
.
z=l
g(x.,y.).
z z
Wählt man speziell für g die Projektion
7r
1
bzw.
7r
2
auf die erste bzw. zweite Kom-
ponente so ergeben sich die Schätzungen (LX bzw. 4y von 1-Lx bzw. 1-Ly als Erwartungswerte von x(U) bzw. y(U) als Mittelwerte der x- bzw. y- Werte zu
n
n
1 'I\'
1 'I\'
(5)
1-L
=-uy.==y.
1-Lx = n u xi =: x '
Y
n
z
A
A
i=l
i=l
Und hieraus ergeben sich die Schätzungen
a;
und
o-; der Varianzen a; und a; als
Varianzen von x(U) und y(U)
n
(6)
mit
2
Sxx= l:(x.-x)
z
0
z=l
n
mit
2: (y z.- y)2
Syy =
0
z=l
Betrachten wir nur X bzw. Y als einzelne Zufallsvariable, so ergeben sich hier dieselben Schätzungen wie in 7.7.2. Dies liegt daran, daß die Verteilung von x(U) bzw.
y(U) wieder die empirische Verteilung des Tupels x bzw. y ist.
Als Schätzung der Covarianz "( = Cov(X, Y) bzw. des Korrelationskoeffizienten von X
und Y verwenden wir die Covarianz bzw. den Korrelationskoeffizienten von x(U)
und
(7)
(8)
y(U)
n
1 = 1.n Sxy
e=
A
mit
Sxy = l:(x.-x)(y.-y)
z
z
i=l
Sxy
JSxx Syy
Aus den obigen Schätzung ergeben sich die Schätzungen
der Regressionsgeradenf(X) = a
+ ßX von Y
a und ßfür die
auf X mit 7.8.4 (8) zu
Parameter
Schätzen von Erwartungswert und Varianz
15.12.15
Sxy
Sxx '
(9)
8-12
!f-ßx.
Die geschätzte Regressionsgerade f(x) = a
+ ßx
wird auch als Regressions- 1 Aus-
gleichs- oder Trendgerade für die Punkte (xl' y ), ... , (xn' yn) bezeichnet. Zur Interpreta1
tion dieser Regressionsgeraden erinnern wir uns daran, daß die Koeffizienten
ß sich
a und
als Minimalstelle des erwarteten quadratischen Prognose-Fehlers 7.8.4 (3)
ergeben, der für die hier vorliegende empirische Verteilung P bzw. für die Zufallsvariablen x(U) und y(U) nach (4) folgende Gestalt hat
n
2
2
(10)
E{(y(U)- [a+bx(U)l) } = 1.n .2:= (y.[a+bx.l)
.
z
z
z=l
Folglich minimieren die Schätzungen (&, ß) die folgende Summe der quadratischen
Abweichungen der y-Werte von den unter Verwendung der Geraden f(x) =a+bx
prognostizierten Funktionswerten f( x.) (vgl. auch Abb.J)
z
n
2
SQ(a,b) = 2:= (y.[a+bx.l)
.
z
z
0
z=l
Die Minimierung von SQ( a, b) ist als Methode der kleinsten Quadrate bekannt. Sie
wird auch ohne den hier zugrunde liegenden stochastischen Hintergrund auf beobachtete (x, y)-Datenpaare angewandt. Formal läßt sich diese Regressionsgerade
f(x) =a+ßx immer aus beobachteten (x,y)-Werten bestimmen sofern Sxx>O ist,
d.h. mindestens zwei x-Werte verschieden sind.
Schätzen von Erwartungswert und Varianz
Statlab 1985: n=100 Kinder
:0
120
Statlab 1985: n= 100 Kinder
120
• ••
c:
::l
•
•
tf
~ 1 00
•
~
ö.:;,
c:
~ 80
8-13
15.12.15
•
•
•
•
""C
c:
"2
:E 60
u
·;::
ID
Cl
40
40
46
48
50
52 54 56 58
60
Größe : Kind (Kontrolle) [Zoll]
120
~
00
~
~
~
w
00
~
Größe: Kihd (Kontrolle) [Zoll]
• ••
•
~
62
::0
120
• ••
c:
•
::l
•
•
0
a..
~100
~
•
ec
~ 80
-g
•
••
y
••
•
"2
.E0
60
-~
Cl
40
40
46
48
50
52 54 56
58
60
Größe: Klnd (Kontrolle) [Zoll]
62
~
~
w
~
~
~
~
00
~
Größe: Kind (Kontrolle) [Zoll)
Abb. 1: Beobachtete Daten zum Zusammenhang von Größe und Gewicht im Alter
von 10 Jahren aus einer amerikanischen Studie über Kindesentwicklung aus J.L.
Hodges, D. Krech, R.S. Crutchfield (1975). StatLab: an empirical introduction to statistics. McGraw-Hill, New York. Dargestellt sind die Prognose-Fehler y.-[a+bx.] (oben
z
z
links als Strecken) und ihre Quadrate (als Flächen) für einige Punkte bei drei verschiedenen Geraden. Unten links die Mittelwertsgerade f( x) = y (d.h. a = y, b = 0) und
rechts die Regressionsgerade f(x) = a + ßX.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9.
28.1.16
9-1
Schwaches Gesetz der großen Zahlen und
Zentraler Grenzwertsatz
Zur Motivation der folgenden Ausführungen betrachten wir - wie im Kapitel 8 eine Stichprobe X , ... ,Xn von unabhängigen Wiederholungen einer interessierenden
1
Zufallsvariablen X: (.f2, d, P)-----+ IR mit Erwartungswert p, und Varianz a 2 > 0. Den
zugehörigen Schätzer des Erwartungswerts
n
(1)
Jl(X(n)) = x(n) = ~ 2: Xi
i=1
indizieren wir jetzt zusätzlich mit dem Stichprobenumfang n, weil wir uns hier für
den Grenzübergang n---+ oo interessieren. Wir haben bereits festgestellt, daß die Varianz des Mittelwerts x(n) für n---+ oo gegen Null konvergiert
(2)
lim
n---+oo
Var(x(n)) = 0
'
und somit streut der Mittelwert x(n) für wachsendes n immer geringer um seinen
Erwartungswert p, (vgl. Abb. 8.1). Unter Verwendung der in 9.1 zu definierenden
Konvergenz nach Wahrscheinlichkeit läßt sich dann zeigen, daß x(n) für n---+ oo nach
Wahrscheinlichkeit gegen p, konvergiert (Schwaches Gesetz der großen Zahlen).
Für statistische Analysen spielt die Verteilung des Mittelwerts x(n) eine entscheidende Rolle. Zwar kann man die Verteilung von x(n) prinzipiell aus der von X bestimmen (vgl. z.B. 8.2) aber bei konkreten Anwendungen hat man (z.B. bei stetigem
X) typischerweise keine klaren Vorstellungen über die vorliegende Verteilung von
X. Deshalb ist man an Approximationen für die Verteilung von x(n) interessiert, die
mit wachsender Anzahl n von Wiederholungen besser werden. In 8 Abb. 1 sieht man
bei zwei sehr unterschiedlichen Verteilungen von X, daß sich die Verteilung der Mittelwerte x(n) für wachsendes n immer ähnlicher werden. Dies wird noch deutlicher,
wenn man die Dichte des standardisierten Mittelwerts
(3)
betrachtet. In Abb. 1 (unten) erkennt man, daß sich die Dichte von rJn) für wachsendes n immer weniger von der Dichte der Standard-Normalverteilung N(O, 1) unterscheidet. Der Hintergrund hierfür ist der Zentrale Grenzwertsatz, der in diesem speziellen Fall aussagt, daß die Verteilung von u(n) für n---+ oo in einem in 9.2 prazlsierten Sinn gegen die Verteilung N(O, 1) konvergiert.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9-2
Abb.J: Dichte des standardisierten Mittelwerts u(n) und N(O,l)-Dichte (dünne Linie)
X ist diskret gleichverteilt (Würfel)
X ist Gamma-verteilt
0.4
0.4
n=1
\
I
\
\
1/
I
\
I
\
\
[\.
...______
0.0
---------3
n= 1
0 0 ...J.._-----r
-------=---,"'----.----r---r----r----=~=
-2
-1
0
1
2
3
-3
standardisierter Mittelwert
0
-2
-1
0
1
2
standardisierter Mittelwert
0.4
3
0.4
.-.._
n=4
I
r:
I
~
I
I
I
1\
II
I
0.0
~
I
_A
-3
-2
M
~-1
0
1
2
standardisierter Mittelwert
3
-3
-2
-1
0
1
2
standardisierter Mittelwert
3
-3
-2
3
0.4
-3
-2
-1
0
1
2
standardisierter Mittelwert
3
-1
0
1
2
standardisierter Mittelwert
0.4
\
n= 64
\
-3
-2
-1
0
1
2
standardisierter Mittelwert
3
-3
-2
-1
0
1
2
standardisierter Mittelwert
3
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9.1
28.1.16
9- 3
Konvergenz nach Wahrscheinlichkeit und
Schwaches Gesetz der großen Zahlen
Wir betrachten jetzt eine Folge von reellen Zufallsvariablen X : (.f2, d,P)-----+ IR
n
mit nEW.
Definition: Die Folge (Xn ) nEm
li.T reeller Zufallsvariablen heißt konvergent nach
Wahrscheinlichkeit oder stochastisch konvergent gegen a E IR, wenn gilt
(1)
Für jede offene Umgebung U von a gilt:
lim P{X EU}= 1
n---+oo
lim P{ X
bzw.
n
n---+oo
n
\t U}
= 0.
Eine äquivalente Formulierung von (1) ist
(1) 1 Für jedes c > 0 gilt:
lim P{IXn -al<c} = 1
lim P{IXn -al>c}
= 0.
-
bzw.
n---+oo
n---+oo
Bemerkung:
Der Grenzwert a ist durch (1) bzw. (1) 1 eindeutig bestimmt.
Schreibweise:
X ----+ a
p
n
oder
n---+ oo
X
p
n
Die Bedingung (1) hängt von der Zufallsvariablen X
P
Xn
-----+
n
a.
nur über deren Verteilung
=L(X) ab, weilP{X EU} =P (U).
n
n
Xn
Aus der Chebyshev-Ungleichung erhält man ein hinreichendes Konvergenzkriterium
E(Xn ) =
(2)
p, für alle n E W,
lim Var(X ) = 0
n---+oo
n
=?
X
n
P
n---+ oo
1-L ·
Und als Anwendung hierfür ergibt sich:
Schwaches Gesetz der großen Zahlen: Sei (Xn ) nEm
li.T eine Folge stochastisch
unabhängiger und identisch wie X: (.f2, d, P)-----+ IR verteilter Zufallsvariablen
deren Erwartungswert p, = E(X) und Varianz a 2 = Var(X) existieren. Dann
konvergiert der Mittelwert x(n) der ersten n Zufallsvariablen nach Wahrscheinlichkeit gegen p,:
(3)
X (n) ---=-P-----+
n---+ oo
1-L
(schwaches Gesetz).
Zusatz: Die Existenz der Varianz ist nicht1 notwendig (vgl. Georgi 20151 Satz 5.7).
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9- 4
Fast-sichere Konvergenz und Starkes Gesetz der großen Zahlen*
Das Schwache Gesetz der großen Zahlen läßt sich auf verschiedene Arten verallgemeinern, von denen wir hier nur das starke Gesetz (ohne Beweis) angeben, welches eine
stärkeren Konvergenzbegriff verwendet. Eine Folge X : (.f2, d,P)-----+ IR mit n E W
n
heißt fast-sicher konvergent gegen a E IR, wenn gilt (vgl. hierzu auch Abschnitt 9.7)
(4)
P { n---+oo
lim X = a } = 1 ,
n
d.h.
p { wE
n I n---+oo
lim X (w) =
n
a} = 1
0
Die fast-sichere Konvergenz impliziert die Konvergenz nach Wahrscheinlichkeit
(aber nicht umgekehrt) - was hier aber nicht bewiesen wird - ein Beweis steht z.B.
im Lehrbuch von Krengel (2005). Beide Konvergenzbegriffe lassen sich übrigens auf
den Fall erweitern, daß der Grenzwert eine Zufallsvariable X: (.f2, d,P)-----+ IR statt
einer reellen Zahl a ist. Hierzu ersetzt man in (4) bzw. (1) 1 lediglich a durch X.
Das starke Gesetz der großen Zahlen von Kolmogorov verschärft die Konvergenzaussage des schwachen Gesetzes (fast-sichere Konvergenz statt Konvergenz nach
Wahrscheinlichkeit).
Starkes Gesetz der großen Zahlen von Kolmogorov: Sei (Xn ) nEm
li.T eme
Folge stochastisch unabhängiger und identisch wie X: (.f2, d,P)-----+ IR verteilter
Zufallsvariablen deren Erwartungswert p, = E(X) existiert. Dann konvergiert
der Mittelwert x(n) der ersten n Zufallsvariablenfast-sicher gegen p,:
(5)
P{wE.f!llim x(n)(w)=p,} = 1
n---+oo
(starkes Gesetz).
Einen Beweis findet man in Lehrbüchern der Wahrscheinlichkeitstheorie, z. B. in
Bauer (1991) sowie Gänssler und Stute (1977).
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9.1.1
9- 5
28.1.16
Eigenschaften der Konvergenz nach Wahrscheinlichkeit
Wir wollen jetzt noch einige später benötigte Eigenschaften der Konvergenz nach
Wahrscheinlichkeit herleiten. Hierzu ist es zweckmäßig, diesen Konvergenzbegriff
auf eien Folge K-dimensionale Zufallsvektoren X : (.f2, d,P)-----+ IRK zu erweitern.
n
Definition:
Die
Folge
(X n ) nEm
1\.T
K-dimensionaler
Zufallsvektoren
heißt
konvergent nach Wahrscheinlichkeit oder stochastisch konvergent gegen a E IRK,
wenn gilt
(1)
Für jede offene Umgebung U von a gilt:
lim
n---+oo
P{X EU}= 1
lim P{ X \tU} = 0.
bzw.
n
n
n---+oo
Eine äquivalente Formulierung von (1) ist
(1) 1 Für jedes c > 0 gilt:
lim P {
n---+oo
II X n - a II < c} =
1
bzw.
II X n - a II >
c} =
-
lim P {
n---+oo
0.
Bemerkung:
Der Grenzwert a ist durch (1) bzw. (1) 1 eindeutig bestimmt.
Schreibweise:
X
p
n
----+
n---+ oo
a
X
oder
p
n
-----+
a.
Die stochastische Konvergenz K-dimensionaler Zufallsvektoren läßt sich auf die
reeller Zufallsvariablen zurückführen:
(2)
X
p
n
II Xn- a II
----+a
n---+ oo
_P-----+ 0.
n---+ oo
Für eine meßbare Abbildung g: IRK-----+ IR m gilt
(3)
g stetig in a ,
X
n
p
---==-----+ a
n---+oo
Die stochastische Konvergenz von Zufallsvektoren X = (X , ... ,X K)
n
n1
n
gegen
a = (a , ... , aK) ist äquivalent zur Konvergenz aller Komponenten-Folgen:
1
(4)
X
p
n
----+
n---+oo
a
X
nk
P
n---+oo
ak
für alle k = 1, ... ,K.
Aus der Stetigkeit der arithmetischen Operationen ergeben sich weiteren Eigenschaften:
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
(5)
28.1.16
9- 6
Für reelle Zufallsvariablen X , Y und a, b E IR gilt:
n n
y ---=p=-----+ b
X ---=p=-----+ a
n
n---+oo
n
'
X
n---+oo
+ y n ---=P=-----+ a±b
n---+ oo
n-
X .y
n
Wenn alle Zufallsvektoren X
p
n
n---+ oo
a·b
konstant (und somit Einpunkt-verteilt) sind, so
n
stimmt die Konvergenz nach Wahrscheinlichkeit überein mit der üblichen Konvergenz von Vektoren
(6)
Ist X
n
a E IRK konstant für allen E W, so folgt:
n
X
p
n
-----+
n---+ oo
a
lim
n---+oo
a
n
= a.
Identifiziert man einen konstanten Zufallsvektor mit seinem konstanten Wert, so
umfaßt die Konvergenz nach Wahrscheinlichkeit als Spezialfall die Konvergenz von
Vektoren. Insbesondere gilt z.B. (5) auch für X
(7)
Für reelle Zufallsvariablen Y und a , a, b E IR mit a -----+ a gilt:
n
n
n
p
y
n
9.1.2
a und lautet dann:
n
n
----+
n---+ oo
p
b
-----+
n---+ oo
a± b,
p
a .y -----+ a · b.
n
n
n---+oo
Stochastische Konvergenz und Konsistenz von Schätzern
Für eine interessierende Zufallsvariable X: (.f2, d,P)-----+ IR mit Erwartungswert
2
p, = E(X) und Varianz a = Var(X) betrachten wir jetzt - wie im schwachen Gesetz
li.T stochastisch unabhängiger und identisch wie X
der großen Zahlen - eine Folge (Xn ) nEm
verteilter Zufallsvariablen. Für festes n E W entspricht x(n) = (X1' ... ,Xn) einer
Stichprobe aus n unabhängigen Wiederholungen von X, wie wir sie im Kapitel 8
betrachtet haben.
Das schwache Gesetz der großen Zahlen besagt, daß der Schätzer
(1)
n
Jl(X(n)) = x(n) = 1.
n
2:=
.
Z=l
X.
z
des Erwartungswerts p, aus den ersten n Wiederholungen x(n) = (X1' ... ,Xn) nach
Wahrscheinlichkeit gegen p, konvergiert
(2)
p
n----+ oo
1-L ·
Diese Eigenschaft wird auch als Konsistenz des Schätzers bezeichnet. Allgemein
nennt man einen Schätzer für einen Parameter von L(X) konsistent, wenn der
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9- 7
Schätzer für jede Anzahl n von Wiederholungen definiert ist und nach Wahrscheinlichkeit gegen den zu schätzenden Parameter konvergiert.
Die Varianzschätzung aus 8.3.1 für bekanntes
1-L
ist ebenfalls konsistent für o?
p
(3)
n---+ oo
Und die Varianzschätzung aus 8.3.2 für unbekanntes
o-2(x(n)) = n~l ~ (Xi-x(n))2
z
(4)
1-L
2
a .
ist auch konsistent für a 2:
p
n---+ oo
a
2
Dies gilt auch für die nicht-erwartungstreue Schätzung aus 8.3.2 (7)
p
(5)
n---+ oo
2
a .
Die Eigenschaft der Konsistenz vererbt sich auf stetige Funktionen des Schätzers,
also etwa auf die zu (3) - (5) gehörigen Schätzungen der Standardabweichung wie z.B.
p
(6)
n---+ oo
a.
Unter Verwendung der Eigenschaften der Konvergenz nach Wahrscheinlichkeit läßt
sich weiter zeigen, daß auch der Schätzer aus 8.3.3 für die Schiefe
e3 : = eiX)
von
X konsistent ist
p
(7)
9.2
n---+ oo
Verteilungskonvergenz und Zentraler Grenzwertsatz
Für eine Folge reeller Zufallsvariablen X : (.f2, d,P)-----+ IR mit n E W wollen wir
n
jetzt die Konvergenz nach Verteilung gegen eine Zufallsvariable X: (.f2, d,P)-----+ IR definieren. Bevor wir eine formale Definition geben, wollen wir unsere Wunschvorstellung zu diesem Konvergenzbegriff erläutern. Wünschenswert wäre es, wenn die
Folge der Verteilungen PX = L(X ) punktweise gegen die Verteilung P = L(X) konn
n
X
vergiert, d.h. wenn für jede Bore1-Menge BE IB die Konvergenz gilt
(1)
n---+ oo
Leider ist diese Konvergenz für alle BE IB im allgemeinen eine zu starke Bedingung
und es hat sich als zweckmäßig erwiesen, sie auf solche B einzuschränken, deren
topalogischer Rand BB=B-\Bo unter Pxdie Wahrscheinlichkeit Null hat, d.h.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
(2)
28.1.16
9- 8
P{XEBB} = PjßB) = 0.
Speziell für ein Intervall B = (-oo, a] reduziert sich (1) auf die punktweise Konvergenz
der Verteilungsfunktionen FX von X gegen die Verteilungsfunktion F von X
n
n
(3)
X
n---+ oo
Fja) = P{X<a},
und die Bedingung (2) für den Rand 8 B = { a} besagt, daß P {X= a } = 0 gilt, d.h.
die Verteilungsfunktion Fx ist in a stetig. Man kann zeigen (worauf wir verzichten),
daß aus der Konvergenz (3) der Verteilungsfunktionen in allen Stetigkeitsstellen a von
Fx auch die Konvergenz (1) für alle Bore1-Mengen B mit der Bedingung (2) folgt.
Definition: Seien (Xn ) nEm bzw. X reelle Zufallsvariablen mit Verteilung
1\.T
(Px)n E lN bzw. px und Verteilungsfunktion (Fx)n E lN bzw. Fx· Dann heißt
(X ) konvergent nach Verteilung oder verteilungskonvergent gegen X 1 wenn eine
n
der beiden äquivalenten Bedingungen erfüllt ist
(VK)
Für alle Stetigkeitsstellen a E lR von Fx gilt
P {Xn < a } = FX (a)
n
(VK)'
n---+ 00
Fja) = P {X< a } .
Für alle BE IB mit P {XE 8 B} = Pj BB) = 0 gilt
P{ Xn EB} = Pxn (B)
Schreibweise:
X
n---+oo
oder
n
Px(B) = P{ X EB},
L(Xn)
(n---+oo)
L(X)
Die Klammern in "(n---+oo)" sollen dabei andeuten, daß der Zusatz "n---+ oo" bei Bedarf angegeben oder fortgelassen wird. Gelegentlich verwendet man auch die ge-
mischte Schreibweise X
n
~ L(X). Bei der Verteilungskonvergenz ist die Vertei-
lung des Grenzwert eindeutig bestimmt:
L(X) = L(X').
Beispiel: Dirac-Verteilungen
Die Folge X ,. . .__ Dirac(.l) ist verteilungsskonvergent gegen X,.....__ Dirac(O), weil gilt:
n
n
a<O
FX (a) = 0 =Fja)
für alle n E W,
a>O
FX (a) = 1 =Fja)
für alle n >
.l.
-a
n
n
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9- 9
Da FX nur im Punkt a = 0 unstetig ist, ist daher (VK) erfüllt:
für a :;= 0.
n---+ oo
Für den Punkt a = 0 gilt die Konvergenz allerdings nicht, weil
für alle n E W.
D
Wir formulieren jetzt den nach Jarl Waldemar Lindeberg (1876-1932) und Paul
Pierre Levy (1886-1971) genannten Zentralen Grenzwertsatz für unabhängige und
identisch verteilte Zufallsvariablen.
Zentraler Grenzwertsatz von Lindeberg und Levy:
Sei (Xn ) nEm
li.T eine Folge stochastisch unabhängiger und identisch wie X verteilter
Zufallsvariablen deren Erwartungswert p, = E(X) und Varianz
a = Var(X) > 0 existieren. Die Standardisierung der Summe X~) =X
2
bzw. des Mittelwerts x(n) = ~X~) der ersten n Zufallsvariablen
1
+ ... +Xn
(4)
ist dann verteilungskonvergent gegen die Standard-Normalverteilung
(5)
u(n)
(6)
P{ u(n) <u}
L
n---+ oo
n---+ oo
N(0,1)
bzw.
(u)
für alle u E IR
mit als Verteilungsfunktion von N(0,1).
Zusatz 1: Weiter gilt- wobei"()" für"<" oder "<"steht:
(7)
P{ u () u(n)}
(8)
P{ u1 () u(n) () u 2 }
n---+ oo
n---+ oo
1- (u)
für alle u E IR,
(u~- (u )
1
für alle u1 < u 2 .
Zusatz 2: Die Konvergenzen in (6), (7) bzw. (8) sind sogar gleichmäßig in u bzw.
in u und u .
1
2
Einen Beweis findet bei Georgii (2004) und Krengel (2005) sowie (in allgemeinerer
Form) in Lehrbüchern der Wahrscheinlichkeitstheorie, z. B. Bauer (2002) sowieGänssler und Stute (1977).
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 10
Man beachte, daß (6) für alle u E IR gilt, weil P auf ganz IR stetig ist.
Die Konvergenzaussagen (6) - (8) kann man zur approximativen Berechnung von
Intervall-Wahrscheinlichkeiten für den Mittelwert x(n) verwenden, z.B.
< x(n) (=)
< a } = P{ u (=)
< U'
Tin) <
} ,,......,. . . ,
P{ a 1 (=)
(=) u 2
2
1
(9)
mit
u.= Jn[a.-tt]
z
a
z
für i = 1,2.
Diese Approximation kann man wegen <P(-oo) = 0 bzw. <!>( +oo) = 1 auch im Grenzfall a =- oo bzw. a = + oo verwenden, weil dann auch u =- oo bzw. u = + oo gilt.
1
2
1
2
Man kann (9) auch suggestiv schreiben als
(10)
P{ a 1 ( ) x(n) () a 2 } ~ P{ a 1 < N(tt, ~ a 2 ) < a 2 }
wobei N(tt, l. a 2) für eine Zufallsvariable mit dieser Normal-Verteilung steht. Da (10)
n
für alle -oo < a < a < +oo gilt, sagt man auch, daß der Mittelwert x(n) approxima1
2
tiv normalverteilt ist und schreibt kurz:
(12)
Entsprechend ist die Summe
X~) =X1 + ... +Xn approximativ
normalverteilt
(13)
Zur Genauigkeit der Approximationen -wie z.B. (9) -gibt es Abschätzungen, die auf
A. C. Berry (1941) und C. G. Esseen (1945) zurückgehen und hier nicht bewiesen
werden.
Theorem von Berry und Esseen: Unter den Voraussetzungen des Zentralen
Grenzwertsatzes gilt mit dem 3. absoluten zentralen Moment v : = E( IX- ttl 3 )
3
von X und der Konstanten c = 0.7995
(14)
(15)
(16)
sup
uE 1R
sup
uE 1R
u,~~JR I P{ u ()
I P { u(n) < u} - <!>( u) I < -c· a-3 . v3'
Vn
I P{ u< u(n)}- [1-P(u)]l < -c· a-3 . v3'
Vn
u(n) () v}- [<P(v) -P(u)]l
<
2c -3
- · a . v3.
Vn
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 11
Hierbei soll v natürlich endlich sein (d.h. es soll existieren), weil sonst die Abschät3
zungen trivial sind. Eine unmittelbare Folgerungen aus diesen Abschätzungen ist,
daß die Konvergenzen (6) - (8) gleichmäßig sind (in u, v) und die Ordnung
)n haben.
Im ursprünglichen Result (14) von Esseen ist die Schranke c = 7.59 angegeben (vgl.
FeZZer 1971, S. 542). Die oben angegebene Schranke c = 0.7995 stammt von van Beek
(1972), vgl. Gänssler-Stute (1977), S. 167, wo auch gezeigt wird, daß die Konstante c
nicht kleiner als (21rr1/ 2 ~ 0.4 sein kann.
Die Abschätzungen (15) und (16) sind Folgerungen aus (14).
Für das 3. absolute zentrale Moment v von X gibt es typischerweise keine einfache
3
explizite Darstellung. Wegen
lxl 3 < 1 + x 4 ist aber
mit
(17)
Wenn das (meist leichter zu bestimmende) 4. zentrale Moment p, von X endlich ist1
4
so kann man v zumindest in (14) - (16) durch 1 + p, ersetzen, was die Abschätzung
3
4
allerdings vergröbert.
Nach (13) läßt sich die n-fache Faltung cL(X~)) der Verteilung L(X) stets durch eine
Normalverteilung approximieren. Für einige der bisher behandelten Verteilungen
L(X) geben wir in den folgenden Abschnitten weitere Details dieser Approximation.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9.3
Grenzwertsätze für Binomial-Verteilungen
9.3.1
Die Normal-Approximation der Binomial-Verteilung
9 - 12
Eine der wichtigsten (und vermutlich am längsten bekanntesten) Approximationen
einer Verteilung ist die Normal-Approximation der Binomial-Verteilung
(0)
2
mit
a =np(1-p),
n
die auf Abraham de Moivre (1667-1759) und Pierre-Simon Laplace (1749-1827) zurückgeht.
Binomial-Grenzwertsatz von de Moivre und Laplace:
Es sei 0 <p < 1 und für n E W sei X eine B(n,p)-verteilte Zufallsvariable mit
n
2
a : = Var(X ) = n p (1- p)
(1)
n
n
und der Standardisierung
u(n) : = _1
(2)
an
Dann gilt u(n)
(3)
L
n---+ oo
[X _ 1-L
n
J
n
N(0,1), d.h. für beliebige u ( u2) - <!>( ul)
0
Dieses Resultat stellt sich heute als ein Spezialfall des Zentralen Grenzwertsatzes für B(1,p)-verteiltes X - dar, obwohl es historisch früher bekannt war. Einen elementaren Beweis (auf den wir hier verzichten) findet man z.B. bei Krengel (1998).
Unter Verwendung des 3. absoluten zentralen Moments der B(1,p)- Verteilung
(4)
mit
q= 1-p
sowie der Funktion
(5)
h(a) == l_ 2a
mit
a
und der Konstanten c = 0.7995 lauten die Abschätzungen von Berry und Esseen
(6)
sup IP{rfn)<u}-(u) I <
uElR
(7)
sup IP{u<rfn)}-[1-P(u)]l <
uElR
·~n·h(a),
V'"
·~n·h(a),
V'"
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
(8)
sup
u,vElR
IP{u(<)u(n)(<)v}-[<P(v)-<P(u)]l <
-
-
28.1.16
9 - 13
2
~-h(a).
yn
Da h(a) streng fallend in a ist,jallen die oberen Schranken in (6) - (8) (bei festem n)
wenn a wächst. Insbesondere wird h(a) minimal wenn a maximal ist, d.h. für p = ~
und somit a = ~ und h( ~) = 1. Für p---+ 0 bzw. p---+ 1 folgt a---+ 0 und somit h( a)---+ oo.
Bei der aus (0) bzw. (3) resultierenden Approximation von Binomial-Wahrscheinlichkeiten
(9)
P{ B(n,p) < a}
,......,
,......,
P{ N(p,n,a~) < a}
(10)
P{ B(n,p) > a}
,......,
,......,
P{ N(p,n,a~) > a}
(11)
P{ a1 < B(n,p) < a2 }
,......,
,......,
P{ a1 < N(p,n,a~) < a2 }
ist zu beachten, daß die Binomial-Verteilung eine diskrete Verteilung ist. Für beliebige k E {0, ... , n} gilt z.B. (vgl. auch Abb. 1-2 Mitte)
(12)
für alle 0 < r < 1
P{B(n,p)<k+r} = P{B(n,p)<k}
Folglich ist die linke Seite in (9) konstant für alle a E [k, k + 1) 1 während die rechte
Seite in (9) mit a variiert. Damit ist zunächst unklar, welchen Wert a man in (9)
verwenden sollte, um die Binomial-Wahrscheinlichkeit (12) möglichst gut zu approximieren. Interpretiert man die Binomial-Wahrscheinlichkeit als Fläche in einem
Dichte-Histogramm (vgl. Abb. 1-2 links)
1
so erscheint der Wert a = k + ~ als beson-
ders günstig zur Approximation dieser Fläche durch die entsprechende Fläche unter der Normalverteilungs-Dichte. Aus diesen Gründen (vgl. Abb. 1-2 Mitte und
rechts) sollte man bei der Approximation (9) - und analog bei (10) und (11) immer
die folgende Approximation mit der sogenannten Stetigkeitskorrektur von ~ verwenden.
Normal-Approximation von Binomial-Wahrscheinlichkeiten für großes n
(13)
P{ B(n,p) < k}
,......,
,......,
<P( v)
mit
1 [k+.l-p,]
v=an
2
n
(14)
P{ B(n,p) > l}
,......,
,......,
1-<P(u)
mit
u=-1 [l-1.-p,
(15)
P{l<B(n,p) <k}
,......,
,......,
<P( v) - <P(u)
für
l< k
mit k, l E { 0, ... , n} ,
f-Ln=np,
an
a n2 =np(1-p).
2
n
l
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
-4
-2
0
4
2
-2
-4
4
2
0
-2
-4
9 - 14
28.1.16
4
2
0
1
1\
p = 50%
I
'
-4
0
0
-4
4
2
_/
-1
2
0
-2
2
0
-4
4
2
0
-2
n= 4
/
p = 50%
/:
p = 50%
LJ
Ii
j
4
2
0
...........
,,
p = 50o/o
n= 1
;]
II
0
-1
2
-2
n =1
__"
0
I
p = 50%
___L
I\
-1
~-
p = 50%
n=1
i
n= 4
n=4
I
0
-
0
-2
0
2.
4
6
-2
0
2
4
6
-2
0
2
4
6
-4
-2
0
2
4
-4
-2
0
2
4
-4
-2
0
2
4
.....
r/.I
p = SO%
.,....
~
n == 16
J
p = SO%
+\
+
I
J
-4
-2
JI
f-h
10
5
0
p = 50%
n = 16
'T
\
_j
r
I
~
I
0
I
I
'
'
p == 50%
I
2
0
4
n= 64
/
..-
,..........
0
15
~-
0
5
-4
15
10
-2
n = 16
2
0
.,.i
p= 50%
I
I
l
--
5
0
-4
4
10
-2
2
0
p = 50%
f
t
n = 64
15
4
I"
n = 64
[
l
t
.rI
.1
..r
~
0
15 20 25 30 35
40 45 50
15 20 25 30 35 40 45 5(
15 20 25 30 35 40 45 5(
Abb. 1: Dichte (links) und Verteilungsfunktion F (Mitte, rechts) von X"' B(n,p) bzw.
von der Standardisierung U =(X- p,)ja (obere x-Achse) für p = 0.5 und einige n.
Dünn eingezeichnet ist die Dichte (links) bzw. Verteilungsfunktion der approximierenden Normalverteilung N(f.L, a 2 ) (Mitte) und N(0- ~, a 2 ) (rechts) mit der Stetigkeitskorrektur ~,die in den (relevanten) Sprungstellenk = 0, ... , n von F besser approximiert.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
-2
-4
2
0
4
-4
2
0
-2
1\
I\
n= 1
p = 15%
-4
n= 1
-1
2
0
4
-2
-4
o~~----~----~---
-1
0
2
0
4
-4
p = 15%
-4
-2
-2
2
2
0
4
I
r
2
0
r
p = 15%
5
0
-2
-4
2
0
-4
-2
2
0
2
2
0
I
[
n = 16
5
0
4
-4
4
:
r
n = 16
5
-2
-4
4
J
0
4
4
n= 4
0
p = 15%
I
I
-2
2
0
-2
-4
2
0
p = 15%
I
0
0
-2
n= 4
-2
4
2
n= 1
0
-2
0
-2
p = 15%
o~~-~
=---~--~----
-1
-4
___.,
-
p =1 5%
4
9 - 15
28.1.16
-2
2
0
...
4
...;
t:
n = 64
p = 15%
p = 15%
1
!
5
10
\
r
\
0
F
r
p = 15%
15
20
0
5
n = 64
n = 64
1
10
I
15
20
0
5
10
15
20
Abb. 2: Dichte (links) und Verteilungsfunktion F (Mitte, rechts) von X"' B(n,p) bzw.
von der Standardisierung U =(X- p,)ja (obere x-Achse) für p = 0.15 und einige n.
Dünn eingezeichnet ist die Dichte (links) bzw. Verteilungsfunktion der approximierenden Normalverteilung N(p,, a 2 ) (Mitte) und N(p,- ~, a 2 ) (rechts). Wegen der Schiefe von
B(n,p) ist die Approximation hier schlechter als im symmetrischen Fall in Abb. 1.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 16
9.3.2 Anwendung: Wahlumfragen
Um den Stimmanteil p einer bestimmten Partei zu schätzen, werden bei einer telefonischen Blitzumfrage n = 100 unabhängige Befragungen von Wahlberechtigten
durchgeführt. Die Anzahl X der Befürworter dieser Partei unter den n Befragten ist
dann B(n,p)-verteilt.
Für eine "kleine" Partei (z.B. Die Grünen) mit p = 8% sind die Elementar-Wahrscheinlichkeiten und die kumulierten Wahrscheinlichkeiten in folgender Tabelle zusammengestellt. Die "fehlenden" Werte k > 21 sind uninteressant, weil dort die Elementar-Wahrscheinlichkeiten zu klein sind und sich die kumulierten Wahrscheinlichkeiten im Rahmen der betrachteten Genauigkeit nicht mehr ändern.
k
P X<k}
P X>k}
P{X=k}
0
0,02%
0,23%
1,13%
3,67%
9,03%
17,99%
3032%
44,71%
59,26%
7220%
82,43%
89,72%
94,41%
97,18%
98,67%
99,42%
99,76%
99,91%
99,97%
99,99%
100,00%
100,00 %
99,98%
99,77%
98,87%
96,33%
90,97%
82,01%
69,68%
55,29%
40,74%
27,80%
17,57%
10,28%
5,59%
2,82%
1,33 %
0,58%
0 24%
0,09%
0,03%
0,01%
0,02%
0,21%
0,90%
2,54%
5,36%
8,95%
12,33%
14,40%
14,55%
12,93%
10,24%
7,28%
4,70%
2,76%
1,49%
0,74%
0,34%
0,15%
0,06%
0;02%
0,01%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Hierbei ist:
Histogramm
p, = E(X) = 8 (erwartete Anzahl) ,
2
a = Var(X) = 7,36.
Die Wahrscheinlichkeit, daß in der Umfrage höchstens 5% für die Partei stimmen
(obwohl der wahre Stimmanteil sogar p = 8% ist), ergibt sich aus der Tabelle zu
P{X<5} = 17,99%
(entspricht markierter Fläche im Histogramm).
Die Normal-Approximation mit der Stetigkeitskorrektur stimmt recht gut mit dem
exakten Wert überein und ist ohne Stetigkeitskorrektur deutlich geringer:
P{ X< 5}
P{ X< 5}
~
~
<P( -0,9215)
<P( -1,1058)
17,84%
(mit Stetigkeitskorrektur)
13,44%
(ohne Stetigkeitskorrektur)
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 17
Für eine "große" Partei (z.B. CDU) mit p = 40% sind die Elementar-Wahrscheinlichkeiten zusammen mit den kumulierten Wahrscheinlichkeiten wieder für den interessierenden Bereich in folgender Tabelle zusammengestellt.
k
P {X<k}
P{X>k}
22
23
Opl%
100 ,00 %
99,99 %
99,97 %
99 ,94 %
99,88 %
99,76 %
99,54 %
99,16 %
98 ,5 2 %
97,52 %
96,02 %
93,85 %
90 ,87 %
86,97 %
82 ,05%
76,14 %
69,32 %
61,78 %
53,79 %
45,67 %
37,75 %
30,33 %
23 ,65 %
17,89 %
13,11%
9,30 %
6,38 %
4,23 %
2,71%
1,68 %
1,00 %
0,58 %
0,32 %
0,17 %
0,09 %
0,04 %
0,02 %
0,01%
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
0,03 %
0,06 %
0,12 %
0,24 %
0,46 %
0,84 %
1,48 %
2,48 %
3,98 %
6,1 5 %
9,13 %
13,03 %
17,95 %
23 ,86 %
30,68 %
38,22 %
46,21%
54,33 %
62,25 %
69 ,67 %
76,3 5%
82,11%
86,89 %
90,70 %
93 ,62 %
95 ,77 %
97 ,29 %
98,32 %
99,00 %
99 ,42 %
99 ,68 %
99,83 %
99,91 %
99,96 %
99 ,98 %
99 ,99 %
100,00 %
Hierbei ist:
P{X=kr
0,01%
0,0 1%
0,03 %
0,06 %
0,1 2 %
0,22 %
0,38 %
0,63 %
1 00 %
1,51%
2,17 %
2,97 %
3 91%
4,91%
5,91%
6,82 %
7,54 %
7,99 %
8,1 2 %
7 92 %
7,42 %
6,67 %
5,76 %
4,78 %
3,81 %
2,92 %
2,15 %
1,52 %
1,03%
0,68%
0,42%
0,26%
0,15%
0,08%
0,04%
0,02%
0,01 %
0,01 %
p, = E(X) = 40 ,
Histogramm
1
~
I
I
I
I
I
I
I
I
I
I
I
I
I
~
I
I
I
I
2
a = Var(X) = 24.
Die Wahrscheinlichkeit, daß in der Umfrage mindestens 50% für die Partei stimmen
(obwohl der wahre Stimmanteil nur p = 40% ist), ergibt sich zu:
P{ X> 50}
2,71 %
P{X>50} ~ <P(-1,9392) = 2,62%
(lt. Tabelle entspricht markierter Fläche)
1
(Normal-ApproximationmitKorrektur)
wobei sich ohne Stetigkeitskorrektur ein deutlich zu kleiner Wert ergibt:
P{ X> 50} ~ <P( -2,0412) = 2,06%
(Normal-Approximation ohne Korrektur).
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 18
9.3.3 Die Poisson-Approximation der Binomial-Verteilung
Neben der Normal-Approximation der Binomial-Verteilung - die für hinreichend gro-
ßes n gedacht ist, gibt es noch eine Poisson-Approximation von B(n,p) für extrem kleines p. Zur Formulierung des entsprechenden Grenzwertsatzes betrachten wir eine
Folge B(n,p ) von Verteilungen, deren Erwartungswerte p, = np > 0 konstant sind,
n
n
d.h. es ist p = l f-L·
n n
Poisson-Grenzwertsatz für Binomial-Verteilungen:
Sei p, > 0 und p : = 1.. p, für n > p,. Dann konvergiert die Zähldichte
n
n
(1)
der Binomialverteilung B(n, p ) punktweise gegen die Zähldichte
n
(2)
der Poisson-Verteilung Pois(p,) 1 d.h
(3)
b(kln,p n )
n---+ oo
(4)
P{ B(n,pn) < a}
n---+ oo
(5)
B(n,p n )
n---+ oo
für k = 0, 1, ....
p(klp,)
Folgerung:
L
P { Pois(p,)
< a}
für jedes a E IR
Pois(p,) .
Man beachte, daß nach (4) die Folge der B(n,p ) -Verteilungsfunktionen auch in der
n
Menge W der Unstetigkeitsstellen der Pois(p,)-Verteilungsfunktion noch punktweise
0
konvergiert. -Ergänzend zu (3) gilt folgende wichtige Abschätzung.
Poisson-Approximation von Binomial-Wahrscheinlichkeiten für kleines p
Für beliebige 0 0 und AC W gilt
0
(6)
I P { B(n, p) E A} - P { Pois(p,) E A} I <
Zusatz: Weiter gilt, wobei b(k I n, p) : = 0 für k > n
(7)
2
np.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 19
Für die Praxis ergibt sich somit folgende Approximation der Binomial-Verteilung
(8)
B(n,p) ~ Pois(np)
falls n p 2 klein ist
wobei die Güte der Approximation nach (6) immer besser wird, je kleiner n p 2 ist.
Dieses Resultat dient auch als Rechtfertigung dafür, daß bei einer konkreten Anwendung eine zufällige Anzahl X von Eintritten eines Ziel-Ereignisses in guter Näherung Poisson-verteilt ist, wenn das Ereignis eine sehr geringe Eintrittswahrscheinlichkeit p besitzt. Hierbei müssen n und p nicht unbedingt beide bekannt sein, weil
für die Approximation (8) nur der Erwartungswert np benötigt wird. Wir geben
hierfür drei Beispiele. - Eine andere Rechtfertigung für das Auftreten der PoissonVerteilung haben wir bereits in 6.2.4 kennengelernt.
Leukämiefälle im Umkreis des Kernkraftwerks Krümmel: Die Wahrscheinlichkeit p, daß eine Person einer bestimmten Altergruppe (z.B. Kinder bis 14 Jahre)
an Leukämie erkrankt ist sehr gering (vgl. auch 0.1). Unter der Annahme der Unabhängigkeit der Erkrankung bei n Personen (z.B. aus einer speziellen Region)) ist die
Anzahl X der Erkrankungen unter diesen n Personen B(n,p)-verteilt. Da p sehr gering ist, kann man approximativ auch davon ausgehen, daß X eine Poisson-verteilung mit Erwartungswert 1-L = n p hat
Asbestmessungen in Schulgebäuden: Bei einer in 0.2 beschriebenen Asbestmessung sei n die unbekannte Anzahl von Asbestfasern in dem betreffenden Raum und
p sei die Wahrscheinlichkeit, daß eine einzelne Asbestfaser im auszuwertenden Teil
des Filters "eingefangen" wird. Diese Wahrscheinlichkeit entspricht dem Anteil des
ausgewerteten Volumens V am Raumvolumen und ist sehr gering. Unter der Annahme, daß sich die Fasern zufällig im Raum bewegen und unabhängig voneinander "eingefangen" werden, ist die Anzahl X der bei der Messung "eingefangenen"
Fasern B(n,p)-verteilt. Folglich ist X auch approximativ Pois(f-L) verteilt. mit 1-L = np.
Anzahl von Notrufen: Die Wahrscheinlichkeit p, daß eine einzelne Person einen
Notruf auslöst ist sehr gering. Im Normalfall lösen verschiedene Personen unabhängig voneinander einen Notruf aus (in Ausnahmesituationen - z.B. eine Unwetterkatastrophe - ist dies nicht der Fall). Im Normalfall ist daher die Anzahl X der in einer Notrufzentrale eingehenden Anrufe B(n,p)-verteilt, wobein der Bevölkerung der
Region entspricht. Folglich ist X approximativ Pois(f-L) verteilt. mit 1-L = n p.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9.4*
28.1.16
9 - 20
Grenzwertsatz für Poisson-Verteilungen
Für eine Zufallsvariable X mit Poisson-Verteilung Pois(p,) ist
E(X) = p, = Var(X).
(1)
Für eine Folge (Xn ) nEm
li.T stochastisch unabhängiger Wiederholungen von X ist die
Summe X~) =X + ... +Xn der ersten n Zufallsvariablen wieder Poisson-verteilt
1
cL( X~))
(2)
= Pois(p,n)
p,n = n p, .
mit
Nach dem Zentralen Grenzwertsatz ist die Standardisierung von Pois(p, ) vertein
lungskonvergent gegen die Standard-Normalverteilung
(3)
n---+ oo
N(0,1).
Unter Verwendung der hier nicht behandelten charakteristischen oder Moment-erzeu-
genden Funktionen läßt sich sogar zeigen, daß diese Verteilungskonvergenz nicht nur
für äquidistante Folgen p, = n p, sondern auch für beliebige Folgen p, ---+ oo gilt.
n
n
Poisson-Grenzwertsatz: Für jede Folge 0 < p,
(4)
~ · [ Pois(p, n ) - p, n J
v';L
n
n
---+
n---+ oo
oo gilt
N(0,1) .
Folglich läßt sich die Poisson-Verteilung Pois(p,) für "großes" p, durch eine Normalverteilung approximieren
(5)
mit
2
a =p,.
Hieraus ergeben sich Approximationen von Poisson-Wahrscheinlichkeiten, wobei
man - analog zur Binomial-Verteilung - wieder eine Stetigkeitskorrektur von ~ verwendet.
Normal-Approximation von Poisson-Wahrscheinlichkeiten für großes p,
(6)
P { Pois(p,) < k}
,......,
,......,
<J>(V)
mit
V=
(7)
P { Pois(p,) > l}
,......,
,......,
1-(u)
mit
u = _1_ [ z_l._p,]
yfjJ
2
(8)
P{ l < Pois(p,) < k}
,......,
,......,
( v)- (u)
für
l <kund k, l E W0 .
_l_ [k+l.-p,]
2
yfJ,
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9.5*
9 - 21
28.1.16
Grenzwertsatz für negative Binomial-Verteilungen
Für eine Zufallsvariable X mit geometrischer Verteilung Geo(p) = NB(1,p) ist
1-p
p
2
1-p
a == Var(X) = - 2
p, : = E(X) = -
(1)
p
.
Für eine Folge (Xn ) nEm
li.T stochastisch unabhängiger Wiederholungen von X hat die
Summe X~) =X + ... +Xn der ersten n Zufallsvariablen nach 6.1.4 eine negative
1
Binomialverteilung
mit Erwartungswert und Varianz
-t).
1
Var[NB(n,p)] = na 2 = n( 1
p
E[NB(n,p)] = np, = n( ;P)
(3)
Nach dem Zentralen Grenzwertsatz ist die Standardisierung von NB(n,p) verteilungskonvergent gegen die Standard-Normalverteilung.
Grenzwertsatz für negative Binomialverteilungen: Für 0 < p < 1 gilt
(4)
-
1
-
ayn
·[
NB(n,p)- np, J
n---+ oo
mit p, und a 2 aus (1).
N(0,1)
Folglich läßt sich die negative Binomialverteilung NB(n,p) für "großes" n durch eine
Normalverteilung approximieren
(5)
_ n(1-p)
2 _ n(1-p)
p2 .
p ' an-
mit
I-Ln -
Hieraus ergeben sich Approximationen von negativ-Binomial-Wahrscheinlichkeiten, wobei man - analog zur Binomial-Verteilung - wieder eine Stetigkeitskorrektur
von ~ verwendet.
Approximation von negativ-Binomial-Wahrscheinlichkeiten für großes n
(6)
P{ NB(n,p) < k}
,......,
,......,
(7)
P{ NB(n,p) > l}
,......,
,......,
(8)
P{ l < NB(n,p) < k}
,......,
,......,
mit l,kE W0
,
1-L
n
<J>(V)
mit
v =1- [k+l.-p,]
1-(u)
mit
u=-1 [z-1.-p,
( v)- (u)
für
l<k
2 _
=n(1-p)
p
'
an-
an
an
n(1-p)
p2
.
2
2
n
n
l
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9.6*
28.1.16
9 - 22
Grenzwertsatz für Gamma-Verteilungen
Für eine Zufallsvariable X mit Gamma-Verteilung Gam( a,ß) ist
(1)
p,: = E(X) =aß,
Für eine Folge (Xn ) nEm
li.T stochastisch unabhängiger Wiederholungen von X ist die
Summe X~) =X + ... +Xn der ersten n Zufallsvariablen wieder Gamma-verteilt
1
oi(x~))
(2)
= Gam(na,ß)
Nach dem Zentralen Grenzwertsatz ist die Standardisierung von X~) verteilungskonvergent gegen die Standard-Normalverteilung
~ · [ Gam(a ß)- a ß]
(3)
ßV{x
n'
n
N(0,1)
n---+ oo
n
mit
a n =na.
Unter Verwendung der hier nicht behandelten charakteristischen oder Moment-erzeugenden Funktionen läßt sich sogar zeigen, daß diese Verteilungskonvergenz nicht nur
für äquidistante Folgen a = n a sondern auch für beliebige Folgen a ---+ oo gilt.
n
n
Gamma-Grenzwertsatz: Für jede Folge 0 < a
(4)
-
1
-
ßvr;:_,n
·[
Gam( a
n'
n
ß) - a ß]
n
---+
oo gilt
n---+ oo
N(0,1) .
Folglich läßt sich die Gamma-Verteilung Gam( a, ß) für "großes" a durch eine Normalverteilung approximieren
(5)
mit
1-L
=aß,
Hieraus ergeben sich Approximationen für Gamma-Wahrscheinlichkeiten
Normal-Approximation von Gamma-Wahrscheinlichkeiten für großes a
(6)
P{ Gam(a,ß)
< b}
,......,
,......,
<J>(V)
mit
v=Ja[*-a]
(7)
P{ Gam(a,ß)
> a}
,......,
,......,
1-(u)
mit
u=)a[~-a]
< Gam(a,ß) < b}
,......,
,......,
( v)- (u)
für
O<a<b.
(8)
P{ a
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9. 7
28.1.16
9 - 23
Eigenschaften der Konvergenz nach Verteilung
Wir wollen jetzt noch einige später benötigte Eigenschaften der Konvergenz nach
Verteilung angeben. Hierzu seien X und X
n
für n E W reelle Zufallsvariablen, die
auf einem Wahrscheinlichkeitsraum (f2, d,P) definiert sind. Zunächst überträgt
sich die Verteilungskonvergenz unter stetigen Funktionen
(1)
L
X ---+X
Für stetiges g: IR-----+ IR gilt:
n
g(X ) _L---+ g(X).
n
n---+oo
n---+oo
Insbesondere lassen sich Verteilungskonvergenzen linear umskalieren, d.h. für
a, ß E IR gilt:
L
X ---+X
(2)
n
a
n---+ oo
+ ßXn _L-----+
a + ßX.
n---+oo
Eine weiteres wichtiges Resultat, das hier nicht bewiesen wird, ist:
Theorem {Slutzky): Seien X X , Y reelle Zufallsvariablen auf (f2, d,P) und
n
1
n
a EIR mit
L
X -=-----+
X ,
(3)
n
Y
n---+ oo
p
n
---==-----+ a .
n---+ oo
Dann folgt für jede stetige Funktion g: IR 2 -----+ IR
(4)
g(X , Y )
n
n
L
n---+ oo
g(X,a).
Folgerung:
L
X n+Yn ----+X±a
1
n---+oo
(5)
L
Y n ·Xn ----+a·X.
n---+ oo
Aus dem Theorem folgt als Verallgemeinerung von (2) mit reellen Zufallsvariablen
Y,Z:
n
(6)
n
p
L
X -=-----+
X ,
n
y n ---==-----+
a '
n---+oo
n---+ oo
zn
n---+oo
ßn
n---+oo
p
ß
Y +Z ·X -----=.:L~a+ß·X.
n
n
n
n---+oo
Speziell erhält man für beliebige Folgen a ,ß E IR
n n
(7)
X
X
L
n
n---+ oo
a +ß X
n
n
a
'
n
L
n---+oo
n
n---+oo
a+ßX.
a,
ß
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 24
Die Konvergenz nach Wahrscheinlichkeit gegen ein a E IR ist äquivalent zur Konvergenz nach Verteilung gegen a d.h. gegen die Ein-Punktverteilung Dirac( a):
(8)
X
L
_...::...::....---+
n n---+ oo
a
X
p
n
-----+
n---+oo
a.
Gegenbeispiel: In der Bedingung (VK) kann auf den Zusatz ,,Stetigkeitsstellen"
nicht verzichtet werfen. Aus dem Schwachen Gesetz der Großen Zahlen folgt mit (8)
x(n) ~ Dirac(f-L),
und nach dem Zentralen Grenzwertsatz gilt
p { x(n) < 1-L} = p { u(n) < 0}
n---+ oo
<P(O) = ~ ;= P { Dirac(f-L) < f-L} = 1.
Folglich konvergieren die Verteilungsfunktionen von x(n) im Punkt 1-L nicht gegen
die Verteilungsfunktion der Dirac(f-L)- Verteilung, die dort unstetig ist.
Verteilungskonvergenz vs. Konvergenz nach Wahrscheinlichkeit*
Eine reelle Zahl a E IR kann man auch als eine konstante Zufallsvariable auffassen,
die Dirac( a)-verteilt ist. In diesem Sinn konvergiert eine Folge (Xn ) nEm
li.T reeller Zufallsvariablen gerrau dann nach Verteilung gegen a- d.h. gegen die Dirac(a)-Verteilung
- wenn sie nach Wahrscheinlichkeit gegen a konvergiert:
(18)
X
p
n
-----+
n---+ oo
X
a
L
n
-...::...::....---+
n---+ oo
a.
Es taucht nun die Frage auf, warum wir zwei unterschiedliche Konvergenzbegriffe
eingeführt haben, die sich jetzt als äquivalent herausstellen. Der Grund ist, daß
man die Definition der Konvergenz nach Wahrscheinlichkeit auch noch wie folgt
erweitern, indem man als Grenzwert statt einer Zahl a E IR eine reelle Zufallsvariable X zuläßt
(19)
p
X ---+X
n
:{}
n---+ oo
Für jedes c: > 0 gilt: lim P {IX -X I< c:} = 1.
n---+oo
n
Hierzu müssen allerdings alle X
und X auf demselben Wahrscheinlichkeitsraum
n
(f2, d,P) definiert sein, damit das Ereignis
P{IXn -XI<c:} = P{wEf211Xn(w)-X(w) l<c:}
überhaupt definiert Die so erweiterte Konvergenz nach Wahrscheinlichkeit ist nicht
mehr äquivalent zur Verteilungskonvergenz, sondern sie ist stärker
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
(20)
p
9 - 25
L
X n ---+X.
X ---+X
n
28.1.16
n---+ oo
n---+ oo
Einen Beweis findet man in den Lehrbüchern der Wahrscheinlichkeitstheorie, z. B.
Bauer (2002) und Gänssler-Stute (1977). Wir geben noch ein Gegenbeispiel dafür an,
daß die Umkehrung in (20) im Allgemeinen nicht gilt.
Gegenbeispiel: Für eine Zufallsvariable X,.....__ N(O, 1) definieren wir die alternierende
Folge X == (-1t+l X. Wegen -X '""'"'N(0,1) haben alle X und X dieselbe Vertein
n
lungsfunktion <!>, und somit gilt X
L
X. Andererseits folgt wegen X =-X
n
n---+ oo
2n
für jedes c > 0.
Also konvergiert P { IX n- X I > c} nicht gegen 0, und somit konvergiert X n nicht
nach Wahrscheinlichkeit gegen X. Diese Beispiel verdeutlicht auch, daß die Konvergenz nach Wahrscheinlichkeit von den gemeinsamen Verteilungen L(X ,X) abn
hängt, während die Konvergenz nach Verteilung nur von den einzelnen Verteilungen
L(X ) abhängt- die in diesem Beispiel alle gleich N(0,1) sind ..
n
9.8
Hypergeometrische Verteilungen
Bevor wir eine formale Definition der hypergeometrischen Verteilung geben, wollen
wir eine Anwendungssituation betrachten.
9.8.1
Wahlumfragen
Bei der Behandlung von Wahlumfragen (vgl. 0.3) zur Schätzung des unbekannten
Stimmanteils p einer Partei in einer Region sind wir bisher von folgender Form der
Datenerhebung ausgegangen. Ausgangspunkt ist ein Zufallsexperiment, bei dem
eine wahlberechtigte Person aus der Region zufällig ausgewählt und befragt wird.
Als Ergebnis X interessiert nur, ob die Person die Partei wählen würde (Erfolg:
X= 1) oder nicht (Mißerfolg: X= 0), d.h. X ist eine B(1,p)-verteilte Zufallsvariable.
Eine Umfrage vom Umfang n besteht dann aus unabhängigen Wiederholungen X , ... ,
1
Xn von X und die Anzahl X t =X1 + ... +Xn der Erfolge ist dann B(n,p)-verteilt.
Hierbei ist es möglich, daß die gleiche Person auch mehrmals befragt wird (obwohl
dies keine neue Information liefert). Die Wahrscheinlichkeit für eine solche Mehrfachbefragung einer Person hängt von der Anzahl N aller Wahlberechtigten ab und
ist gering, wenn N groß gegenüber n ist. Trotzdem wollen wir uns jetzt überlegen,
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 26
welche Verteilung die Anzahl Y der Erfolge hat, wenn wir n verschiedene Personen
unter allen N Wahlberechtigten auswählen.
9.8.2 Zufälliges Ziehen mit und ohne Zurücklegen
Zur abstrakten Beschreibung obiger Wahlumfragen betrachten w1r die Menge
I = { 1, ... , N}, die wir suggestiv als "Urne mit N Kugeln" bezeichnen (entsprechend
den Wahlberechtigten). Weiter sei K Cl eine Teilmenge von M = #K "markierten
Kugeln" (die den Wählern der Partei entsprechen). Zur Vermeidung von Trivialitä-
ten sei 0 < M < N und somit gilt für den Anteil markierter Kugeln (der dem Stimmanteil entspricht)
(1)
0<p==#<1.
Das zufällige Ziehen von n Kugeln mit Zurücklegen wird beschrieben durch den Ergebnisraum aller n-Tupel mit Komponenten aus I
und der Gleichverteilung P' auf f2 1
(3)
P'{w'} = #~'
für w' E f2'
mit
Die Anzahl X der markierten Kugeln unter den n gezogenen Kugeln ist dann eine
Zufallsvariable X: f2 1 -----+ { 0, ... , n}, definiert durch
(4)
X( i1, ... , i ) : =
n
# {j = 1, ... , n I i.J E K}
für
Betrachten wir für jedes j = 1, ... , n die Indikatorfunktion X.: f2'-----+ {0, 1} dafür, daß
J
die j-te gezogene Kugel markiert ist, d.h.
(5)
X.(i1, ... ,i)={
J
n
1
0
falls
falls
ij E K
(j-te gezogene Kugel ist markiert)
ij tJ_ K
so läßt sich die Anzahl X als Summe dieser Indikatorfunktionen darstellen
Da alle X , ... ,Xn stochastisch unabhängig und B(1,p)-verteilt sind, folgt
1
(7)
L(X) = B(n,p ).
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 27
Demgegenüber wird das zufällige Ziehen von n Kugeln ohne Zurücklegen modelliert
durch den Ergebnisraum aller n-elementigen Teilmengen von I
(8)
n :=
~
n
(I) : = { A c I I #A = n }
0
mit der Gleichverteilung P auf .f2
(9)
1
für wEil
P{A} = #D
mit
#il = (~)
Die Anzahl Y der markierten Kugeln unter den n gezogenen Kugeln ist dann eine
Zufallsvariable Y: D-----+ {0, ... , n}, definiert durch
(10)
Y(A) : =
# (A n K)
für
AED.
Betrachten wir für jede Kugel i EI die Indikatorfunktion Y.: D-----+ {0,1} dafür, daß
z
diese Kugel gezogen wird, d.h.
(11)
Y;(A) = {
~
falls
falls
(Kugel i wird gezogen)
iEA
i \tA
so läßt sich die Anzahl Y als Summe solcher Indikatorfunktionen darstellen
Die Indikatoren Y , ... , Y N sind zwar identisch Bernoulli-verteilt
1
(13)
für i EI,
aber nicht stochastisch unabhängig, weil
n(n- 1) < E(Yi)·E(Yz)
N(N-1)
(14)
n(N- n)
Cov(Yi' Yz) = - N2(N -1)
< 0
für i ;= j,
für i ;= j.
Folglich ist die Verteilung von Y nicht die Faltung der Verteilungen aller Y. mit i E K.
z
Allerdings läßt sich die Verteilung von Y mit kombinatorischen Argumenten leicht
ermitteln. Da eine Ziehung A E .f2 höchstens M markierte und höchstens N-M
nicht-markierte Kugeln enthalten kann, hat die Zufallsvariable Y den Träger
(15)
T = { mE{O, ... ,n} I n-(N-M) < m <M}.
FürmET ergibt sich dann
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
(16)
28.1.16
9 - 28
(~)(~=;;n
P{Y=m}
(~)
Die Darstellung (16) gilt sogar für beliebige m = 0, ... , n (d.h. auch für m \t T), wenn
man den Binomialkoeffizienten unter Verwendung absteigender Produkte
k-1
(17)
TI
(a)k: = a · ( a-1) · ... · (a- (k-1))
(a-l)
für a E IR, k E W
l=O
(a) 0 == 1
wie folgt definiert
(~) ==
(18)
k-1
TI
(n)k
n-l
l=O k-l
k!
für k, nE W0 .
Dann gilt
(19)
(~)=o,
k>n
und somit ist die rechte Seite von (16) für m = 0, ... , n mit m \t T auch stets Null.
Die Verteilung L(Y) ist eine hypergeometrische Verteilung, die im nächsten Abschnitt
formal definiert und weiter untersucht wird.
9.8.3
Definition und Eigenschaften der hypergeometrischen
Verteilung
Die hypergeometrische Verteilung H( n, M, N) mit den Parametern
(1)
wobei
n,M,NE W
n<N,
M<N
ist auf dem Träger
(2)
T = T n MN:= { m E {0, ... , n} I n- (N-M)
< m < M}
' '
definiert durch die Zähl-Dichte
(3)
P{m}
h(m I n,M,N): =
(~)(~=~)
(~)
für mE T
Erwartungswert und Varianz dieser Verteilung ergeben sich zu
(4)
E{ H(n,M,N)}
= np
mit
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
(5)
Var{H(n,M,N)} = np(1-p)
28.1.16
9 - 29
-~::::~.
Man beachte, daß der Erwartungswert mit dem B(n,p)-Verteilung übereinstimmt,
aber die Varianz im Fall n > 1 geringer als die Binomial-Varianz n p (1- p) ist.
Beispiel: Zahlenlotto "6 aus
49"
Für einen festen Tip eines Spielers, d.h. eine Markierung von M = 6 Zahlen aus
{1, ... , 49}, hat die Anzahl Y der "Richtigen (ohne Zusatzzahl)" bei der nächsten Ziehung von n = 6 aus N = 49 eine H(n,M,N)- Verteilung. Die zugehörigen Wahrscheinlichkeiten sind in Tab. 1 angegeben. Und die erwartetet Anzahl von Richtigen ist
E(Y) = 36/49 ~ 0,73.
m
0
1
2
3
P{Y=m}
43,6%
41,3%
13,2%
1,77%
4
5
6
0,0969% 18,4·10-6 71,5·10- 9
Tab. 1: Gerundete Wahrscheinlichkeiten für Y mit H(6, 6, 49)-Verteilung.
9.8.4 Anwendungen und Schätzungen
Bei konkreten Anwendungen der hypergeometrischen Verteilung H(n,M,N) ist typischerweise einer der beiden Anzahlen M oder N und somit auch der Quotient p = ~
unbekannt. Wir geben hierfür einige Beispiele.
Wahlumfrage: Bei der in 9.8.1 beschriebenen Wahlumfrage unter n verschiedenen
Wahlberechtigten ist die Anzahl Y der Voten für diese Partei H(n,M,N)-verteilt,
wobei die Anzahl N der Wahlberechtigten bekannt ist, aber die Anzahl M der Wähler dieser Partei bzw. der Stimmanteil p = ~ ist unbekannt.
Qualitätskontrolle: Bei einem maschinell gefertigten Artikel (z.B. eine Glühbirne)
soll untersucht werden, wie groß die Anzahl M der defekten Artikel unter den insgesamt N gefertigten Artikeln einer Tagesproduktion ist. Hierzu werden zufällig n Artikel ausgewählt und auf Defekte kontrolliert. Die Anzahl Y der bei der Kontrolle
entdeckten defekten Artikel hat dann eine H( n, M, N)- Verteilung. Hier ist N bekannt,
aber M unbekannt.
Umfang einer Population: Für eine räumlich abgegrenzte Population (z.B. eine
Spezies von Fischen in einem See) soll die unbekannte Anzahl N ihrer Individuen ge-
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 30
schätzt werden. Hierzu werden zunächst eine Anzahl M von Individuen gefangen
um sie zu markieren. Dann werden die markierten Individuuen wieder ausgesetzt.
Nach geraumer Zeit werden erneut n Individuen gefangen. Wenn hierbei jedes Individuum die gleiche Chance hat gefangen (bzw. nicht gefangen) zu werden, so hat die
Anzahl Y der markierten unter den gefangenen n Individuen eine H(n,M,N)-Verteilung, wobei M bekannt, aber N unbekannt ist.
Wenn Y eine Zufallsvariable mit H(n,M,N)-Verteilung ist und einer der beiden Anzahlen M oder N unbekannt ist, so genügt es, den Quotienten p =
Wzu schätzen, weil
sich hieraus auch eine Schätzung der jeweils unbekannten Anzahl M oder N ergibt.
Ein naheliegender Schätzer für p ist
p(Y) == ~ y'
(1)
was im Urnenmodell der relativen Häufigkeit der markierten unter allen gezogenen
Kugeln entspricht. Der Schätzer ist erwartungstreu
(2)
E(p (Y))
= p
und hat die Varianz
(3)
Var(ß(Y)) =
~-p(1-p)·~=~.
Für bekanntes N und unbekanntes M =Np ist dann N p(Y) ein Schätzer für M. Und
für bekanntesMundunbekanntes N =M p-l ist M p(Y)-1ein Schätzer für N.
9.8.5
Binamial-Approximation der hypergeometrischen
Verteilung
An Hand der in 9.8.2 betrachteten Ziehungen aus einer Urne mit und ohne Zurücklegen ist klar, daß bei gleichem Anteil p =
Wmarkierter Kugeln der Einfluß des Zu-
rücklegens immer geringer wird, je größer der Umfang N der Urne im Vergleich zu
der Anzahl n gezogener Kugeln ist. Bevor wir einen entsprechenden Grenzwertsatz
formulieren, geben wir eine Abschätzung der hypergeometrischen Wahrscheinlichkeiten durch Binomial-Wahrscheinlichkeiten. Für m E T MN gilt
n,
(1)
cN(m) · b(m I n,p)
<
h(m I n,M,N)
<
'
dN· b(m I n,p)
mit
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
m Jm [
n-m ]n-m
cN(m) : = [ 1- M
. 1- N-M
(2)
28.1.16
9 - 31
< 1,
> 1.
(3)
Nach diesen Vorbereitungen ergibt sich der folgende Grenzwertsatz.
Hypergeometrischer Grenzwertsatz: Sei (MNE W)N> 2 eine Folge mit
O<MN<Nund
M
p __ _]j
N·- N N---+ oo
(4)
pE(0,1).
Dann gilt für festes n E W
h(m I n,MN,N) N---+ oo
(5)
b(m I n,p)
für m = 0, ... , n.
P{ B(n,p) EA}
für AC {0, ... , n},
Folgerung:
(6)
P{ H(n,MN'N) EA} N ---+oo
(7)
L
H(n,MN,N) N ---+oo
B(n,p) .
Hieraus ergibt sich für großes N (im Vergleich zu n) eine Approximation der hypergeometrischen Verteilung H(n,M,N) durch die Binomialverteilung B(n,~)
(8)
9.8.6
H(n,M,N) ~ B(n,~)
für N ~ n.
Die multivariate hypergeometrische Verteilung
Ähnlich wie sich die Binomialverteilung durch die Multinomialverteilung verallgemeinern läßt, gibt es auch zur hypergeometrischen Verteilung eine allgemeinere
multivariate Version. Zur Einführung dieser multivariaten hypergeometrischen Verteilung gehen wir wieder vom Ziehen ohne Zurücklegen bei einem geeigneten Urenmodell aus, welches zunächst an zwei Anwendungsbeispiele erläutert wird.
Wahlumfragen: Wir betrachten wieder eine Wahlumfrage, bei der aus allen N
Wahlberechtigten n verschiedene Personen zufällig ausgewählt werden. Allerdings
interessieren wir uns jetzt nicht nur für den Stimmanteil einer Partei, sondern für
die Stimmanteile aller zugelassenen Parteien. Wir codieren die K> 2 Parteien durch
die Zahlen k = 1, ... , K (z.B. in der Reihenfolge, wie sie auf dem Stimmzettel erscheinen) und bezeichnen die zugehörigen Stimmanteile mit pl' ... , pK Hierbei soll
p
1
+ ... + pK = 1 gelten,
was man z.B. durch Einführung einer Partei ,,Sonstige" stets
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 32
erreichen kann. Die Anzahl Xk der Stimmen in der Umfrage für eine einzelne Partei
k ist dann hypergeometrisch verteilt (vgl. 9.8.1-3), aber was ist die gemeinsame Ver-
teilung aller K Anzahlen X , ... , XK?
1
Kartenspiele: Bei vielen Kartenspielen ist es von Interesse, mit welche Wahrscheinlichkeit ein Spieler eine vorgegebene Anzahl verschiedener Spielkarten erhält. Als konkretes Beispiel betrachten wir ein Skatspiel mit N = 32 Karten, bestehend aus den vier Farben Kreuz) Pik) Herz, Karo, die sich jeweils aus den acht Werten 0 81 91 101 Bube1 Dame1 König 1 As zusammensetzen. Nachdem die Karten gut gemischt wurden, erhält jeder der drei Spieler 10 Karten und die restlichen zwei Karten bilden den Skat. Wir gehen hier davon aus, daß durch das Mischen jede mögliche Kartenverteilung gleichwahrscheinlich ist. Für einen Spieler, der gerne einen
Grand spielen möchte ist wichtig, wieviel der jeweils vier Buben, Asse und Zehnen er
erhält. Bezeichnen X B' X A' X 10 die Anzahl von Buben1 Assen1 Zehnen und X R die Anzahlen der restliche Karten dieses Spielers, so sind diese Anzahlen X B' X A' X 10 und
X R jeweils H(lO,M, 32)-verteilt mit M = 4 bei Buben, Assen, Zehnen und M = 20 beim
Rest. Von Interesse ist die gemeinsame Verteilung aller vier Anzahlen X B' X A' X ,
10
X R' also z.B. die Wahrscheinlichkeit P {XB= 2, X A = 3, X 10 = 3, X R = 2}.
Urnenmodell mit K Markierungen: Ziehen ohne Zurücklegen
Zur Formalisierung obiger Beispiele betrachten wir (wie in 9.8.2) eme Menge
I= { 1, ... , N} ("Urne mit N Kugeln"), die den Wahlberechtigten bzw. Spielkarten ent-
sprechen. Weiter sei eine disjunkte Zerlegung der Menge I gegeben durch
(1)
mit
für alle k.
Die Elemente von Ik heißen suggestiv ,,Kugeln vom Typ k" und man sich die Zerlegung so vorstellen, dass jede Kugeln mit ihrem Typ "markiert 11 ist, d.h. jede Kugel
trägt gerrau eine der Typen-Nummern k = 1, ... , K. Bei der Wahlumfrage entsprechen
die Markierungen den zugelasenen Parteien und beim Skatspiel sind es die K = 4
verschiedenen Kartenwerte (Buben, Asse, Zehnen, Rest).
Ist Mk: =
(2)
# Ik die Anzahl der Kugeln vom Typ k, so gilt
mit
für alle k.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 33
Das zufällige Ziehen von n Kugeln ohne Zurücklegen wird (wie m 9.8.2) modelliert
durch den Ergebnisraum aller n-elementigen Teilmengen von I
(3)
n :=
~
n
(I) : = { A c I I #A = n }
0
mit der Gleichverteilung P auf .f2
(4)
1
für wEil
P{w} = #D
mit
#il = (~)
Die Anzahl Xk der gezogenen Kugeln vom Typ k ist dann eme Zufallsvariable
Xk: D-----+ {0, ... , n}, definiert durch
(5)
für
AED.
Die Verteilung jedes einzelnen Xk ist nach 9.8.2-3 (angewandt auf Typ k als eine
,,Markierung") hypergeometrisch
(6)
für jedes k
Wir wollen jetzt die gemeinsame Verteilung aller Anzahlen X , ... , XK bestimmen,
1
d.h. die Verteilung des Zufallsvektors X= (X , ... , XK). Dies erfordert eine zusätzliche
1
Überlegung, weil die Komponenten von X nicht stochastisch unabhängig sind, sie
erfüllen sogar eine lineare Beziehung:
Der Zufallsvektor X hat den Träger
und die Zähldichte ist dort gegeben durch
K
(9)
P{X=x}
kgl (~;)
(~)
für x E T.
Die Verteilung L(X) ist eine multivariate hypergeometrische Verteilung, die im Anschluss formal definiert und weiter untersucht wird.
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
28.1.16
9 - 34
Definition der multivariaten hypergeometrischen Verteilung
Für die Parametern, N, K E W mit n < N und K> 2 sowie
(10)
mit
M
+
=N
ist die multivariate (oder K-dimensionale) hypergeometrische Verteilung HK( n, M, N)
auf dem Träger (zur Notation vgl. 4.5.1 (4))
(11)
T=Tn,M,N:= {x=(x1, ... ,xK)EW~Ix+=n,x<M}
definiert durch die Zähl-Dichte
K
TI (Mk)
(12)
P{x}
k-1
Xk
hK(xln,M,N) == - - - -
für x E T.
(~)
Zu den Parametern der Verteilung HK(n, M,N) gibt es auch stets ein Urne mit N
Kugeln von denen jeweils gerrau
Mk
vom Typ k sind. Der oben betrachtete K-di-
mensionale Zufallsvektor X= (X , ... ,XK) beim Ziehen von n Kugeln (ohne Zurük1
klegen) hat daher nach (9) die Verteilung HK(n, M,N). Zur Untersuchung dieser
Verteilung genügt es daher, die Eigenschaften der Verteilung dieses speziellen Vektors X zu studieren mit
(13)
L(X) = HK(n, M,N).
Jede Komponente Xk von X ist (univariat) hypergeometrisch verteilt
Der Erwartungswert und die Varianz von Xk ergeben sich daher zu
(15)
(16)
mit
M
pk = Nk
N-n
)
npk (1-pk·N-1"
Die Covarianz und Korrelationzweier Komponenten Xk und Xl sind gegeben durch
n(N-n)PkPl
(17)
(18)
(N-1)
Corr(X X ) = k' z
J
Pk Pl
(1-pk)(1-pz)
und somit sind X k und Xl auch nicht stochastisch unabhängig.
< 0
für k :;= l,
für k :;= l,
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
9 - 35
28.1.16
Wegen der linearen Beziehung
(19)
P{X =n}=1
+
bzw.
ist die letzte Komponente XK durch die restlichen Komponenten von X (mit Wahrscheinlichkeit 1) bestimmt.
Speziell für K = 2 ist die jeweils zweite Komponente von M = (M ,M ) bzw.
1
2
X= (X1,X2 ) durch die erste bestimmt
(20)
für K= 2.
1
Folglich ist X= (X ,X ) mit einer bivariaten hypergeometrischen Verteilung
1
2
H2(n, (M1,M2),N) bereits eindeutig bestimmt durch seine erste Komponante X 1 mit
univariater hypergeometrischen Verteilung
H( n, M1, N).
In diesem Sinn entspricht
die bivariate hypergeometrische Verteilung einer univariaten hypergeometrischen
Verteilung (was man sich auch leicht an Hand der zugehörigen Urnenmodelle klar
machen kann).
Multinomial-Approximation der multivariaten hypergeometrischen
Verteilung*
Analog zur Binamial-Approximation (in 9.8.5) der univariaten hypergeometrischen
Verteilung läßt sich die multivariate hypergeometrische Verteilung HK(n, M,N) für
N
~
n durch eine
Multinomial-Verteilung MK(n, p)
approximieren, wobei
p = (p , ... , pK) mit
1
(21)
Anteil der Kugeln vom Typ k = 1, ... , K.
Der Grund hierfür ist, daß es beim Ziehen von n Kugeln bei großem N (gegenüber n)
keine entscheidende Rolle mehr spielt, ob die einzelne Kugeln nach dem Ziehen
wieder zurückgelegt werden oder nicht. Bevor wir einen entsprechenden Grenzwertsatz formulieren, geben wir eine Abschätzung der multivariaten hypergeometrischen Wahrscheinlichkeiten durch die zugehörigen Multinomial-Wahrscheinlichkeiten (vgl. 4.6.1)
K
1
X
n!fl-,·pk
(22)
k=l xk.
k
Für x E T M N gilt dann die Abschätzung
n,
'
für XE T n = {
X
E w~
I X+= n }
0
Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz
(23)
2801.16
9 - 36
cN(x) omultiK(xln,p) < hK(xln,M,N) < dNO multiK(xln,p)
K
(24)
x
TI [ 1- ~
cN(x) : =
k=l
(25)
dN:=
xk
J
mit
< 1,
k
[1-N J-n
> 10
Nach diesen Vorbereitungen ergibt sich der folgende Grenzwertsatz
Multivariater hypergeometrischer Grenzwertsatz:
MNK) E WK für n > 2 eine Folge mit
Sei MN= (MNl'
000,
(26)
0 <MNk <N für alle k,
(27)
p
M
0- __l:f_js,
NkoN
N ---+oo
M =N
+
pkE(0,1)
für alle k,
und
wobei p+ = 1.
Dann gilt für festes n E W
hK(x In, MN,N) N---+ oo
(28)
multiK( x In, p)
für xE T n 0
P { MK( n, p) E A}
für Ac T n 0
Folgerung:
(29)
P{ HK(n,MN,N) EA} N ---+oo
Hieraus ergibt sich für großes N (im Vergleich zu n) folgende Approximation der
multivariaten hypergeometrischen Verteilung HK(n, M,N) durch die Multinomialverteilung MK(n, p) mit p
(30)
=1M
für
N~
no
Konfidenzgrenzen für den Erwartungswert
10.
10-1
15.1.16
Konfidenzgrenzen für den Erwartungswert
Ausgehend von einer Stichprobe X= (X , ... ,Xn) mit n unabhängigen Wiederholun1
gen der Zufallsvariablen X mit Erwartungswert p, = E(X) haben wir in 8.1 einen
sogenannten Punkt-Schätzer für p,, d.h. einen zufälligen reellen Punkt 4(X) =X, konstruiert. Wir wollen jetzt zusätzlich einen Intervall-Schätzer angeben, d.h. ein zufälliges reelles (offenes) Intervall I(X) =
40 (X)
(4 u (X), 40 (X)),
wobei
4u (X)
eine untere und
eine obere Konfidenzgrenze (oder Vertrauensgrenze) für den Erwartungswert p,
genannt wird. Hierbei soll die untere Grenze
4u(X)
mit einer hoher Sicherheit unter-
halb des Erwartungswertes p, liegen1 d.h. die Wahrscheinlichkeit
(1)
P{
4u(X) < 1-L }
(Sicherheit der unteren Grenze)
soll möglichst groß sein bzw. die komplementäre Wahrscheinlichkeit
(2)
(Irrtumswahrscheinlichkeit der unteren Grenze)
soll möglichst klein sein. Bei der Interpretation der Sicherheit der unteren Grenze
ist zu beachten, daß es sich hier um eine Wahrscheinlichkeit handelt, die sich darauf
bezieht, daß man die Schätzung der Grenze prinzipiell als wiederholbar ansieht.
Schätzt man aus sehr vielen voneinander unabhängigen Stichproben (jeweils vom
Umfang n) die untere Konfidenzgrenze, so entpricht der Anteil aller Schätzungen, bei
denen die unteren Grenze unterhalb von p, liegt, ungefähr der Sicherheit (Häufigkeitsinterpretation der Sicherheit).
Analog soll die obere Grenze
40 (X)
mit einer hoher Sicherheit oberhalb von p, liegen1
d.h. die Wahrscheinlichkeit
(3)
P { 1-L < 40 (X) }
(Sicherheit der oberen Grenze)
soll möglichst groß bzw. die komplementäre Wahrscheinlichkeit
(4)
(Irrtumswahrscheinlichkeit der oberen Grenze)
soll möglichst klein sein.
Wenn sinnvollerweise
4u(X) < 40 (X)
(4u(X), 40 (X)) den Erwartungswert
ist, dann verfehlt das offene Konfidenzintervall
p, mit der Wahrscheinlichkeit
Konfidenzgrenzen für den Erwartungswert
10-2
15.1.16
d.h. die Irrtumswahrscheinlichkeit des Intervalls (4u(X) , 40 (X)) ist die Summe der
Irrtumswahrscheinlichkeiten für die untere und die obere Grenze.
Bei der Konstruktion solcher Konfidenzgrenzen muß man dem Zusammenhang
von Sicherheit einerseits und Informationsgehalt andererseits Rechnung tragen. Je
größer die untere Grenze
1-L
4u(X)
ist, desto höher ist auch ihr Informationsgehalt über
(weil sie 1-L nach unten abschätzt), aber desto geringer ist auch ihre Sicherheit. Zum
Beispiel hat im Extremfall die untere Grenze
4u(X) =- oo
zwar die maximale Si-
cherheit von 1, aber sie enthält keinerlei Information über 1-L·
Für die Konstruktion der unteren Grenze gibt man sich daher eine maximale Irrtumswahrscheinlichkeit a bzw. eine minimale Sicherheit 1- a vor, und sucht dann
eine möglichst informative (d.h. große) zugehörige untere Grenze
4u,a (X), die
diese
Sicherheit approximativ oder sogar exakt einhält. Als Standard wird typischerweise
der Wert a = 5% verwendet, aber -je nach Anwendungssitiation - kann und sollte
man auch kleinere Werte (z.B. a = 1%) oder gelegentlich auch größere Werte (z.B.
a = 10%) zulassen. Für die theoretischen Ausführungen kann prinzipiell jeder Wert
0<a
< 1 verwendet werden, wobei lediglich gelten sollte
(6)
0<a
bzw.
< 1-a < 1,
damit - entsprechend der Intention - die Sicherheit 1- a auch echt größer ist als die
Irrtumswahrscheinlichkeit a. Wir wollen die zusätzliche Bedingung (6) im folgenden
generell voraussetzen, obwohl einige Resultate auch für beliebiges 0 < a
< 1 gelten.
Analog sucht man bei der Konstruktion der oberen Grenze für vorgegebenes a eine
möglichst informative (d.h. kleine) zugehörige obere Grenze
4o, Ct (X),
die diese Si-
cherheit approximativ oder sogar exakt einhält.
Hat man die untere und obere Grenze bereits konstruiert, so ergibt sich die Irrtumswahrscheinlichkeit des Intervalls ( 4
u,a
(X) , 4
o,a
(X) ) nach (5) - approximativ
oder exakt - zu 2 a. Konstruiert man die Grenzen unter Verwendung von ~ statt a,
so hat das zugehörige Intervall
(7)
I (X) = (
Ct
4~20 (X) , 4~20 (X) )
die Irrtumswahrscheinlichkeit a und somit die Sicherheit 1- a.
Eine untere Grenze ist in der Praxis z.B. dann wichtig, wenn X eine Lebensdauer
(etwa eines technischen Produktes) ist, und man die zu erwartende Lebensdauer
Konfidenzgrenzen für den Erwartungswert
15.1.16
10-3
zuverlässig nach unten abschätzen will. Ist X dagegen eine Schadstoffbelastung
(z.B. in einem Nahrungsmittel), so wird man primär an einer oberen Grenze der erwarteten Belastung interessiert sein. Wenn X ein Wirkstoff (z.B. eines Medikaments) ist, so interessiert man sich typischerweise sowohl für eine untere als auch
für eine obere Grenze, um den zu erwartenden Wirkstoffgehalt nach beiden Seiten
einzugrenzen und somit eine Unter- oder Überdosierung zu erkennen.
10.1* Exakte Konfidenzgrenzen für den Erwartungswert einer
Normal-Verteilung mit bekannter Varianz
Aus didaktischen Gründen behandeln wir zunächst den Fall, daß die Zufallsvariable X (und ihre unabhängigen Wiederholungen X , ... , Xn) normalverteilt ist, d.h.
1
Zusätzlich betrachten wir den (in der Praxis eher untypischen) Fall, daß die Varianz a 2 bekannt ist. Der Fall mit unbekannter Varianz und normalverteiltem X wird in
10.3 und der allgemeine Fall mit beliebiger Verteilung von X wird in 10.2 behandelt.
Wir beginnen mit der Konstruktion einer unteren Konfidenzgrenze für den Erwartungswert p,. Ausgehend von der Schätzung P,(X) = X setzen wir die untere Grenze
zunächst von der Form an
(2)
4u(X)
=
X-d
P,(X) - d
'
wobei sich die Abweichung d vom Mittelwert X wie folgt aus der vorgegebenen Irrtumswahrscheinlichkeit a ergeben wird. Die Grundlage hierfür ist die Normalverteilung des Mittelwerts X (vgl. 8.2.3)
(3)
L(X) = N(p,, a 2 (X) )
(4)
a(X) =
Jv ar(X)
mit
= _l_ a
yn
d.h. der standardisierte Mittelwert
(5)
X-p,
U·---=--
·- a(X)
hat eine Standard-Normalverteilung
(6)
L(U) = N(O, 1).
(Standardabweichung von X).
Konfidenzgrenzen für den Erwartungswert
10-4
15.1.16
Mit der Verteilungsfunktion P von N(O,l) ergibt sich hieraus die Irrtumswahrscheinlichkeit der unteren Grenze aus (2) zu
P { fL < 4u (X) } = P {
(7)
tt
{ d
p
a(X)
< X-d }
<
}
u
PL(~}.
1-PL,(~}
Abb. 1: Dichte von X mit oberem a-Quantil (Strich).
Der Abstand des Quantils von tt ist die Bandbreite d
a
Darunter ist für verschiedene Realisierungen x von
4u,a = x- da als Klammer [
dargestellt. Die Grenze 4
liegt gerrau dann
u,a
X die untere Grenze
oberhalb von ft 1 wenn der Mittelwert x im oberen
a-Bereich (d.h. oberhalb des a-Qunatils) liegt.
da
-X
Die Irrtumswahrscheinlichkeit (7) nimmt gerrau dann den vorgegeben Wert a an,
wenn die Bandbreite wie folgt gewählt wird
(8)
dQ
zQ · a(X)
z · -1 a
ayn
wobei z das sogenannte obere a-Quantil der Standard-Normalverteilung ist (vgl. Ana
hangT), d.h.
(9)
bzw.
0
Za
N(O, 1)-Dichte mit a-Quantil
Konfidenzgrenzen für den Erwartungswert
10-5
15.1.16
Mit dieser Bandbreite erhält man die untere Konfidenzgrenze für 0
(10)
4(X)- dCt
X-d
(untere Grenze)
Ct
mit der Sicherheit
(11)
P { 4u,a (X)
< 0}
= 1- a
Und analog ergibt sich als obere Konfidenzgrenze für 0
(12)
4(X)
+ dCt
X+d Ct
(obere Grenze)
mit der Sicherheit
(13)
P{ 0
< 4o,a (X)}
= 1- a
Aus der unteren und oberen Grenze zum halben Niveau ~ ergibt sich dann das um
den Punkt-Schätzer 4(X) = X symmetrische zweiseitige Konfidenzintervall für 0
(14)
(X- d0
,
X
+ d0
2
(15)
da
2
=
1
Za · . ;;;,
2 yn
mit
)
2
a .
zur Sicherheit 1- a, d.h.
(16)
P { 0 EI (X) } = 1 - a
Ct
Für das in der Praxis routinemäßig verwendete Niveau a = 5% bzw. die Sicherheit
1- a = 95% ergeben sich:
z~ = z 2_5 % = 1.960
za = z5 % = 1.645,
d.h. in diesem Fall ist die Bandbreite d0 rund die zweifache Standardabweichung
2
des Schätzers X . Für andere Werte von a läßt sich das Quantil z
Ct
(vgl. Anhang T) ablesen oder mit geeigneten Programmen bestimmen.
aus Tabellen
Konfidenzgrenzen für den Erwartungswert
10-6
1501.16
Wir wollen noch eine andere Interpretation der Konfidenzgrenzen angeben und
betrachten hierzu für eine Realisierung x = (x , 000, xn) von X die Verteilungsfunk1
tion des Mittelwerts X an der Stelle des beobachten Mittelwerts x
(17)
_
_ _
{ x- p,}
{
F(xlp,) ==P{X<xlp,} =----=- =
a(X)
Da eine streng wachsende Funktion ist, ist
Grenze (t
(18)
fo(x- J-L)
o, 0:
}
a
.
F(x IJ-L) streng fallend in p,o Die obere
(x) läßt sich daher auch charakterisieren durch
F(xlft o,o: (x))== P{X<xlfto,o:(x)} =
bzwo
a
Max {p, E lR I F(x IJ-L) > a}
(19)
Max{ttElR IP{X<xltt}>a}
Damit ist obere Grenze (t
o, 0:
0
(x) das Maximium aller möglichen Werte p,, die mit der
Beobachtung x in dem Sinn noch "verträglich" sind, daß die Wahrscheinlichkeit
P{X <x 11-L} für x oder kleinerer Werte noch mindestens a ist (vgl. Abbo 2)0
Für eine analoge Interpretation der unteren Konfidenzgrenze betrachten wir die
"obere" Verteilungsfunktion des Mittelwerts X an der Stelle der Beobachtung x
(20)
-
G(x IJ-L) == P{X>x IJ-L} = 
{1-L - x }
---=-
a(X)
= 
{ fo(p, - x) } =
a
Da G(x IJ-L) streng wachsend in p, ist, läßt sich die untere Grenze (t
u,o:
1- F(x IJ-L)
0
(x) charakteri-
sierendurch
(21)
(22)
G( x I (t u,o: (x)) : =
P {X> x I (t u,o: (x) } = a
bzwo
Min { p, E lR I G(x 11-L) > a}
Min { 0 E lR I P {X> x ltt} > a}
Also ist untere Grenze (t
u,o:
0
(x) das Minimum aller möglichen Werte p,, die mit der Be-
obachtung x in dem Sinn noch "verträglich" sind, daß die Wahrscheinlichkeit
P {X> x 11-L} für x oder größerer Werte noch mindestens a ist (vgl. Abbo 2)
Konfidenzgrenzen für den Erwartungswert
Pu a
'
x
10-7
15.1.16
x
Po a
1
I
I
Abb 2: Normalverteilungsdichte des Mittelwerts X für verschiedene Werte von 1-L zur
Interpretation der unteren bzw. oberen Grenze nach (21) (22) bzw. (18) (19).
links: Die markierte Fläche entspricht der Wahrscheinlichkeit G(x 11-L) und die
untere Grenze p
ist das Minimum aller Werte f-L, bei dem diese Fläche noch
u,a
mindestens a ist.
rechts: Die markierte Fläche entspricht der Wahrscheinlichkeit F(x 11-L) und die
obere Grenze p ist das Maximum aller Werte f-L, bei dem diese Fläche noch mino, 0'
destens a ist.
10.2* Asymptotische Konfidenzgrenzen für den Erwartungswert
einer beliebigen Verteilung
Wir betrachten jetzt wieder den allgemeinen Fall mit beliebiger Verteilung von X.
Hierbei gehen wir davon aus, daß die Varianz a 2 = Var(X)
< oo
unbekannt ist und
deshalb geschätzt wird durch (vgl. 8.3.2)
n
a2(X) = _l_l
(1)
n-
2:= (X.-X)2,
z
i=l
wobei natürlich n > 1 vorausgesetzt ist. Die zugehörige Schätzung der Standardab-
weichung a(X) des Mittelwerts ist dann
a(X) =
(2)
_1_ a(X)
yn
(geschätzte Standardabweichung von X).
Ersetzt man in 10.1 einfach die Standardabweichung durch ihre Schätzung so erhält man die (geschätzte) Bandbreite
(3)
d0'
z . a(X) = z . _1_ a(X)
0'
sowie die zugehörigen Grenzen
0'
yn
Konfidenzgrenzen für den Erwartungswert
(4)
(tu a(X)
(t(X)-
'
(5)
(t o a(X)
(t(X)
'
X-d
dCt
10-8
15.1.16
(untere Grenze)
Ct
+ dCt
(obere Grenze)
Diese Grenzen halten die vorgegebene Sicherheit 1- a zwar nicht exakt, aber - wie
wir im folgenden zeigen werden - zumindest approximativ ein, wobei die Approximation für wachsenden Stichprobenumfang n beliebig gerrau wird. Der Grund hierfür ist einerseits, daß der standardisierte Mittelwert
(6)
u :=
X-p,
-----,=--
a(X)
a
nach dem Zentralen Grenzwertsatz approximativ standard-normalverteilt ist
(7)
L(U)
~
N(O, 1).
Gerrauer gilt, wobei wir den Umfang n- wie in Kapitel 8 -als Index "(n)" mitführen
N(0,1).
(8)
Andererseits kann die geschätze Standardabweichung als Approximation der unbekannten Standardabweichung verwendet werden
(9)
a(X)
~ a
weil die Schätzung nach 9.1.2 konsistent ist
(10)
a.
Zusammen mit (8) ergibt sich - unter Verwendung des Theorems von Slutzky aus
9.7- die Verteilungskonvergenz
vn (x(n) -p,)
(11)
---.,.(----'L:...::...._____)--+
n--+oo
a(x(n))
Für die Sicherheit der unteren Grenze
(12)
P { (t u,a (X) < p, } = P { X- da
< p, }
~(;)'
< z" }
= p{
ergibt sich daher
N(O, 1).
Konfidenzgrenzen für den Erwartungswert
(13)
P{(t
u, a
(x(n))<~t}
n---+ oo
10-9
15.1.16
1-a,
und für die obere Grenze erhält man analog
(14)
Man interpretiert (13) bzw. (14) dahingehend, daß die untere bzw. obere Grenze die
asymptotische Sicherheit 1- a oder die asymptotische Irrtumswahrscheinlichkeit a hat.
Für die praktische Anwendung bedeutet dies, daß die Grenzen (4) und (5) die approximative Sicherheit
(15)
P{X-d Ct <~t} ~ 1-a
besitzen, wobei die Approximation für wachsendes n beliebig gerrau wird.
Bei den obigen Ausführungen haben wir von der speziellen Gestalt (1) der Varianzschätzung keinen Gebrauch gemacht, sondern nur ihre Konsistenz (10) ausgenutzt.
Folglich gelten alle Resultate dieses Abschnitts auch für jede konsistente Schätzung
a2(X)
der Varianz, weil diese ebenfalls (10) erfüllt.
Beispiel: Haltbarkeitsdauer eines Medikaments
Die Haltbarkeitsdauer X (in Tagen) eines spezifischen Medikamentes kann als Zufallsvariable mit einer zunächst nicht bekannten Verteilung betrachtet werden.
Eine Verbraucherorganisation will eine untere 95%-Grenze (t
u
für die erwartete
Haltbarkeitsdauer fL = E(X) ermitteln. Bei n = 25 unabhängigen Messungen ergab
sich der Mittelwert
x=
107,5 mit einer Streuung von a(x) = 12,7 und die Schätzung
auf a war a( x) = 63,5. Aus dem 5%-Quantil z 5 % = 1,645 ergibt sich die Bandbreite
d5% =
20,9 und somit eine untere Grenze von ftu,S% = 86,6 Tagen. Man beachte, daß
die Sicherheit dieser Grenze nur approximativ 95% beträgt.
Konfidenzgrenzen für den Erwartungswert
15.1.16
10-10
10.3* Exakte Konfidenzgrenzen für den Erwartungswert einer
Normal-Verteilung mit unbekannter Varianz
Nachdem wir in Konfidenzgrenzen des Erwartungswerts mit der asymptotischen
Sicherheit 1- a bei beliebiger Verteilung von X hergeleitet haben, wollen wir jetzt
die exakte Sicherheit dieser Grenzen für normalverteiltes X bestimmen, d.h. für den
Fall
(1)
L(X) = N(p,, a 2 ).
Hierbei wird sich herausstellen, daß die exakte Sicherheit der asymptotischen
Grenzen aus 10.2 für festen Umfang n stets kleiner als die angestrebte Sicherheit
1- a ist, obwohl sie für n---+ oo (sogar monoton aufsteigend) gegen 1- a konvergiert.
Als Konsequenz daraus werden wir dann eine (mit wachsendem n geringer werdende) "Korrektur" der Grenzen aus 10.2 einführen, die bei normalverteiltem X dann
die exakte Sicherheit 1- a haben. Die Herleitungen der hierfür benötigten Resultate
gehen jedoch teilweise über den hier zur Verfügung stehenden Rahmen hinaus und
werden deshalb nur skizziert.
Zur Berechnung der exakten Irrtumswahrscheinlichkeit 10.2 (12) der unteren Grenze
benötigt man die exakte Verteilung der geschätzten Standardisierung des Mittelwerts X
(2)
T(X) ==
X-p,
a(X)
wobei
Die Herleitung der Verteilung von T(X) erfolgt in drei Schritten, die hier jedoch nur
beschrieben, aber nicht bewiesen werden. Im ersten Schritt leitet man die Verteilung
der Varianz-Schätzung a2(X) her (vgl. auch 8.3.3)
(4)
a2
2
aA2(X) ,. . .__ --·x
n-1 n-1
bzw.
n-1
- ·aA2(X) ,. . .__ X2n-1.
a2
Als zweiten Schritt zeigt man, daß der Mittelwert X stochastisch unabhängig von der
Varianz-Schätzung
a2(X)
ist. Hieraus ergibt sich im dritten Schritt, daß T(X) eine
sogenannte (Student'sche) t-Verteilung mit n- 1 Freiheitsgraden besitzt
(5)
oi(T(X)) = tn-1"
Allgemein läßt sich die t -Verteilung mit dem Freiheitsgrad n E W wie folgt charakten
risieren. Sind U und V stochastisch unabhängig reelle Zufallsvariablen mit
Konfidenzgrenzen für den Erwartungswert
(6)
L(U) = N(O, 1L
L(V) =
x2n
10-11
15.1.16
!
so hat die Verteilung des Quotienten
(7)
u
=
T
eine t-Verteilung mit n Freiheitsgraden, die William Sealey Gasset (1876 - 1937) unter
dem Pseudonym ,,Student" publiziert hat. Die t -Verteilung hat IR als Träger und
n
ihre Dichtefunktion cp ist (vgl. Abb. 3)
n
2
(8)
cp (x) = a (1+~)-
n
n
1l.±l
2
n
für xE IR,
wobei die Normierungs-Konstante a unter Verwendung der Eulerschen-Gamman
funktion r definiert ist durch
(9)
an
=
r(n~l) I (r( ~) v;;-).
Die Dichte cp beschreibt eine um x=O symmetrische Glockenkurve mit den Wenn
depunkten in x = ± )nj(n+2).
Die zugehörige Verteilungsfunktion P ist
n
X
(10)
J cpn(u)du
Pn(x) =P{tn <x} =
-
-4
-3
-2
fürxEIR.
00
-1
0
1
2
3
4
Abb. 3: Dichte cp der t -Verteilung für die Freiheitsgrade n = 1, 2, 5, 500. Für n = 500
n
n
unterscheidet sich die Dichte cp im Rahmen der Zeichengenauigkeit nicht
n
mehr von der Dichte cp der Standard-Normalverteilung N(0,1).
Konfidenzgrenzen für den Erwartungswert
10-12
1501.16
Aus der Symmetrie der Dichte erhält man für die Verteilungsfunktion
(11)

n
(-x) = 1-Pn (x)
für x E IR,
Die t - Verteilung ist übrigens die Cauchy-Verteilung C(O, 1) aus 7.3.30
1
Nach diesen Vorbereitungen ergibt sich die Sicherheit sowohl der oberen als aus der
unteren Grenze aus 10.2 zu
Man kann zeigen (worauf wir hier verzichten), daß diese exakte Sicherheit stets
kleiner als die anvisierte Sicherheit ist, doho
Mit dem oberen a-Quantil t
(14)
n,a
tn,a : = -n1 ( 1- a)
der t -Verteilung, definiert durch (vgl. AnhangT)
n
bzwo
P{ tn> tn,a } = a
0
tn·cx
t-Dichte mit a-Qua:n'til
ergeben sich mit der Bandbreite
(15)
dn;a
t
0
n-1,a
_l_ G-(X)
yn
0
jetzt Konfidenzgrenzen zur exakten Sicherheit 1- a
{L(X) - d
(16)
n;a
= X-
dn;a
(untere Grenze)
(17)
(obere Grenze)
doho für diese Grenzen gilt
(18)
P { {L
u,a
(X)
< ~t}
= 1 - a = P { ~t
< {L o,a (X) }
Die Grenzen (16) und (17) sind stets weiter vom Mittelwert X entfernt als die Grenzen aus 10.2, denn man kann zeigen (worauf wir hier verzichten)
Konfidenzgrenzen für den Erwartungswert
(19)
z
a
< tm,a
15.1.16
10-13
für alle m E W.
Grob gesprochen sind die gegenüber 10.2 etwas "weiteren" Grenzen der Preis dafür,
daß man die unbekannte Varianz a 2 geschätzt hat. Allerdings wird der Unterschied
der Bandbreite
m---+
dn; a
da
zu
für wachsendes n geringer, weil die t-Quantile t
m,a
für
oo (sogar streng monoton wachsend) gegen z konvergieren.
Ct
Bei wachsendem Freiheitsgrad konvergiert sogar die Dichte cp der t Verteilung
n
n
punktweise gegen die Dichte cp der Standard-Normalverteilung N(0,1) - vgl. Abb 3.-
lim
(20)
n---+oo
cpn (x) = cp(x)
für alle xE IR.
Hieraus folgt (was hier nicht gezeigt wird) sowohl die punktweise Konvergenz der
Verteilungsfunktionen
(21)
lim P n (X) = P (X)
n---+oo
für alle x E IR,
und somit auch die Verteilungskonvergenz
t
(22)
n
L
n---+oo
N(0,1),
als auch die Konvergenz der Quantile
tn,a
(23)
n---+ oo
z
a
0
Bei praktischen Anwendungen stellt sich nun die Frage, ob man die Konfidenzgrenzen aus 10.2 mit der approximativen Sicherheit oder die etwas "weiteren" Grenzen
aus (16) und (17) verwenden soll, die bei normalverteiltem X die Sicherheit exakt einhalten. Ein pragmatisches Vorgehen ist, bei stetig verteiltem X vorsichtshalber die
"weiteren" Grenzen zu benutzen, und bei diskretem X die Grenzen aus 10.2 zu bestimmen, wobei der Unterschied beider Methoden bei wachsendem n immer geringer wird.
Beispiel: Bleigehalt im Apfelsaft
Zur Bestimmung des Bleigehalts X [in mg/1] einer Apfelsaftsorte werden von einer
Verbraucherorganisation n = 25 zufällig ausgewählte Flaschen analysiert. Dabei ergab sich ein Mittelwert von X: = 0,520 als Schätzung des erwarteten Bleigehalts
p, =
E(X), und
a= 0,4 71
als Schätzung der Standardabweichung von X. Als obere
Konfidenzgrenze für p, zur Sicherheit von 99% ergibt sich mit t 24 . 1% = 2,492 und
'
dl%, 25 = 0,235 zuP,o,l% = 0,755.
D
Konfidenzgrenzen für eine Wahrscheinlichkeit
11
21.1.16
11-1
Konfidenzgrenzen für eine Wahrscheinlichkeit
Es sollen jetzt Konfidenzgrenzen für eine Wahrscheinlichkeit p1 also für den Erwartungswert p, = p der Bernoulli-Verteilung B(1,p) konstruiert werden, den wir mit p
(statt wie in Kapitel 10 mit p,) bezeichnen. Der Ausgangspunkt ist eine Stichprobe
mitnunabhängigen B(1,p)-verteilten Zufallsvariablen XF ... Xn mit 0 <p < 1. Da die
folgenden Betrachtungen nur von der Summe X+:=X + ... +Xn mit B(n1 p)-Vertei1
lung abhängen, gehen wir vereinfachend gleich von der B(n,p)-verteilten Zufallsvariable X+ aus, wobei wir den Index
"+" fortlassen,
d.h. wir setzen X:= X+,.....__ B( n,p).
Für eine Realisierung x E { 0, ... n} von X ist die (Punkt-)Schätzung von p nach 8.2.1
gegeben durch die relative Häufigkeit
(1)
p(x)== lx.
n
Der zugehörige Schätzer p(X) = 1. X hat eine skalierte Binomialverteilung, d.h.
n
(2)
L(ß(X)) = ~- B(n,p)
cL(n. p(X)) = B(n,p),
bzw.
und somit gilt für x E { 0, ... n}
(3)
P{ p(X) = ~} = P{ X=
x} = b(xln,p) == (~) p·x(1- Pt-x.
Gesucht sind eine untere Konfidenzgrenze p
u,a
po, Ct (X)
(X) sowie eine obere Konfidenzgrenze
für p, deren Sicherheit
(4)
P{ Pu,a (X) <p}
(Sicherheit der unteren Grenze)
(5)
P{p<po,a (X)}
(Sicherheit der oberen Grenze)
einen vorgegebenen Wert 1- a erreichen soll, wobei a die vorgegebene Irrtumswahrscheinlichkeit ist mit
(6)
bzw.
0<a<1-a<l.
Es ist allerdings nicht ohne weiteres möglich sinnvolle Grenzen zu finden, deren Sicherheit genau der Vorgabe 1- a entsprechen. Wir konstruieren daher zuerst die
1934 von C. J. Clopper und E. S. Pearson (1895 - 1980) vorgeschlagenen exakten Grenzen1 deren Sicherheit mindestens (aber nicht genau) 1- a beträgt, weshalb man sie
auch als konservativ im Hinblick auf ihre Sicherheit bezeichnet. Im Anschluß werden dann die auf der Normalapproximation der Binomialverteilung basierenden
asymptotischen Grenzen behandelt, deren Sicherheit nur approximativ gleich 1- a ist.
Konfidenzgrenzen für eine Wahrscheinlichkeit
11.1
21.1.16
11-2
Die exakte obere Konfidenzgrenze nach Clopper-Pearson
Für eine Realisierung x E { 0, ... n} von X und wollen wir zuerst eine obere Konfidenzgrenze
po, 0: (x)
für p zur Sicherheit 1- a konstruieren. In Analogie zu 10.1 (19)
soll die obere Grenze das Maximum aller möglichen Werte p sein, unter denen die
Beobachtung x oder kleinere Werte noch mindestens die Wahrscheinlichkeit a besitzen. Hierzu betrachten wir die Verteilungsfunktion von X
X
(1)
F(xlp) ==
P{X<xlp} = l:b(iln,p)
i=O
= P{ p(X) < ~ I p}
für x E { 0, ... n}
mit der Monotonie-Eigenschaft
(2)
F( x I p) ist für x < n streng fallend in p ,
die sich sofort durch Differenzieren nach p ergibt, weil
(3)
a
x-n
- F(xlp) = - - b(xln,p)
8p
1-p
<0
für x<n.
Als Grenzwerte für p---+ 0 bzw. p---+ 1 ergeben sich
(4)
F(xl 0) == lim F(xlp)
(5)
F( x 11) : = lim F( x I p)
{
0
(6)
b(xln,O) == lim b(xln,p)
{
(7)
b( x I n , 1) : = lim b( x I n , p)
1.
p----+0
p----+1
1
falls
falls
x<n
x=n
1
0
falls
falls
x=O
x>O
1
falls
falls
x=n
x<n
weil
p----+0
p----+1
={
0
Für x < n definiert damit F( x Ip) als Funktion in p eine streng fallende, bijektive
Funktion F( x 1-): [0, 1]
(8)
F(nlp) = 1
-----+ [ 0, 1].
Und im Fall x = n ist F( x Ip) konstant
für alle 0 < p
< 1.
Für eine Realisierung x soll die obere Grenze
po,o: (x)
maximal unter allen Werten p
gewählt werden, bei denen die Wahrscheinlichkeit F(xlp) für die Beobachtung x
und kleinere Werte noch mindestens a ist (vgl. Abb. 1). Deshalb definieren wir
Konfidenzgrenzen für eine Wahrscheinlichkeit
pa o: (x) : =
(9)
'
Folglich ist
(10)
Max { 0 a}
= Max { 0 a}
pa, (x)
(X
11-3
21.1.16
(exakte obere Grenze),
>0 eindeutig bestimmt durch
F(xlßa, (X (x)) = a
für x<n,
pa, (n)
für x= n.
= 1
wobei
pa, (x) < 1,
(X
(X
Die Irrtumswahrscheinlichkeit dieser exakten oberen Konfidenzgrenze ist allerdings nur
höchstens so groß wie die Vorgabe a
(11)
Max { F(ll p) < a ll = 1, ... , n }
F(L~a)
IP) <
wobei
a
L~a) = Max{l=O, ... ,niF(llp)<a}
und somit ist die Sicherheit der oberen Konfidenzgrenze p mindestens 1- a.
o,o:
(12)
P{ p < pa o:(X)} > 1- a .
'
Deshalb bezeichnet man diese Konfidenzgrenze als konservativ im Bezug auf ihre
Sicherheit. Der Grund hierfür ist, daß die Binamial-Verteilung B(n,p) eine diskrete
Verteilung ist, deren Verteilungsfunktion F(x Ip) in x = 0, ... , n unstetig ist und die
folglich nicht notwendig den vorgegeben Wert a- an der Stelle LF(a) -annimmt.
Betrachte man die obere Grenze
pa,o: (x)
als Funktion der Irrtumswahrscheinlichkeit
a, so ergibt sich aus (10) und der Monotonie-Eigenschaft (2) sofort
(13)
pa, (x)
(X
ist für x < n streng fallend in a.
Bei Verringerung von a wächst für x< n daher die obere Grenze p (x). Für a---+ 0
a,o:
gilt sogar p (x)---+ 1, d.h. die Information der oberen Grenze wird immer geringer.
a, (X
Für x < n ist die obere Grenze
(14)
E._
n
p (x)
~o:
stets größer als die relative Häufigkeit E._
n
= p(x) < p (x)
a,o:
für
und für x = n gilt
(15)
p(n)
Pa o:(n)
'
1.
x< n,
Konfidenzgrenzen für eine Wahrscheinlichkeit
11.2
11-4
21.1.16
Die exakte untere Konfidenzgrenze nach Clopper-Pearson
pu
Für die Konstruktion einer unteren Konfidenzgrenze
betrachten wir analog die
"obere" Verteilungsfunktion
n
(1)
G(xlp) ==
2:: b( i In,p)
P{X>xlp}
1- F(x-1lp)
z=x
=
P{ p(X) > ~ I p }
für x E { 0,
000
n}
für die gilt
(2)
G( x Ip) ist streng wachsend in p
für x> 0,
G(Oip) = 10
Die untere Grenze
pu,a (x)
soll nun minimal unter allen Werten p gewählt werden,
bei denen die Wahrscheinlichkeit G(xlp) für die Beobachtung x und größere Werte
noch mindestens a ist (vgl. Abbo 1)0 Also definieren wir
= Min { 0 x I p} > a}
(exakte untere Grenze),
pu,a (x) < 1 eindeutig bestimmt durch
G( x I pu,a (x))
pu,a (0)
=
a
für x> 0 1
= 0
für x= 0
pu,a (x) > 0,
wobei
0
Die Irrtumswahrscheinlichkeit dieser unteren Konfidenzgrenze ist höchstens so groß
wie die Vorgabe a
(5)
Max { G(ZI p)
< a ll =
1,
000,
n}
G(LG(a) IP) < a
LG(a) = Min{l=O,
wobei
000,
n I G(Zip) <a}
und somit ist die Sicherheit der unteren Konfidenzgrenze
pu,a
mindestens 1- a, doho
die untere Grenze ist ebenfalls konservativ:
Betrachte man die untere Grenze
pu,a (x)
als Funktion der Irrtumswahrscheinlich-
keit a, so ergibt sich aus (4) und der Monotonie-Eigenschaft (2) sofort
Konfidenzgrenzen für eine Wahrscheinlichkeit
ist für x > 0 streng wachsend in a.
pu,a (x)
(7)
11-5
21.1.16
Bei Verringerung von a fällt für x> 0 daher die untere Grenze
pu,a(x).
Für a---+ 0
gilt sogar p (x)---+ 0, d.h. die Information der unteren Grenze wird immer geringer.
u,a
Für x > 0 ist die untere Grenze
(8)
<
Pu a(x)
und für x = 0 gilt
(9)
0
'
= pu,a (0) =
p(x)
p (x)
~a
stets kleiner als die relative Häufigkeit E._
n
= E._n
für
x> 0,
p(O) .
Pu a(x) ß(x)
1
t
~
0,,
0,2
10
20
i
ß(x)
Po o.(x)
)
!
0,3
0.4
0,5
0,1
0,2
30
40
50
10
20
i
J
0,3
0.4
0,5
30
40
50
X
X
Abb 1: B(n,p)-Dichte von X bzw. p(X) (untere bzw. obere Skala) für verschiedenes p
und n = 100 zur Interpretation der exakten Konfidenzgrenzen für die Beobachtung x.
rechts: p = p(x) und p = pOQ (x) aus 11.1 (9) mit F(xlp) als markierter Fläche.
links: p = p(x) und p = p' (x) aus 11.2 (3) mit G(xlp) als markierter Fläche.
u,a
11.3
Das exakte zweiseitige Konfidenzintervall
Wegen 0 < a
(1)
<~
ist die untere Grenze stets kleiner als die obere, d.h. es gilt
für O<x<n.
Bestimmt man nun die untere und obere Grenze jeweils zur halben Irrtumswahrscheinlichkeit ~ (an Stelle von a), so ergibt sich das zweiseitige Konfidenz-Intervall
Konfidenzgrenzen für eine Wahrscheinlichkeit
I (x) = ( p 9'(xL p 9'(x) )
(2)
a
u, 2
11-6
21.1.16
(exaktes zweiseitiges Intervall)
o,2
mit der (exakten) Sicherheit von mindestens 1- a, d.h. es gilt
(3)
P{pu,2Q'(X)<p<po,2Q'(X)} > 1-a.
Ein Vergleich der Grenzen des zweiseitigen Intervalls mit jeweiligen einseitigen Grenzen zur gleichen Sicherheit ergibt, daß die einseitigen Grenzen jeweils "enger" sind:
(4)
pu, a(x) < pu,a (x)
für x> 0,
< po, a(x)
po,a (x)
2
für x< n.
2
Ist man nur an einer einseitigen Abschätzung von p nach oben bzw. unten interessiert, so sollte man daher stets die zugehörige obere bzw. untere einseitige Grenze
und nicht das zweiseitige Intervall I (x) verwenden.
Ct
11.4
Berechnung der exakten Grenzen
Leider läßt sich die exakte obere Grenze nur im Fall x = 0 und die untere Grenze
nur für x = n explizit angeben
1
(1)
Pa a(O)
1
1- an,
=
'
pu,a (n)=an.
Für x < n läßt sich die obere Grenze nicht als explizite Funktion in x und a darstellen, sondern kann nur iterativ bestimmt oder aus Tabellen abgelesen werden. Die
obere Grenze
(2)
po,a (x)
ist die (eindeutige) Nullstelle der Funktion
H(p) = F(xlp)- a
und kann z.B. mit dem Newton-Verfahren oder einer ("ableitungsfreien") Intervallschachtelung ermittelt werden. Als Startwert bietet sich die Schätzung p(x) =~ an n
sofern sie im offenen Intervall (0, 1) liegt - oder man kann die asymptotische obere
Grenze aus 11.5 verwenden.
Die untere Grenze
pu,a (x)
kann prinzipiell analog bestimmt werden, läßt sich aber
für x> 0 wegen des Zusammenhangs G(xlp) = 1-F(x-1lp) sogar formal auf die
Bestimmung einer oberen Grenze zurückführen:
(3)
für x> 0.
Eine weitere Möglichkeit zur Bestimmung der unteren Grenze aus der oberen (oder
umgekehrt) beruht auf dem Zusammenhang
Konfidenzgrenzen für eine Wahrscheinlichkeit
G( x Ip) = F( n -x Iq)
(4)
11-7
21.1.16
mit
q= 1-p
der sich daraus ergibt, daß die Zufallsvariable Y = n- X eine B( n, q)- Verteilung hat.
Die untere Grenze für p ergibt sich dann als komplementäre Wahrscheinlichkeit
zur oberen Grenze für q, d.h.
(5)
mit
y = n-x
Man kann diese Konfidenzgrenzen auch aus Quantil-Tabellen für die F-Verteilung
entnehmen (vgl. 11.5). Zwischen der Verteilungsfunktion P k l der Fk (Verteilung
und der B(n,p)- Verteilung besteht folgender (exakter) Zusammenhang (der hier
nicht hergeleitet wird)
P { B(n,p) < x} = P { Fk l > u}
(6)
k=2(x+1),
bzw.
F( x I p) = 1- P k l (u)
mit
l
p
u=-·-k 1- p
l = 2(n-x),
Unter Verwendung des oberen a-Quantils Fkl·rx der Fk( Verteilung (vgl. Anhang T,
'
Seite 8-12) erhält man folgende Darstellung der Konfidenzgrenzen
(7)
Pu,rx(x) =
1
~a
k
a = y·Fkl;rx'
(8)
Pa,rx(x) =
1~
a
k
a = y·Fkl;rx'
In den beiden Grenzfällen x = 0 (d.h.
(exakte untere Grenze)
für 0 < x mit
k=2(n-x+1),
l = 2x.
(exakte obere Grenze)
für x < n mit
k=2(x+1),
l = 2(n-x),
p= 0)
bzw. x = n (d.h.
p= 1)
lassen sich die
exakten Grenzen sogar direkt angeben
(9)
pu,rx (n)
pu,rx (0) = 0'
1
=an
(exakte untere Grenze),
1
(10)
Pa a(O) = 1- an'
'
po,
(X
(n) = 1
(exakte obere Grenze).
Konfidenzgrenzen für eine Wahrscheinlichkeit
11-8
10.3.16
Beispiel: Erfolg einer Therapie
In der Tagespresse wird berichtet, daß bei der Anwendung einer neuen Therapie in
nur
p= 12%
ein Versagen beobachtet wurde, wobei die Anzahl n = 25 der Anwen-
dungen und die beobachte Zahl
x = np = 3
des Versagens nicht genannt wird. Die
exakte obere 95%-Konfidenzgrenze der Versagenswahrscheinlichkeit p ergibt sich
aus (8) mit k = 8, l = 44, Fkl·S% = 2,157 und a = 0,3922 zu (vgl. auch 11.6 Abb. 4)
'
p0
für
= 28,2%
n = 25,
p=12%.
Man beachte, daß diese obere Grenze - bedingt durch den kleinen Stichprobenumfang n = 25 - mehr als doppelt so groß sind, wie die beobachtete Rate p= 12%.
Wenn bei dem vierfachen Umfang n = 100 auch wieder in
gen beobachtet wird, d.h.
p= 12% Fällen ein Versa-
x = np = 12, so ergibt sich k = 26, l = 176, Fk l· S% = 1,559 und
a = 0,2303 die erheblich geringere obere Grenze (vgl. auch 11.6 Abb. 4)
p0
für
= 18,7%
n = 100,
'
p=12%.
Die F- Verteilung
11.5
Der Vollständigkeit halber sind die Definition und grundlegenden Eigenschaften
der nach R. A. Fisher (1890 - 1962) benannten F-Verteilung hier zusammengestellt,
allerdings ohne Beweise.
Sind U und V unabhängige reelle Zufallsvariablen mit Chiquadrat-Verteilungen
2
,
L(U) = xm
(1)
L( V)= x2n ,
so heißt die Verteilung des Quotienten
(2)
F
lu
m
ly
n
eine zentrale F-Verteilung mit (Zähler-)Freiheitsgrad m und (Nenner-)Freiheitsgrad n1
und wird kurz mit F
m,n
(3)
bezeichnet
Fm,n = L(F).
Die F
m,n
-Verteilung läßt sich suggestiv auch schreiben als
Konfidenzgrenzen für eine Wahrscheinlichkeit
(4)
2
m,n
2
für unabhängige xm und x n
Fm,n
Die F
11-9
21.1.16
-Verteilung besitzt eme Dichte cp
m,n
0
, die nur auf dem positiven Bereich
(O,oo) von Null verschieden ist, und dort gegeben ist durch
(x) = d
· xP- 1(mx + n)-(p+q)
(5)
cp
(6)
p=2m,
(7)
P q F(p+q)
dm,n- m n r(p) r(q)'
m,n
m,n
1
q=l.n
0
mit
und
2
0
wobei
>
0
r die Eulersche Gammafunktion ist.
Die Dichte cp m n beschreibt für positive Argumente x im Fall m
< 2 eine monoton
fallende Kurve ' und im Fall m > 2 eine schiefe "Glockenkurve" mit einem Maximum
..
_ n(m-2)
f ur x- m(n+ ) < 1.
2
64
m = 1, 4, 16, 64
m=8
n = 1, 4, 16, 64
n=8
0 .5
0 .5
0
2
Abb. 2: Dichten der F
3
m,n
Die Verteilungsfunktion P
4
0
3
4
-Verteilung für verschiedeneFreiheitsgradem und n.
m,n
der F
m,n
-Verteilung ist auf (O,oo) streng monoton
wachsend und dort gegeben durch
X
(8)
2
P m,n (x) =P{Fm,n <x} =
J cp m,n (u)du.
0
Konfidenzgrenzen für eine Wahrscheinlichkeit
Das obere a-Quantil F
(9)
F
m,n;o:
der F
m,n;o:
m,n
11-10
21.1.16
-Verteilung ist für 0 < a < 1 definiert durch
: = P-l (1- a)
m,n
bzw.
P{Fmn>Fmn·o: }=a.
'
' '
O
,,
Fmn·a
F-Dichte mit o:-Quantil
Der Erwartungswert existiert nur für n > 2 und hängt nicht von m ab:
(10)
E{Fm,n } = ___!2_
n- 2
>
1
für
n> 2.
Und die Varianz existiert erst für n > 4 und ist dann
(11)
2n 2 (m+n-2)
Var{F
} =
m,n
m (n- 2) 2 (n- 4)
für n>4.
Bei Vertauschen beider Freiheitsgrade ergibt sich
(12)
1
F
--
n,m
F
m,n
(13)
P n,m (x)=1-P m,n (l)
x
(14)
Fn,m;o:
1
F
für x
> 0,
für 0 < a
< 1.
m,n;l-o:
Für den Zähler-Freiheitsgrad m = 1 ergeben sich folgende Zusammenhänge zur
t -Verteilung und deren Verteilungsfunktion P :
n
n
2
(15)
F
(16)
Pl ,n (X) = 1 - 2 P n (- Vx)
für x
(17)
Fl,n;o: = t 2n;o:/2
für 0 < a
l,n
= t
n
> 0,
< 1.
Konfidenzgrenzen für eine Wahrscheinlichkeit
11.6
11-11
21.1.16
Asymptotische (approximative) Konfidenzgrenzen
Unter Verwendung der Normalapproximation für die Binomialverteilung B(n,p)
wollen wir jetzt sogenannte asymptotische Konfidenzgrenzen für p konstruieren, deren Sicherheit nur approximativ gleich 1- a ist, wobei die Approximation für
wachsendes n beliebig gerrau wird. Ausgangspunkt ist der Binomial-Grenzwertsatz
B(n,p)- np
a(p) yfn
(1)
(2)
n---+ oo
N(0,1)
wobei
a(p) == Jp(1-p)
die Standardabweichung der B(1,p)- Verteilung als Funktion von p darstellt.
Für eine Realisierung x E { 0, ... n} von X bezeichnen wir die Schätzung jetzt mit
(3)
x== p x = 1nx'
-
A
(
(relative Häufigkeit).
)
Unter Verwendung der Verteilungsfunktion P von N(O, 1) ergeben sich die (mit
wachsendem n besser werdenden) Approximationen der Funktionen F und G
Jn(x- p))
(4)
X-np
x-np}
F(xl n,p) = p { a(p) yfn < a(p) yfn ~
(5)
( I )
{X-np
x-np}
( np-x )
(fo(p-x))
G x n,p = p a(p) yfn > a(p) yfn ~ P a(p) yfn = P
a(p)
.
 (
a(p)
'
Man beachte, daß die Stetigkeitskorrektur von ~ (vgl. 9.3.1) hier nicht verwendet
wird, obwohl diese die Güte der Approximation in (4) (5) verbessern würde. Unser
Ziel hier ist es jedoch nicht, die exakten - und konservativen - Konfidenzgrenzen mö-
glichst genau zu approximieren. Sondern wir wollen asymptotische Grenzen konstruieren, die approximativ die Sicherheit 1- a einhalten und dabei nicht notwendig kon-
servativ sind. Das Fortlassen der Stetigkeitskorrektur in (4)(5) hat diesen Effekt.
Zur Konstruktion der asymptotischen oberen Grenze im Fall x < n wollen wir statt
der Gleichung F(xln,p) = a jetzt die approximierte Gleichung lösen (vgl. Abb. 3)
(6)
<~>(yln(x-p))
a(p)
= a
bzw.
yln(p- x) a(p)
Za
mit
(7)
(oberes a-Quantil von N( 0, 1)).
0
Za
N(O, 1)-Dichte mit a-Quantil
Konfidenzgrenzen für eine Wahrscheinlichkeit
p(x) poa(lj
i u,a (x) ft(x)
1 1
0 ,1
0 ,2
10
20
t
11-12
21.1.16
1
!
0 ,3
0.4
0 ,5
0 ,1
0 ,2
30
40
50
10
20
X
i
0 ,3
0 ,4
0 ,5
30
40
50
X
Abb 3: Normalapproximation der Dichte von X (untere Skala) bzw. der Dichte von
p(X) (obere Skala) für n = 100 und verschiedene Werte von p zur Interpretation der
asymptotischen oberen Grenze p (x) (rechts) und der unteren Grenze p (x) (links)
o,a
u,a
für eine Beobachtung x.
links: Die markierte Fläche entspricht der nach (5) approximierten Wahrscheinlichkeit G(xlp) und die untere Grenze p (x) ist das Minimum aller Werte p, bei dem
UD'
diese Fläche noch mindestens a ist. '
rechts: Die markierte Fläche entspricht der nach (4) approximierten Wahrscheinlichkeit
F(xlp) und die obere Grenze p (x) ist das Maximum aller Werte p, bei dem diese
00'
Fläche noch mindestens a ist. '
Und analog wird im Fall x > 0 die untere asymptotische Grenze als Lösung der approximierten Gleichung verwendet (vgl. Abb. 3)
(8)
P(
yln(pa(p)
x)) -
- a
bzw.
yln(p- x) a(p)
Zur Lösung der Gleichungen (6) bzw. (8) betrachten wir die quadratische Funktion
(9)
2
ap -bp+c
mit
(10)
a == n
+ z0'2 > 0 '
b : = 2n -X+ Z 0'2 = 2 X+ Z 0'2 > 0,
-2
1 2
c==nx
=-x
>O
n
Konfidenzgrenzen für eine Wahrscheinlichkeit
-
(11)
(12)
p
m
1
(x)
1
D(x)
2
X+ 27i"Za
pm(x)-
1 2
b
2
2a
x+2za
+ 1._n za2
2
11-13
21.1.16
E (0, 1) ,
n+zQ
-2
X
2
X
p2 (x)-
1 2
m
1 +-z
n a
n( n +z;)
2
c
p (x)- m
a
>
0
0
Wir werden jetzt zeigen, daß die Nullstellen der Funktion f die gesuchten asymptotischen Grenzen sind. Zunächst definieren wir die Grenzen als die Nullstellen von f
(13)
po,a (x)
+ /l5lX)
(asymptotische obere Grenze) 1
(14)
pu,a(x) == pm (x)- /l5lX)
(asymptotische untere Grenze).
== p m (x)
und zeigen, daß sie die gewünschten Eigenschaften haben. Beide Grenzen liegen im
Intervall [ 0,1] und schachteln die beobachtete relative Häufigkeit p(x) =
x ein
Im Fall x = 0 bzw. x = n ist (wie bei den exakten Grenzen) die asymptotische untere
Grenze gleich 0 bzw. die obere Grenze gleich 1, und es gelten
(16)
0 = pu,a (0) < po,a (0) < 1'
(17)
0
< pu,a (n) < po,a (n)
1.
Und im Fall 0 < x < n gilt in (15) an keiner Stelle die Gleichheit
(18)
0
< pu,a (x) <
p(x)
< po,a (x) <
Im Fall x < n ist die obere Grenze
po, 0: (x)
falls
1
0
< x < n.
die einzige Lösung der approximierte
Gleichung (6) im Intervall (0, 1). Und im Fall x> 0 ist die untere Grenze
pu,o: (x) die
einzige Lösung der approximierte Gleichung (8) im Intervall (0, 1).
Nachdem wir die asymptotischen Grenzen jetzt definiert haben, wollen wir zeigen,
daß sie approximativ die angestrebte Sicherheit 1- a haben. Aus den fundamentalen Äquivalenzen
(19)
p
< po, 0: (x)
x- np
<
z 0: · a(p)
JTi,
np- x
<
z · a(p)
JTi.
0:
Konfidenzgrenzen für eine Wahrscheinlichkeit
11-14
21.1.16
ergibt sich die Sicherheit dieser Grenzen zu
(20)
< po, 0:(X)}
P{np-X
< zo:·a(p)fo}
~ 1-a,
P{p u,o: (X)< p}
P{X-np
< zo:·a(p)fo}
~ 1-a.
P{p
Diese Approximationen gehen für wachsenden Umfang n in Gleichheiten über. Genauer ergibt sich, wenn wir X= x(n) jetzt oben mit dem Umfang n indizieren:
lim P{p<p
(21)
n---+oo
o, o:
(x(n))} = 1-a,
lim P{p
n---+oo
u, o:
(x(n)) <p} = 1-a.
Man beachte, daß für ein konkretes n die Sicherheit des asymptotischen Grenze auch
geringer als 1- a sein kann, während die exakte Grenze eine Sicherheit von mindestens 1- a garantiert. Dies ist der Grund dafür, daß die asymptotischen Grenzen
typischerweise (aber nicht notwendigerweise) enger als die entsprechenden exakten
Grenzen sind, und somit das asymptotische Intervall (von unterer bis oberer
Grenze) im Intervall der exakten Grenzen enthalten ist (vgl. Abb. 4). Generell sind
die exakten Grenzen den asymptotischen vorzuziehen und man sollte letztere nur
verwenden, wenn die für die exakten Grenzen erforderlichen F-Quantile nicht zur
Verfügung stehen ..
Betrachte man die asymptotischen Grenzen als Funktion der Irrtumswahrscheinlichkeit a, so ergeben sich (wie bei exakten Grenzen) die Monotonie-Eigenschaften
(22)
pu,o:(x) ist für x > 0 streng wachsend in a,
(23)
po,o: (x) ist für x < n streng fallend in a.
Beim Übergang von X ,.....__ß(n,p) auf die Zufallsvariable Y=n-X mit B(n,q)-Verteilung ergibt sich die untere bzw. obere Grenze für q = 1- p zur Beobachtung y = n- x
als komplementäre Wahrscheinlichkeit der oberen bzw. unteren Grenze für p zur
Beobachtung x (vgl. auch Abb. 4), d.h.
(24)
mit
y = n-x.
Beispiel: Erfolg einer Therapie (Fortsetzung aus 11.4)
Wir wollen jetzt zum Vergleich auch die asymptotische obere 95%-Konfidenzgrenze
p0
für das Therapieversagen berechnen. Für n = 25 und
p= 12%
ergeben sich mit
z % = 1,645 (aus Tabelle T 3 im Anhang) die Hilfsgrößen aus (10) - (12) zu
5
Konfidenzgrenzen für eine Wahrscheinlichkeit
a = 27,7055,
b = 8,7055'
P = 15,71%,
m
c = 0,3600'
po ist geringer als die zugehörige
vative) obere Grenze p (vgl. auch Abb. 4 zur Erläuterung)
0
Die asymptotische obere Grenze
p0
p0 = 26,5%'
für
= 28,2%
n = 25,
Bei dem vierfachen Umfang n = 100- auch wieder mit
b = 26,7055 ,
a = 102,7055 ,
11-15
21.1.16
exakte (und konser-
p=12%
0
p= 12%- ergibt sich aus
P = 13,oo% ,
m
c = 1,4400'
JIJ = 10.81%.
JIJ = 5.37%
die von p nur gering abweichende asymptotische obere 95%-Konfidenzgrenze
0
p0
p0 = 18,3%'
für
= 18,7%
n = 100,
relative Häufigkeit in Prozent
100 95 90 85 80 75 70 65 60 55 50
65
60
exakte Grenzen
/
55
/ "
einseitig : a = 5%
1:50
Ql
~45
0::
.s: 40
f'
~c: 35
0
.
''
.
Ci 30
n = 100
N
....
lii 25
'E 20
"0
(
15
/
•'
/
.
.J
I"
0
~~·/'
"/
/
/
..
35
65
35
40
60
4CI
45
55
45
506
E 50
555
~ 45
55~
a.
(!)
60~
.s: 4CI
60 ~
65~
CD
~35
c:
65~
(I)
70![l
t5 30
70 ![l
~25
'E 20
755"
-u
8o2
0
~
as:a.
ro
/
·"'
• n = 25
/
D
12% .
relative Häufigkeit in Prozent
100 95 90 85 80 75 70 65 60 55 50
0..
n = 25; '
Ql
0
~
'
'
p=
:J
75 5
4l
ao2
(I)
s5:a..
506
Ql
0::
Ql
:J
N
"0
(!)
15
10
90
10
90
5
95
5
95
0
0
4:
5
10 15 20 25 30 35 40 45 50
relative Häufigkeit in Prozent
0
5
10 15 20 25 30 35 40 45 50
relative Häufigkeit in Prozent
Exakte und asymptotische untere und obere Grenzen für p zur (einseitigen)
als Funktion der beobachteten relativen Häufigkeit
Sicherheit von 95%
x = ~ x für n = 25 und n = 100. Für x < 50% gilt die untere und linke Skala, und
für x> 50% gilt die obere und rechte Skala. Das Intervall zwischen unterer und
oberer Grenze hat eine Sicherheit von 90%.
links: exakte Grenzen mit Ablesebeispielen für x = 12% und x =56%.
rechts: Vergleich der exakten (Punkte) mit den asymptotischen (Linie) Grenzen. Die
exakten Grenzen sind typischerweise weiter von der relativen Häufigkeit entfernt
als die asymptotischen. Dies liegt daran, daß die exakten Grenzen konservativ sind
und typischerweise eine höhere Sicherheit als 1- a haben1 während die asymptotischen Grenzen nur die approximative Sicherheit 1- a besitzen, die daher auch
geringfügig kleiner als 1- a sein kann. Der Unterschied von exkater zu asymptotischer Grenze wird allerdings bei wachsenden n geringer.
Abb
Konfidenzgrenzen für eine Wahrscheinlichkeit
11-16
21.1.16
Die asymptotische obere und untere Grenze liegen symmetrisch um den Wert
p (x), aber nicht um die Schätzung p(x). Für wachsendes n weicht p (x) allerdings
m
m
immer weniger von p(x) ab. Gerrauer gilt (wobei wir X wieder mit n indizieren)
p
(25)
n---+ oo
o,
und die Konvergenzgeschwindigkeit ist sogar von der Ordnung 1.. , weil
n
p
(26)
n---+ oo
Die Abweichung der oberen bzw. unteren Grenze vom Symmetriepunkt p (x) wird
m
für wachsendes n immer kleiner, und gerrauer gilt
p
(27)
n---+ oo
0,
wobei die Konvergenzgeschwindigkeit von der Ordnung
ist, weil
p
(28)
11.7
fo
n---+ oo
Grobe asymptotische (approximative) Konfidenzgrenzen
Für eine B(n,p)-verteilte Zufallsvariable X wollen wir zusätzlich zu den bisherigen
asymptotischen Konfidenzgrenzen für p jetzt noch grobe asymptotische Grenzen
konstruieren, die einfacher zu bestimmen und für sehr hohes n (etwa ab n = 1000)
oder grobe Abschätzungen geeignet sind. Obwohl es sich hierbei um einen Spezialfall der asymptotischen Grenzen aus 10.2 handelt (was sich erst weiter unten ergeben wird), wollen wir die groben Grenzen hier ohne Rückgriff auf die Resultate in
10.2 herleiten. - Der Schätzer für p ist die relative Häufigkeit
(1)
ß(X) = l.x.
n
Da die Varianz und die Standardabweichung von B(1,p) Funktionen von p sind
a(p) =
(2)
J p[1- p]
1
ist es naheliegend a2(p) und a(p) wie folgt zu schätzen
(3)
a
2
(ß(X))
= p(X) [ 1- p(X)] ,
a(ß(X)) =
J p(X) [1- p(X)] .
Diese Schätzungen sind konsistent, weil p(X) eine konsistente Schätzung auf p ist,
d.h. es gilt (wobei wir X jetzt wieder mit n indizieren)
Konfidenzgrenzen für eine Wahrscheinlichkeit
p
(4)
n---+ oo
11-17
21.1.16
a(p).
Hieraus folgt, daß man im Binomial-Grenzwertsatz
eLf
(5)
L
fo(X(n)- p) }
a(p)
N(O, 1).
L
n---+ oo
die Standardabweichung a(p) auch durch ihre konsistente Schätzung ersetzen kann
fo(x(n)- p) }
~{ a(p(x(n)))
(6)
L
n---+oo
N(0,1).
Hieraus ergeben sich dann die groben asymptotischen Grenzen für p
po,a (X) : = p(X) + da (X)
(7)
da (X)
(8)
~ a(ß(X)) = z · ~ J p(X) [1- p(X)]
= z ·
avn
(Bandbreite).
avn
0
mit
0
Die Sicherheit dieser Grenzen konvergiert für n---+ oo gegen 1- a (wobei X wieder mit
n indiziert ist)
(9)
lim
n---+oo
P{p
u, a
(x(n))
< p}
= 1- a = lim
n---+oo
P{p < p
o, a
(x(n))}.
Die groben Grenzen ergeben sich auch als Lösungen der Gleichungen 11.6 (6) bzw.
(8), wenn man dort a(p) durch die Schätzung a(ß(X)) ersetzt.
da der Grenzen von der Schätzung p = p(X) variiert mit der Schätist dQ ist maximal und für p---+ 0 bzw. p---+ 1 ergibt sich dQ ---+ 0.
Die Abweichung
zung: für p = 1
2
Wahlumfrage: Bei der "Sonntagsfrage" in 0.3 Abb.4 ist n = 1300 und die Bandbreite
d0
der zweiseitigen 95%-Grenzen (d.h. a = 5%) wird dort als "Fehlertoleranz"
2
bezeichnet. Bei einem Stimmanteil
p von
50% bzw. 5% ergibt sich mit z2,5% = 1,960
(aus Tabelle T 3 im Anhang) die Bandbreite d 2,5% zu 2,72% bzw. 1,18%, was den ge-
rundeten Werten in 0.3 Abb.4 entspricht.
D
Die groben Grenzen haben gegenüber den sogenannten normalen asymptotischen
Grenzen aus 11.6 mehrere Nachteile, die daraus resultieren, daß sie über die Schät-
zung der Varianz a 2(p) eine zusätzliche Unsicherheit mit sich bringen. Typischerweise weicht die Sicherheit der groben Grenzen stärker von 1- a ab als die der normalen Grenzen. Außerdem können die groben Grenzen auch außerhalb des Intervalls [ 0, 1]liegen (vgl. Abb. 5), und ergeben im Fall p(X) E {0, 1} wegend Q (X) = 0 keine
Konfidenzgrenzen für eine Wahrscheinlichkeit
21.1.16
11-18
sinnvollen Werte. Lediglich für Überschlagsrechnungen oder bei sehr großem Umfang n und nicht zu extremen Werten von p(X) (d.h. nicht zu dicht bei 0 oder 1) sind
relative Häufigkeit in Prozent
100 95 90 85 80 75 70 65 60 55 50
relatlve Häutigkelt in Prozent
100 95 90 85 80 75 70 65 60 55 50
60
60
grobe Grenzen
55
55
einseitig : a=5%
50
40
grobe Grenzen
dS'Ymptotlsct· e Grenzen
einseitig : a=5%
c
50
45
50
A
~ 45
55g
ooi=
0
~~
c
·a; 35
~
N
65~
Q
iji 30
703
~~
~~
~c 25
75~
~
85~~
'E 15
~
10
90
5
~
0 ~~~~~~~~~~~~~ 100
5
10 15 20 25 30 35 40 45
relative Häufigkeit in Prozent
5
10 15· 20 25 30 35 40 45 50
relative Häufigkeit in Prozent
Abb 5: Grobe und asymptotische untere und obere Grenzen für p zur (einseitigen) Sicherheit von 95% als Funktion der beobachteten relativen Häufigkeit x = ~ x für
n = 25 und n = 100. Für <50% gilt die untere und linke Skala, und für
50%
gilt die obere und rechte Skala.
links: Die grobe untere (bzw. obere) Grenze ist für kleines (bzw. großes) x sogar
negativ (bzw. größer als 100%).
rechts: Die Abweichung der groben (dünn) von den normalen (fett) Grenzen wird
kleiner, je dichter p bei 50% liegt, und verringert sich bei wachsendem n.
x
x>
Wir wollen jetzt präzisieren, in welchen Sinn die normalen mit den groben Grenzen
für wachsendes n übereinstimmen .. In 11.6 haben wir bereits gezeigt, daß der Abweichung der beiden Symmetriepunkte p (X) bzw. p(X) nach Wahrscheinlichkeit
m
gegen 0 konvergiert. Die Abstände /I5()(j bzw. dQ (X) der Grenzen vom jeweiligen
Symmetriepunkt konvergieren gegen 0 nach 11.6 (27) und
(10)
p
n----+oo
Za· a(p)
1
wobei ihr Quotient sogar gegen 1 konvergiert
(11)
p
n----+oo
Wie bereits angekündigt, ergeben sich die groben Grenzen als Spezialfall der asymp-
Konfidenzgrenzen für eine Wahrscheinlichkeit
21.1.16
11-19
totischen Grenzen aus 10.2 wenn man X als eine Summe stochastisch unabhängiger B(1,p)-verteilter Zufallsvariablen X , ... , Xn mit Erwartungswert p, = p auffasst,
1
d.h. X =X+ Der Schätzer von p (wir schreiben jetzt p statt p,) ist der Mittelwert der
Stichprobe X= (X , ... ,Xn)
1
(12)
Die asymptotischen Grenzen aus 10.2 (4) (5) entsprechen den obigen groben Grenzen, wenn in 10.2 statt der dortigen erwartungstreuen Varianzschätzung
(14)
a2(X) = n~l ~ (Xi-X)2
z
die konsistente Schätzung a 2(ß(X)) verwendet. Die Schätzung a 2(ß(X)) unterscheidet
sich von a2 (X) um den Faktor l(n-1)
n
(15)
n---+oo
1
a2(ß(X)) = ~ ~ (Xi-X)2 = n~l a2(X).
z
Folglich ist a 2(ß(X)) nicht erwartunstreu, aber zumindest asymptotisch erwartungs-
treu, d.h.
(16)
2
a.
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
12
21.1.16
12- 1
Konfidenzgrenzen für den Erwartungswert einer
Poisson-Verteilung
Es sollen jetzt Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
konstruiert werden. Hierbei gehen wir völlig analog zur Konstruktion der Grenzen
für eine Wahrscheinlichkeit vor. Wir beginnen mit den sogenannten exakten Grenzen1 deren Sicherheit exakt eingehalten werden und in dem Sinne konservativ sind,
daß die vorgegebene Irrtumswahrscheinlichkeit 0 < a
< 1 (bedingt
durch die Unste-
tigkeit der Verteilungsfunktion für die Poisson-Verteilung) nicht voll ausgeschöpft
wird. Im Anschluß werden dann die auf der Normalapproximation der Poissonverteilung basierenden asymptotischen (oder approximativen) Grenzen behandelt.
Zur Vereinfachung betrachten wir zuerst nur eine Pois(,u)-verteilte Zufallsvariable X
mit ,u > 0 und behandeln den Fall mit unabhängigen Wiederholungen von X erst am
Ende des Kapitels. - Die Poisson-Wahrscheinlichkeiten bezeichnen wir wieder mit
(1)
für xE W0 = WU{O}.
Für eine einzige Realisierung x E W von X ist die Schätzung von ,u "als Mittelwert"
0
(2)
12.1
{L(x) : = x.
Konstruktion der exakten oberen Konfidenzgrenze
Für eine Realisierung x E W von X und wollen wir zuerst eine oberen Konfidenz0
grenze {L
o,o:
(x) für ,u zur Sicherheit 1- a konstruieren. Analog zu 11.1 soll die obere
Grenze das Maximum aller möglichen Werte ,u sein, unter denen die Beobachtung x
oder kleinere Werte noch mindestens die Wahrscheinlichkeit a besitzen. Hierzu be-
trachten wir die Verteilungsfunktion von X
X
2:: p( i I,u)
(1)
i=O
mit der Monotonie-Eigenschaft
(2)
F( x I ,u) ist streng fallend in ,u ,
die sich sofort durch Differenzieren nach ,u ergibt, weil
(3)
a F(xl ,u) =- p(xl ,u) < 0
80
Als Grenzwert für ,u---+ 0 ergibt sich
für x > 0, ,u > 0 .
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
(4)
F(x I 0) == lim F(x Itt)
1
p(x I 0) == lim p(x Itt)
{~
12- 2
21.1.16
f-1--+0
weil
(5)
fL--+0
falls x = 0
falls x> 0
Und für fL---+ oo erhält man
(6)
p(x I oo) : = lim
fL--+ 00
o,
p(x Itt)
F( x I oo) : = lim F( x IfL) = 0 .
fL--+ 00
Damit definiert F( x Itt) als Funktion in tt eine streng fallende bijektive Funktion
F(xl- ):
[O,oo]~
[0,1].
Für eine Realisierung x soll die obere Grenze
4o, 0: (x)
maximal unter allen Werten tt
gewählt werden, bei denen die Wahrscheinlichkeit F(xltt) für die Beobachtung x
und kleinere Werte noch mindestens a ist (vgl. Abb. 1). Deshalb definieren wir
= Max { fL > 0
Folglich ist
(8)
I P{ X< x I fL} > a}
(exakte obere Grenze).
4o, 0: (x) > 0 eindeutig bestimmt durch die Gleichung
F(xl 4o, 0:(x)) = a
für
x> 0.
Die Irrtumswahrscheinlichkeit dieser oberen Konfidenzgrenze ist allerdings nur höch-
stens so groß wie die Vorgabe a
(9)
Max { F(ll fL) IZ E wo) F(lltt)
F(Lpf_a) ltt) < a
< a}
wobei
LF(a) = Max { l E W0 I F(Zitt) < a} .
Folglich ist die Sicherheit der oberen Konfidenzgrenze
4o, 0: mindestens 1- a
und die
Konfidenzgrenze ist deshalb konservativ im Bezug auf ihre Sicherheit. Der Grund
hierfür ist, daß die Poisson-Verteilung Pois(tt) eine diskrete Verteilung ist, deren Verteilungsfunktion F( x Itt) in x E W unstetig ist und die folglich nicht notwendig den
0
vorgegeben Wert a - an der Stelle LF( a) - annimmt.
Betrachtet man die obere Grenze
4o,o: (x)
als Funktion der Irrtumswahrscheinlich-
keit a, so ergibt sich aus (8) und der Monotonie-Eigenschaft (2) sofort
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
(10)
4o, (x)
0:
21.1.16
12- 3
ist streng fallend in a.
i
x
4Q
30
~0
10
l
(x)
o,o
Abb 1: Dichte der Pois(,u)- Verteilung von X für verschiedene Werte von ,u zur Interpretation der exakten oberen und unteren Grenze für eine Beobachtung x.
Rechts: ,u=x und ,u=400:(x) aus 12.1 (7) mit Wahrscheinlichkeit F(xlp) als
markierter Fläche.- Links:',u = x und ,u = 4 (x) aus 12.2 (3) mit Wahrscheinlichkeit
uo:
G(xlp) als markierter Fläche.
'
12.2
[1.
Konstruktion der exakten unteren Konfidenzgrenze
Zur Konstruktion einer unteren Grenze für ,u betrachten wir jetzt für eine Realisierung x E W die "obere" Verteilungsfunktion
0
00
(1)
1 - F( x-11 ,u)
z=x
mit den Eigenschaften
(2)
G( x I ,u) ist streng wachsend in ,u
G( 0 l11)
für
x> 0,
1,
G(xiO) == lim G(xl,u) = {
fL---+
0
1
0
falls
falls
x= 0 } .
x> 0
Für x > 0 ergibt sich aus den Eigenschaften von F, daß G( x 1-): [0, oo)
streng wachsende bijektive Funktion ist. - Die untere Grenze
4u,o: (x)
-----+ [ 0, 1)
eine
soll nun mini-
mal gewählt werden, sodaß die Wahrscheinlichkeit G(xl,u) für die Beobachtung x
und größere Werte noch mindestens a ist (vgl. Abb. 1). Also definieren wir
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
12- 4
21.1.16
(exakte untere Grenze).
Folglich ist (tu a(x) > 0 eindeutig bestimmt durch
'
G(xl (t u,a (x))
(4)
= a
F(x-114u,a (x))
bzw.
=
1-a
4u,a (0) =0
für
x> 0
1
für x= 0.
Die Irrtumswahrscheinlichkeit dieser unteren Konfidenzgrenze ist höchstens so groß
wie die Vorgabe a
Max { G( ll~t) IZ E W01 G( ll~t)
(5)
<a
}
G(LG(a) l~t) < a
wobei
LG( a) = Min { l E W0 I G( ll~t) < a} ,
und somit ist die Sicherheit der unteren Konfidenzgrenze (t
u,a
mindestens 1- a, d.h.
die untere Grenze ist ebenfalls konservativ.
Betrachte man die untere Grenze (t
u,a
(x) wieder als Funktion der Irrtumswahr-
scheinlichkeit a, so ergibt sich aus (4) und der Monotonie-Eigenschaft (2) sofort
(6)
(t
12.3
u,a
(x) ist für x > 0 streng wachsend in a.
Konstruktion des exakten zweiseitigen Konfidenzintervalls
Wegen 0 < a
<~
ist die untere Grenze stets kleiner als die obere, d.h. es gilt
(1)
für
x> 0.
Bestimmt man nun die untere und obere Grenze jeweils zur halben Irrtumswahrscheinlichkeit ~ (an Stelle von a), so ergibt sich das zweiseitige Konfidenz-Intervall
(2)
I (x) = (
Ct
4u, 0(xL
4o, 0(x)
2
2
(exaktes zweiseitiges Intervall)
)
mit der (exakten) Sicherheit von mindestens 1- a, d.h. es gilt
(3)
P{
4u,20(X) < Ii < 4o,20(X) } >
1- a .
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
21.1.16
12- 5
Ein Vergleich der Grenzen des zweiseitigen Intervalls mit jeweiligen einseitigen Grenzen zur gleichen Sicherheit ergibt, daß die einseitigen Grenzen jeweils "enger" sind:
4u, 0
(4)
< 4u,a (x)
(x)
2
4o,a (x) < 4o, 0 (x)
für x> 0,
2
für xE W0.
Ist man nur an einer einseitigen Abschätzung von 1-L nach oben bzw. unten interessiert, so sollte man daher stets die zugehörige obere bzw. untere Grenze und nicht
das zweiseitige Intervall I (x) verwenden.
Ct
12.4
Berechnung der exakten Grenzen
Leider läßt sich die obere Grenze nur im Fall x = 0 explizit angeben:
(1)
4o, Ct (0)
=-log a.
Für x > 0 läßt sich die obere Grenze nicht als explizite Funktion in x und a darstellen, sondern kann nur iterativ bestimmt oder aus Tabellen abgelesen werden. Die
obere Grenze ist die (eindeutige) Nullstelle der Funktion
und kann z.B. mit dem Newton-Verfahren oder einer ("ableitungsfreien") Intervallschachtelung ermittelt werden. Als Startwert bietet sich die Schätzung 4( x) = x an oder man kann die asymptotische obere Grenze aus 12.5 verwenden.
Die untere Grenze
4u,a (x)
kann prinzipiell ebenso bestimmt werden, läßt sich aber
im nicht-trivialen Fall x> 0 wegen des Zusammenhangs G(xlf-L) = 1-F(x-11~-L) auf
die Bestimmung einer oberen Grenze zurückführen:
(3)
für x> 0.
Man kann diese Grenzen - im nicht-trivialen Fall x > 0 - auch mit den Quantilen
der Chiquadrat-Verteilung bestimmen. Bezeichnet P
x!
die Verteilungsfunktion von
m
= GamC!J:, 2), so ergibt sich aus 6.2.2 (11) folgender (exakter) Zusammenhang
(4)
mit
Unter Verwendung des oberen a-Quantils
m=2(x+1),
xEW.
2
xm;a
== <P-\1-a) der x 2 - Verteilung (vgl.
m
m
Anhang T, Seite 5-7) erhält man folgende Darstellung der Konfidenzgrenzen
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
für x > 0,
(5)
(exakte obere Grenze)
(6)
2
l2 Xm;l-a
(exakte untere Grenze) für x > 0,
21.1.16
12- 6
m = 2 (x + 1),
m = 2x .
Und für den Spezialfall x = 0 erhält man
(7)
4o,a(0)
4u,a (0) = 0
=-log a .
12.5* Asymptotische (approximative) Konfidenzgrenzen
Unter Verwendung der Normalapproximation für die Poisson-Verteilung Pois(p,)
wollen wir jetzt sogenannte asymptotische Konfidenzgrenzen für p, konstruieren,
deren Sicherheit nur approximativ gleich 1- a ist, wobei die Approximation für
wachsendes p, beliebig gerrau wird. Ausgangspunkt ist der
Poisson-Grenzwertsatz:
Pois(p,) - p,
fo
L
-----+
N(
)
0,1
für p,---+ oo.
Unter Verwendung der Verteilungsfunktion P von N(O, 1) ergeben sich die (mit
wachsendem p, besser werdenden) Approximationen der Funktionen F und G
(1)
F(xll") =
(2)
G(xll") =
X,; x; }"' p( x;)'
p{ X,; x; }"' p( Jiix).
p{
<
>
I"
Man beachte, daß die Stetigkeitskorrektur von ~ (vgl. 9.4) hier nicht verwendet wird,
obwohl diese die Güte der Approximation in (1) (2) verbessern würde. Unser Ziel
hier ist es jedoch nicht, die exakten- und konservativen- Konfidenzgrenzen möglichst
genau zu approximieren. Sondern wir wollen asymptotische Grenzen konstruieren,
die approximativ die Sicherheit 1- a einhalten und dabei nicht notwendig konservativ
sind. Das Fortlassen der Stetigkeitskorrektur in (1)(2) hat diesen Effekt.
Zur Konstruktion der asymptotischen oberen Grenze wollen wir statt der Gleichung
F(xlp,) = a jetzt die approximierte Gleichung lösen (vgl. Abb. 2)
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
(3)
12- 7
21.1.16
mit
(4)
(oberes a-Quantil von N( 0, 1)).
0
Za
N(O, 1)-Dichte mit a-Quantil
Und analog wird - allerdings nur für x > 0 - die untere Grenze als Lösung der Gleichung G(x IJ-L) = a approximiert durch die Lösung der Gleichung (vgl. Abb. 2)
(5)
bzw.
0
30
40
p,-x
jii
0
20
t
x
30
40
1
{io a(x)
)
Abb 2: Normalapproximation der Dichte von X für verschiedene Werte von p, zur
Interpretation der asymptotischen oberen Grenze fl (x) (rechts) und der unteren
oa
Grenze fl UQ (x) (links) für eine Beobachtung x.
'
links: Die 'markierte Fläche entspricht der nach (5) approximierten Wahrscheinlichkeit G(xlp,) und die untere Grenze fl (x) ist das Minimum aller Werte p,, bei dem
UQ
diese Fläche noch mindestens a ist. '
rechts: Die markierte Fläche entspricht der nach (3) approximierten Wahrscheinlichkeit F( x 11-L) und die obere Grenze fl (x) ist das Maximum aller Werte p,, bei
oa
dem diese Fläche noch mindestens a ist.'
Zur Lösung der Gleichungen (3) bzw. (5) betrachten wir die quadratische Funktion
(6)
f(p,)
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
(7)
1-L
(8)
m
21.1.16
12- 8
> 0
(x)
D(x)
Wir werden jetzt zeigen, daß die Nullstellen der Funktion f die gesuchten asymptotischen Grenzen sind. Zunächst definieren wir die Grenzen als die Nullstellen von f
(9)
fi o,o: (x) :=
p,
(10)
fi u,o: (x) ==
p,
m
m
+ VJ5lXj
(asymptotische obere Grenze) 1
(x)- VJ5lXj
(asymptotische untere Grenze),
(x)
und zeigen, daß die Grenzen die gewünschten Eigenschaften haben. Beide Grenzen
sind nicht-negativ und liegen jeweils unter- bzw. oberhalb der Schätzung fi(x) = x:
für x
(11)
> 0.
Für x = 0 ist die asymptotische untere Grenze gleich 0
(12)
fi u,o: (0) = 0
und stimmt folglich mit der exakten unteren Grenze überein. Und im Fall x > 0 gilt
in (11) an keiner Stelle die Gleichheit
(13)
0
< fi u, 0: (x) <
fi(x)
< fi o, 0: (x)
für x
> 0.
fi o, 0: (x) ist die einzige Lösung p, > 0 der approximierten Gleichung
(3). Und im Fall x > 0 ist die untere Grenze fi (x) die einzige Lösung p, > 0 der apu,o:
Die obere Grenze
proximierte Gleichung (5).
Nachdem wir die asymptotischen Grenzen jetzt definiert haben, wollen wir zeigen,
daß sie approximativ die angestrebte Sicherheit 1- a haben. Aus den fundamentalen
Äquivalenzen
(14)
fi u,o:(x) <
1-L
1-L
< fi o, 0: (x)
ergibt sich die Sicherheit dieser Grenzen zu
(15)
P{ p, < fi o,o: (X) } = P{ p,- X < z 0: · JjL }
~ 1- a ,
P{ fi u,o: (X) < p,} = P{ X -p, < z 0: · JjL}
~ 1- a .
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
21.1.16
12- 9
Diese Approximationen gehen für wachsendes p, m Gleichheiten über (wobei X
wieder mit n indiziert ist):
lim P{ p, < fi
(16)
p--+oo
o,o:
(X) } = 1- a ,
lim P{ fi
fL--+ 00
u, Q
(X) < p,} = 1- a .
Für die asymptotischen Grenzen als Funktion der Irrtumswahrscheinlichkeit a gilt:
(17)
fi u,a ist für x > 0 streng wachsend in a,
(18)
fi o,a ist für
x E W streng fallend in a.
0
Vergleich der asymptotischen mit den exakten Grenzen: Zum Vergleich betrachten wir die relativen Abweichungen der asymptotischen von den exakten
Grenzen
(17)
die in Abb. 3 für x = 1, ... , 100 und a = 1%, 5% dargestellt sind. Man erkennt einerseits, daß die Abweichungen typischerweise mit wachsender Beobachtung x geringer werden und andererseits, daß die Abweichungen der unteren Grenze deutlich
größer als die der oberen Grenze sind. Der gemeinsame Grund hierfür ist, daß die
Approximationen (1) und (2) für wachsendes p, besser werden.
Abweichung: exakt - asymptotisch
10
Abweichung: exakt - asymptotisch
20
obere einseitige Grenze
untere etnseitrge Grenze
18
a = 1%, 5%
a
~ 8
= 1%,
5%
N
J:c
7
-;, 6
c
::I
~
5 ~---------------------------
14
<i
~ 3
~
~ 2
0
10
20
30
40
50
60
70
beobachtete Anzahl
80
90 100
0
10
20
30
40
50
60
70
80
90 100
beobachtete Anzahl
Abb 3: Die relativen Abweichungen L1 (x) (links) und L1 (x) (rechts) (in Prozent)
o,a
u,a
als Funktion der Beobachtung x für a = 5% und a = 1%. Man beachte, die
unterschiedliche Skalierung.
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
21.1.16
12- 10
Typischerweise ist die exakte obere Grenze größer als die asymptotische (und die
exakte untere kleiner als die asymptotische), weil die Irrtumswahrscheinlichkeit a
< a ist, während die
(und dabei auch >a sein kann).
der exakten Grenze stets
konvergiert
12.6
asymptotische Grenze nur gegen a
Anwendung: Asbestmessungen in Schulgebäuden
Wir betrachten die im Abschnitt 0.2 beschriebene Asbestmessung in Schulgebäuden, und gehen dabei davon aus, daß die Anzahl X der Asbestfasern in einem
Stichprobenvolumen V (in hinreichender Näherung) Pois(,u)-verteilt ist.
1. Raum: Bei der Messung im ersten Raum (vgl. 0.2 Tabelle 2 oben) wurden x = 0
Asbestfasern in dem ausgewerteten Stichprobenvolumen
V = 4,28 x 1,36 I 380m 3
~
0,01532 m 3
gezählt. Die exakte einseitige obere 95%-Grenzen - d.h. a = 5% - für die erwartete
Asbestfaser-Konzentration ,u pro Volumen V ergibt sich aus 12.4 (1) zu
4o, 507'(0) =
10
2,996 '
und die entsprechende obere Grenze für die erwartete Konzentration A =
,u I V
pro
m 3 ergeben sich hieraus (gerundet) zu
3
A
A 507 (0) = 196/m .
o, 10
Die Bestimmung der asymptotischen oberen Grenze ist wegen x = 0 nicht sinnvoll. D
2. Raum: Bei der Messung im zweiten Raum (vgl. 0.2 Tabelle 2 Mitte) wurden x = 2
Asbestfasern in dem ausgewerteten Stichprobenvolumen
V = 3,65 x 1,64 I 380m 3
~
0.01575 m 3
gezählt. Die exakten (einseitigen) 95%-Grenzen - d.h. a = 5% - für die erwartete Asbestfaser-Konzentration ,u pro Volumen V ergeben sich aus 12.4 (6) (7) mit den
Quantilen
x~. 95 % = 0,711 und x~. 5%= 12,592 zu
'
'
4u, 507'(2)
10
= 0,355
4o, 507'(2)
10
= 6,296
0
Und die zugehörigen asymptotischen Grenzen aus 12.5 (7)-(10) erhält aus
,u = 3,553 und
m
/D = 2,691 zu
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
fi u, 507(2)
10
fi o, 507(2)
10
= 0,662
= 6,044
21.1.16
12- 11
0
Die entsprechenden Grenzen für die erwartete Konzentration ). = 1-L /V pro m 3 ergeben sich hieraus (gerundet) zu
3
A
-
A 507 (2) = 23/m ,
u, 10
3
3
A
A 507 (2) = 384/m , A 507 (2) = 400/m .
o, 10
o, 10
Man beachte, daß das Intervall von unterer bis oberer Grenze - das ja eine Sicherheit von 90% hat - mehr als eine Größenordnung umfaßt und somit noch relativ
ungenau ist. Dies liegt - wie auch das folgende Meßergebnis im 3. Raum zeigt - an
der geringen Zahl x = 2 der gezählten Fasern.
Beim Vergleich mit 0.2 Tabelle 2 ist zu beachten, daß dort die (gerundete) obere
Grenze des zweiseitigen 95%-Intervalls angegeben ist, also die mit a = 2,5% analog
berechnete obere Grenze 5.
(2) = 459/m bzw. ~
3
o, 2 507
10
0
o, 2 507
10
(2) = 463/m
3
D
.
0
3. Raum: Bei der Messung im dritten Raum (vgl. 0.2 Tabelle 2 unten) wurden x = 8
Asbestfasern in dem ausgewerteten Stichprobenvolumen
V = 4,16 x 1,40 I 380m 3
~
0,01533 m 3
gezählt. Und als (einseitige) 95%-Grenzen - d.h. a = 5% - für die erwartete Asbestfaser-Konzentration 1-L (pro Volumen V) bzw. ). (pro m 3 ) erhält man mit den Quantilen
xi6·' 95% = 7,962 und xis·' 5% = 28,869 jetzt (gerundet) zu
4u, 507(8)
10
A
fi u, 507(8)
10
= 3,981'
fi o, 507(8)
10
= 4,508 '
3
A 507 (8) = 260/m , 5. 507 (8) = 294/m
u, 10
u, 10
3
= 14,20 '
4o, 507(8)
10
= 14,43
5. o, 50710 (8) = 926/m 3, Ao, 50710 (8) = 942/m
A
,
3
Im Gegensatz zum 2. Raum ist hier die obere Grenze nur rund viermal so groß wie
die untere Grenze, weil insgesamt mehr Fasern (x = 8) gezählt wurden. Hätte man
beim 2. Raum das vierfache Volumen 4 V (statt V) ausgewertet und darin auch die
vierfache Anzahl von Fasern (also x= 8) gefunden, so ergäben sich wieder obige auf
x = 8 basierende Grenzen und entsprechend engere Grenzen für
A=
1-L /
4 V.
Beim Vergleich mit 0.2 Tabelle 3 ist zu beachten, daß dort die (gerundete) obere
Grenze des zweiseitigen 95%-Intervalls angegeben ist, also die mit a = 2,5% analog
berechnete obere Grenze 5.
(8) = 1029/m bzw. ~
3
o, 2 507
10
0
o, 2 507
10
0
(8) = 1030/m
3
.
D
Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung
12.7
21.1.16
12- 12
Konfidenzgrenzen bei unabhängigen Wiederholungen
Sind (statt einer) jetzt nunabhängige Pois(,u)-verteilte Zufallsvariablen X , ... , Xn ge1
geben, so wird obige Konstruktion für die Summe X t == X
1
+ ... +Xn durchgeführt,
wobei
(1)
mit
X+ die zugehörige Realisierung von
Für Realisierungen x1, ... , xn von x1, ... , x2 ist
X+ und wir können die Überlegungen aus den vorangegangenen Abschnitten darauf anwenden. Die Schätzung von ,u(n) ist p,(n)(x+) = x + und die zughörige Schätzung von ,u = 1._ ,u(n) ergibt sich zu
n
(2)
und ist natürlich der Mittelwert von x , ... , xn. Analog erhält man aus den exakten
1
Konfidenzgrenzen für ,u(n) die zugehörigen exakten Grenzen für ,u
(3)
A
(
,Uup x
+ :=
)
1
A
(n) (
n ,Uup x
+) '
A
(
,U op x
+ :=
)
1
A
(n) (
n ,U o,o: x
+) '
deren Irrtumswahrscheinlichkeit höchstens a ist
(4)
< ,u}
P{ A(n) (X ) < (n)} < a'
P{ ,u < Jlu,o:(X +)}
P{ (n)< A(n)rx )} < a.
P{ P, o,o:(X+)
+-
,uo,o:
,U
-
,uu,ci
,u
+
Und die approximativen Grenzen für ,u ergeben sich analog aus denen für ,u(n) zu
(5)
-
(
,Uup x
+) :=
1 -(n) (
n,Uup x
+) '
-
(
,Uop x
+) :=
1 -(n) (
n ,U o,o: x
+)
Für wachsenden Stichprobenumfang n---+ oo gilt ,u(n)---+ oo und die Irrtumswahrscheinlichkeit der approximativen Grenzen konvergiert nach 12.5 (16) gegen a:
(6)
lim P{ fi
n---+oo
o,o:
(X(+n)) <
,u} = a,
-
lim P{ ,u < fi
n---+oo
wobei
(7)
(n) - X
Xt
- 1+
... + X n
die Summe der ersten n Zufallsvariablen bezeichnet.
-
u,o:
(X(+n))} = a,
Testen von Hypothesen über Wahrscheinlichkeiten
13-1
2.2.16
13. Testen von Hypothesen über Wahrscheinlichkeiten
Mit dem Schätzen eines Parameters - wie z.B. der Erwartungswert - und der Konstruktion von Konfidenzgrenzen haben wir bereits zwei wichtige Verfahren der Statistik kennengelernt, mit denen man aus beobachten Daten (d.h. Realisierungen von Zufallsvariablen) Rückschlüsse auf unbekannte Parameter ziehen kann. Wir wollen
jetzt eine weiteres grundlegendes Verfahren der Statistik kennenleren: das Testen
von Hypothesen. Das Ziel eines statistischen Tests ist es, eine Entscheidung zwischen
zwei Hypothesen über den (oder die) Parameter der Verteilung von Zufallsvariablen
aufgrund von beobachteten Realisierungen dieser Zufallsvariablen zu treffen. Zur
Einführung in die Problematik betrachten wir zunächst Binamial-Tests mit Hypothesen über eine Wahrscheinlichkeit p E (0, 1), also über den Erwartungswert der
B(1, p)- Verteilung.
Wahlumfrage
Angenommen eine Partei steht vor der Entscheidung, ob sie vorzeitigen Neuwahlen
zustimmen soll oder nicht. Bevor sie zustimmt, will sie wissen, ob sie bei den Neuwahlen ihr Wahlziel erreichen würde, d.h ob ihr Stimmanteil p (in der betroffenen
Region) größer ist als ein Minimalwert p E (0,1), z.B. p =50% (absolute Mehrheit).
0
0
Die zugehörigen Hypothesen lassen sich wie folgt formalisieren
(1)
H<:p<po
(Minimalwert wird nicht überschritten)
H>:p>po
(Minimalwert wird überschritten).
vs.
Die Entscheidung zwischen beiden Hypothesen will die Partei vom Ergebnis einer
Wahlumfrage mit n (voneinander unabhängigen) Befragungen abhängig machen.
Die Anzahl X der Für-Stimmen in der Umfrage ist dann B(n,p)-verteilt. Als Konsequenz will sie vorzeitigen Neuwahlen nur dann zustimmen, wenn sie sich aufgrund
der Umfrage für die Hypothese H>: p > p0 entschieden hat.
Eine geringfügig andere Variante der Hypothesen wäre
(2)
H<:p<po
(Minimalwert wird unterschritten)
H>:p >Po
(Minimalwert wird nicht unterschritten),
vs.
z.B. wenn p = 5% und es um die Überwindung der 5%-Hürde geht. Es wird sich je0
doch zeigen, daß hierfür derselbe statistischen Test wie für (1) verwendet wird.
D
Testen von Hypothesen über Wahrscheinlichkeiten
13-2
2.2.16
Therapie-Erfolg
Ein Klinikum steht vor der Entscheidung, eine Standardtherapie (z.B. eine Chemotherapie) durch eine neue und teurere Therapie zu ersetzen. Aus Kostengründen
will man sich für die neue Therapie (als neuen Standard) nur dann entscheiden,
wenn ihre Erfolgs-Wahrscheinlichkeit p größer ist als die Erfolgs-Wahrscheinlichkeit p der bisherigen Standardtherapie. Die formalisierten Hypothesen lauten
0
(3)
H<:p<po
(neue Therapie nicht besser als Standard)
H>:p>po
(neue Therapie besser als Standard)
vs.
Die Entscheidung zwischen beiden Hypothesen - und die damit verbundene Entscheidung über das Ersetzen der Standardtherapie durch die neue Therapie - will
das Klinikum vom Ergebnis einer klinischen Studie abhängig machen, bei der die
neue Therapie in insgesamt n (voneinander unabhängigen) Fällen angewandt wird.
Die Anzahl X der Therapie-Erfolge ist dann B(n,p)-verteilt.
Betrachtet man (wie im Beispiel in 11.4) statt der Erfolgs-Wahrscheinlichkeit p die
komplementäre Wahrscheinlichkeit q = 1- p für das Versagen, so lassen sich die
Hypothesen äquivalent formulieren durch
(3)'
H>: q> qo
(neue Therapie nicht besser als Standard)
H<:q<qo
(neue Therapie besser als Standard).
Die Anzahl Y = n-X der Therapie-Versager ist jetzt B(n,q)-verteilt.
vs.
D
Genetik: Dominanter Erbgang
Zur Klärung des Erbgangs eines interessierenden Merkmals (z.B. die Blütenfarbe
des Löwenmäulchens) werden in der Genetik Kreuzungsversuche durchgeführt. Bei
einem dominanten Erbgangs wird die interessierende Merkmalausprägung (z.B. rote
Blüte) durch ein Gen mit zwei Allelen A (dominant, z:B. rot) und a (rezessiv, z.B.
weiss) gesteuert, wobei das Merkmal (z.B. rote Blüte) gerrau dann auftritt, wenn
mindestens ein dominantes Allel A vorhanden ist. Bei einer dihybriden Kreuzung
AA x aa hat die erste Tochtergeneration F immer den Genotyp Aa und das Merk1
mal tritt stets auf. Eine weitere Kreuzung A a x A a ergibt in der Tochtergeneration
F 2 die drei Genotypen AA, Aa und aa mit den zugehörigen Wahrscheinlichkeiten
(bei zufälliger Weitergabe der jeweiligen Allele)
Testen von Hypothesen über Wahrscheinlichkeiten
P{AA}=~,
13-3
2.2.16
P{aa}=~.
P{Aa}=~,
Die Wahrscheinlichkeit für das Auftreten des Merkmal (z.B. rote Blüte) m der
F 2 -Generation ist beim dominanten Erbgang daher p 0 = ~Will man überprüfen, ob ein bisher nicht untersuchter Erbgang dominant ist oder
nicht, so läßt sich dies aus Hypothesen über die Wahrscheinlichkeit p für das Auftreten des Merkmals in der F -Generation ableiten:
2
(4)
H= :p
=po
H:;zt_: p :;=Po
(Übereinstimmung mit dominantem Erbgang)
vs.
(keine Übereinstimmung mit dominantem Erbgang).
Bei einem Umfang n der F -Generation hat die Anzahl X der Nachkommen mit
2
diesem Merkmal eine B(n,p)- Verteilung. Aufgrund der beobachten Anzahl x will
man sich dann für eine der beiden Hypothesen entscheiden.
D
Im folgenden werden wir zuerst das Testproblem mit Hypothesen der Form (1)
ausführlich behandeln und die Testprobleme der Form (2), (3) und (4) darauf zurückführen.
13.1
Der exakte einseitige Binamial-Test mit oberer Alternative
Für eine Zufallsvariable X mit B(n,p)- Verteilung betrachten wir die folgenden einseitigen Hypothesen über die Wahrscheinlichkeit p im Bezug auf einen vorgegeben
Referenzwert 0 < p
(1)
0
< 1:
Nullhypothese H :
0
Alternative H :
(Referenzwert wird nicht überschritten)
(Referenzwert wird überschritten).
Zur Unterscheidung haben wir bereits eine der beiden Hypothesen als Nullhypothese
und die andere als Alternative bezeichnet. Man kann die Hypothesen formal als
Menge aller Parameter p auffassen, für die die Hypothese zutrifft, d.h.
(2)
Testen von Hypothesen über Wahrscheinlichkeiten
13-4
2.2.16
13.1.1 Statistische Tests
Gesucht ist eine Entscheidungsregel, die jeder Realisierung x E {0, ... , n} von X eine
der beiden Hypothesen als Entscheidung zuordnet. Dies läßt sich durch eine Entscheidungsfunktion (engl.: decision function) d: {0, ... , n}-----+ {0, 1} mit folgender Inter-
pretation formalisieren:
(1)
d(x) =
U
Entscheidung für Nullhypothese H0 aufgrundvon x
Entscheidung für Alternative H
aufgrund von x
d.h. d ist die Indikatorfunktion für die Entscheidung zugunsten der Alternative. Das
Testproblem (H ,H) zusammen mit einer Entscheidungsfunktion d wird auch als
0
ein statistischer Test bezeichnet. Wir wollen im folgenden einen Test d herleiten, der
in einem noch zu präzisierenden Sinn optimal ist. Zuerst wollen wir die Klasse aller
möglichen Tests d sinnvoll einschränken. Ausgehend von der Schätzung
(2)
(beobachtete relative Häufigkeit)
ist es naheliegend, sich für die Alternative zu entscheiden, wenn
als der Referenzwert p ist. Und wenn
0
p(x)
p(x)
deutlich größer
deutlich kleiner als p ist, wird man die
0
Nullhypothese bevorzugen. Wir betrachten nun zwei Realisierungen 0 < x
< x2 < 1.
entscheidet, so sollte er wegen p(xJ
1
Wenn sich der Test bei x für die Alternative H
1
> p(x1)
sich auch bei x für H entscheiden. Umgekehrt sollte sich der Test bei x für
2
1
die Nullhypothese H 0 entscheiden, wenn er sich bereits bei x2 für H 0 entschieden
hat. Insgesamt sollte daher sinnvollerweise gelten
(3)
d(x1 ) = 1
d(x 2 ) = 1,
d(x 2 ) = 0
d(x1 ) = 0 .
Jeder Test d mit (3) ist eindeutig bestimmt durch k = Min { x I d(x) = 1} und wird
daher mit dk bezeichnet, d.h. der Test dk: {0, ... , n}-----+ {0, 1} ist gegeben durch:
(4)
x>k
dk(x) = 1 (Entscheidung für Alternative)
{}
p(x)>~.
Wir betrachten jetzt nur noch Tests der Form dk für k E { 0, ... , n + 1}, wobei wir
auch die konstanten Tests d0
1 und dn+ 1
0 zulassen (deren Entscheidung nicht
von der Beobachtung x abhängt). Um unter diesen Tests ein optimales dk bestimmen zu können, betrachten wir zuerst die möglichen Fehlentscheidungen eines Tests.
Testen von Hypothesen über Wahrscheinlichkeiten
13-5
2.2.16
13.1.2 Fehlerrisiken und Testschärfe
Tab. 1: Fehlentscheidungen eines statistischen Tests d
Testentscheidung
In Wirklichkeit gilt
Nullhypothese
für Beobachtung x
alternative Hypothese
Nullhypothese wird
falsch-negative
nicht abgelehnt:
d(x) = 0
richtige Entscheidung
Nullhypothese wird
falsch-positive
abgelehnt
d(x) = 1
Entscheidung:
Entscheidung:
Fehler 2. Art
(ß)
richtige Entscheidung
Fehler 1. Art (a)
Bei einem Test d sind für eine Beobachtung x prinzipiell zwei Arten von Fehlentscheidungen möglich (vgl. Tab. 1):
•
Fehler 1. Art (falsch-positive Entscheidung):
Ablehnung der Nullhypothese H ( d.h. d(x) =
0
•
Fehler 2. Art (falsch-negative Entscheidung):
Annahme der Nullhypothese H ( d.h. d(x) =
0
1), obwohl sie zutrifft.
o), obwohl sie nicht zutrifft.
In konkreten Anwendungssituationen haben diese beiden Fehler typischerweise unterschiedliche Bedeutung und Konsequenzen. Wir erläutern dies kurz an den einleitenden Beispielen zu diesem Kapitel, wobei wir die jeweils erstgenannte Hypothese
als Nullhypothese und die zweite als Alternative ansehen (vertauscht man jeweils
Nullhypothese mit der Alternative, so vertauschen sich auch beide Fehler).
Wahlumfrage (Fortsetzung): Betrachten wir konkret den Wert p = 5%, so bedeu0
tet der Fehler 1. Art eine Entscheidung für die Alternative H: p > p (und somit Zu0
stimmung zu Neuwahlen) obwohl dies nicht zutrifft, d.h. die Partei scheitert bei
Neuwahlen an der 5%-Hürde. Und beim Fehler 2. Art entscheidet man sich für die
Nullhypothese H
0
:p < p
0
(und somit gegen Neuwahlen), obwohl der erneute Einzug
ins Parlament gesichert wäre, d.h. ein günstiger Wahltermin wird nicht genutzt.
D
Therapie-Erfolg (Fortsetzung): Beim Fehler 1. Art entscheidet man sich für die
Alternative, also für die Einführung der neuen (und teureren) Therapie, obwohl sie
nicht besser ist als der Standard. Und der Fehler 2. Art besteht darin, die bisherige
Therapie beizubehalten, obwohl die neue besser ist.
D
Testen von Hypothesen über Wahrscheinlichkeiten
2.2.16
13-6
Genetik (Fortsetzung): Der Fehler 1. Art besteht darin, den dominaten Erbgang abzulehnen, obwohl er zutrifft. Und beim Fehler 2. Art entscheidet man sich für den
dominanten Erbgang, obwohl er falsch ist.
D
Da die Entscheidung von der Realisierung x der Zufallsvariablen X abhängt - und
somit auch vom Zufall abhängt - können wir die Wahrscheinlichkeilen für den Fehler
1. und 2. Art bestimmen. Hierzu betrachten wir für eine Entscheidungsfunktion d
die zufällige Entscheidung d(X) E {0,1}. Die Verteilung von d(X) ist gegeben durch
die Wahrscheinlichkeit für die Ablehnung der Nullhypothese 1 die man auch als Schärfe
(engl.: power) des Tests d bezeichnet
Pow iP) := P{ d(X) = 1 I p}
(1)
(Schärfe 1 Power von d) 1
wobei wir die Abhängigkeit der Wahrscheinlichkeit P{ d(X) = 1} vom Parameter p
der B(n,p)-Verteilung von X explizit mit in die Notation aufgenommen haben. Die
zugehörige Funktion Pow d: (0, 1)-----+ [ 0, 1] heißt die Schärfefunktion von d. Unter Verwendung der Schärfefunktion lassen sich beide Fehlerrisiken bestimmen. Unter der
Nullhypothese, d.h. für p E H , ist das Fehlerrisiko 1. Art a(p) definiert als Wahr0
scheinlichkeit für einen Fehler 1. Art und somit durch die Schärfe gegeben
(2)
falls p EH
0
(Nullhypothese gilt).
Und unter der Alternative, d.h. für p EH, ist das Fehlerrisiko 2. Art ß(p) definiert als
Wahrscheinlichkeit für einen Fehler 2. Art und somit durch die komplementäre
Schärfe gegeben
(3)
ßip) == 1- Pow iP)
falls p EH
(Alternative gilt).
Wir betrachten jetzt wieder die Tests aus der Klasse { dk I k = 0, ... , n + 1}. Für den
Test dk ist die Schärfefunktion gegeben durch
(4)
(p) = P{X>k IP} = G(klp)
Powd
mit Gaus 11.2 (1).
k
Für p k IP 0 } = G(klp 0 )
Max { a d (p) I p p ist das Fehlerrisiko 2. Art (vgl. Abb. 1)
0
(7)
ßd (p) = P{X<k IP} = F(k-1lp)
mit F aus 11.1 (1)
k
fallend (für 0 < k < n sogar streng fallend) in p und im Grenzfall p = p ergibt sich
0
(8)
P{X<k IP 0 } = F(k-1lp 0 )
ßdk (Po)
Cmaximales 11 Fehlerrisiko 2.Art).
sup{ßd (p) lp>p 0 }
k
p
1
Po
!
0,6
0,7
0,8
60
70
80
p
Po
1
!
0,9
0,6
1.0
0,7
0,8
t
t
0,9
1,0
90
100
k
k
Abb. 1: Die Fehlerrisiken des Test dk für p = 80% mit n _100 und k = 85 als mar0
kierte Fläche unter der Dichte von X"' B( n, p) bzw. X=~ X (obere Skala).
links: Fehlerrisiko 1. Art P{ X> k Ip} für p = 75% p und p = p (maximales Risiko).
Die Bezeichnung maximales Fehlerrisiko meint (hier und später) immer das Supremum, wenn das entsprechende Maximum nicht angenommen wird, wie z.B. in (8).
Man beachte, daß die maximalen Fehlerrisiken 1. Art bzw. 2. Art jeweils für p = p
und somit auf dem Rand {p
0
}
zwischen der Nullhypothese H = (O,p
0
0
]
0
und der Al-
ternative H = (p , 1) angenommen wird. Für die maximalen Fehlerrisiken ist es da0
her unwesentlich, ob der Rand-Wert p = p (wie hier) zur Nullhypothese oder zur
0
Alternative gezählt wird. Für die modifizierten Hypothesen
H~ =
(O,p 0 ) und
H* = [p 0, 1) - vgl. auch 13 (2) -ergeben sich daher auch obige maximale Fehlerrisken
Testen von Hypothesen über Wahrscheinlichkeiten
(9)
13-8
15.3.16
sup { ad (p) I p<po}
k
(10)
Max { ßd (p) I p > p0 }
k
Typischerweise wird die Nullhypothese so gewählt, daß sie den Randwert p = p
enthält, d.h. H = (0, p
0
0
]
bzw. H
0
0
:p < p .
0
13.1.3 Der optimale Test zum vorgegebenen Niveau
Es wäre wünschenswert, unter allen Tests dk ein solches k E {0, ... , n + 1} auszuwählen, bei dem beide Fehlerrisiken a d (p 0 ) und
k
ßd (p 0 ) möglichst gering sind. Leider
k
läßt sich dies nicht erreichen weil das Fehlerrisiko 1. Art a d (p) bei wachsendem k
k
abnimmt, während gleichzeitig das Fehlerrisiko 2. Art ßd (p) zunimmt. Die maximalen
k
Risiken sind sogar zueinander komplementär, d.h. es gilt (vgl. auch Abb. 1)
(1)
Folglich kann man nicht beide Fehlerrisiken durch die Wahl von k gleichzeitig minimieren. Da in konkreten Anwendungssituationen die beiden Fehler typischerweise unterschiedliche Bedeutung haben, hat man sich darauf geeinigt, bei der Gewichtung der Fehler Prioritäten zu setzen, und dabei dem Fehler 1. Art eine größere
Bedeutung beizumessen, als dem Fehler 2. Art (was man ggf. durch Vertauschen
beider Hypothesen stets erreichen kann). Das Fehlerrisiko 1. Art soll dann durch
Vorgabe eines nominalen Testniveaus 0 < a
<~
kontrolliert werden, wobei man in der
Praxis - wie bei den Konfidenzgrenzen - routinemäßig den Wert a = 5% (und nur
in begründeten Fällen kleinere oder größere Werte) verwendet. Damit ergibt sich
als erste Forderung an den Test dk
(2)
Unter allen Tests dk deren maximales Fehlerrisiko 1. Art höchstens a ist, d.h. für
die (2) gilt, suchen wir jetzt dasjenige k , bei dem das Fehlerrisiko 2. Art ßd (p) für
k
Q
jedes p > p0 minimal wird. Da ßd (p) wachsend in k E { 0, ... , n + 1} ist, ergibt sich das
k
gesuchte kQ als Minimum aller Werte k mit (2), d.h. (vgl. auch Abb. 21 links):
Der zu diesem k(X gehörige Test ist der gesuchte optimale Test und wird jetzt mit
d>: = dka bezeichnet (der Index
">" steht für
die Alternative H: p > p0 ). Die zugehö-
rige Test-Entscheidung läßt sich auf verschiedene Weise äquivalent formulieren:
Testen von Hypothesen über Wahrscheinlichkeiten
13-9
2.2.16
Exakter einseitiger oberer Binomial-Test zum (nominellen) Niveau a.:
Ablehnung der Nullhypothese H
0
:p p0 aufgrund einer Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist:
(4)
Die Beobachtung x überschreitet einen oberen kritischen Wert k a(p 0 )
(5)
Die Wahrscheinlichkeit P{ X> x I p
(6)
Die exakte untere Konfidenzgrenze
0
}
unterschreitet das Niveau a:
pu,a (x)
überschreitet den Wert p0
p=po
.l
0,4
0,6
0,8
I
I
1 10
I
0,4
0,6
0,8
1,0
I
I
i
I
0 ,4
0 ,6
0,8
1,0
10
15
20
25
'
'
~
;
'
r:
r- :
'
;'
'
'
I
'
'
'
'
I
r
I
''
'
'
I
10
~
15
'
'
''
I
20
r
vP
<a
rc
~
I
25
10
15
I
I
n
25
20
t
X
X
Abb. 2: Dichten von X,.....__ B( n, p) bzw. X=~ X (obere Skala) zur Illustration des exakten einseitigen oberen Test mit n = 251 p = 0,8 und a = 5%.
0
links: Dichte für p = p0 mit kritischen Wert ka(p 0 ).
Mitte: Dichte für p = p mit P = P{ X> x I p } als markierter Fläche.
0
0
rechts: Dichte für p = p (x) mit a als markierter Fläche.
u,a
Die Testentscheidung basiert also auf der Beobachtung x, dem Niveau a und dem
Referenzwert p und die Bedingungen (4) - (6) unterscheiden sich dadurch, daß aus
0
jeweils zwei dieser Größen eine neue berechnet und diese mit der dritten Größe verglichen wird (vgl. Abb. 2). Obwohl man nur eine der äquivalenten Bedingungen (4) -
Testen von Hypothesen über Wahrscheinlichkeiten
2.2.16
13-10
(6) nachprüfen muß, sollte man alle drei dort auftretenden Größen berechnen, weil
sie über die Testentscheidung hinaus von Interesse sind.
Über die Bedeutung der unteren Konfidenzgrenze
pu,a (x)
aus (6) haben wir schon
ausführlich in Kap. 11 gesprochen. Im Zusammenhang mit obigem Test entspricht
sie dem maximal möglichen Referenzwert p , bei dem die Nullhypothese aufgrund
0
der Beobachtung x noch abgelehnt wird (vgl. Abb. 21 rechts).
Die in (5) auftretende Wahrscheinlichkeit P{ X> x I p
0
}
wird auch als Signifikanz
der Beobachtung x oder als P-Wert bezeichnet (vgl. Abb. 21 Mitte). Sie entspricht der
unter der Nullhypthese H
0
:p x I p} für
die Beobachtung x oder größerer Werte (da hier eine obere Alternative vorliegt). Der
P- Wert beurteilt also den durch x gegeben oberen Randbereich unter der Nullhypothese: je kleiner der P- Wert desto unwahrscheinlicher ist die Beobachtung x unter
der Nullhypothese im Hinblick auf die (obere) Alternative. In diesem Sinn ist der
P- Wert ein Maß für die "Glaubwürdigkeit" der Nullhypothese im Lichte der
Beoachtung x, und man lehnt die Nullhypothese gerrau dann ab, wenn dieser PWert das Niveau a unterschreitet.
Auch der (nicht von der Beobachtung x abhängende) kritische Wert ka(p 0 ) ist für
den Test d> von Bedeutung (vgl. Abb. 21 rechts), weil sich hieraus die Schärfe ergibt
Das maximale Fehlerrisko 1. Art ist (als Folge der "Unstetigkeit" der Binomialverteilung) stets höchstens gleich dem nominalen Testniveau
Man bezeichnet a>(p 0 ) auch als das effektive Testniveau. Der Test ist in dem Sinn
konservativ, daß er die vorgebenene Irrtumswahrscheinlichkeit a im allgemeinen
nicht voll ausschöpft.
Der kritische Wert ka(p 0 ) kann mit geeigneter Software direkt ermittelt werden
(vgl. z.B. Anhang V). Er läßt sich auch schrittweise wie folgt bestimmen. Für einen
beliebigen Startwert k wird G(k) =P{ X> k I p
0
}
berechnet. Falls G(k) < a bzw.
G(k) > a ist, so wird k schrittweise verringert bzw. erhöht bis G(k)
< a < G(k-1) gilt,
und dann ist k = k a(p 0 ). Ein geeigneter Startwert ist der gannzahlig aufgerundete
asymptotische Wert ka(p 0 ) aus 13.4.1 (3). Bei nicht zu großem n kann man auch
einfach mit k = n starten.
Testen von Hypothesen über Wahrscheinlichkeiten
13-11
2.2.16
Man beachte, daß im extremen Fall k rx(p 0 ) = n + 1 sogar a>(p 0 ) = 0 gilt, weil der
Test dntl
a
0 die Nullhypothese nie ablehnt. Dieser Fall tritt allerdings nur für
< G(n Ip0 ) =
p ~ ein, und läßt sich vermeiden, indem man n erhöht oder a entspre-
chend heraufsetzt. Um diesen in der Praxis sinnlosen Fall auszuschließen, sollte n
bzw. a in dem Sinn aufeinander abgestimmt sein, daß a
> p~ gilt.
Therapie-Erfolg (Fortsetzung)
Wir gehen jetzt konkret davon aus, daß die Standard-Therapie eine Erfolgsquote
von p = 80% hat und wollen über die Hypothesen aufgrund einer Studie mit nur
0
n = 25 Therapie-Anwendungen zum Niveau a = 5% entscheiden. Der kritische Wert
ist dann krx (p 0 ) = 24, weil (vgl. Abb. 2 links)
P{ X> 241 p 0 } = 2,74% < a = 5% < 9,82% = P{ X> 231 p 0 }.
Insbesondere ist das effektive Testniveau mit 2,74% fast nur halb so groß wie das
nominelle Niveau von 5%.
Wir betrachten wieder das konkrete Ergebnis im Beipiel aus 11.4. Dort sind 3 Therapie-Versagen und somit x = 22 Therapie-Erfolge beobachtet worden, d.h. der beobachtete Therapie-Erfolg trat in
p=
88% der Anwendungen ein. Nach (4) wird die
Nullhypothese wegen x = 22 < 24 = krx(p 0 ) nicht abgelehnt. Der P- Wert aus (5) beträgt
P{ X> 221 p 0 } = 23,40% und somit ist die Wahrscheinlichkeit für mindestens 22 Erfolge unter der Nullhypothese noch relativ hoch. Die untere Konfidenzgrenze für den
Therapie-Erfolg ergibt sich (aus der in 11.4 angegeben oberen Grenze von 28,2 %
für das Therapie-Versagen) zu
pu
= 71,8 % und liegt natürlich auch unterhalb von
p , d.h. (6) trifft nicht zu. - Da sich der Test hier für die Nullhypothese entschieden
0
hat, kann ein Fehler 2. Art vorliegen, und über das zugehörige Fehlerrisiko 2. Art
wissen wir zunächst noch nichts.
Um den Einfluß des Umfangs n zu illustrieren gehen wir jetzt von n = 100 Anwendungen aus. Der kritische Wert ist dann krx(p 0 ) = 87 (vgl. auch Abb. 3), weil
P{X>87I Po}= 4,69% < a = 5% < 8,04% =P{X>86I Po}'
und das effektive Niveau a>(p 0 ) = 4,69%) weicht nur wenig vom nominellen Niveau
a = 5% ab. Gehen wir wie oben von einer beobachteten Erfolgsquote von
p=
88%
aus, so entspricht dies x = 88 beobachteten Erfolgen, und der Test entscheidet sich
jetzt für die Alternative. Hierbei ist zwar ein Fehler 1. Art möglich ist, aber dessen
Risiko (Wahrscheinlichkeit) ist durch das Niveau a = 5% nach oben begrenzt. - Der
Testen von Hypothesen über Wahrscheinlichkeiten
13-12
2.2.16
P-Wert P{ X> 881 p } = 2,53% liegt hier auch deutlich unter a = 5%. Die untere
0
Konfidenzgrenze
pu =
81,3% liegt dann natürlich auch oberhalb von p = 80%.
0
D
13.1.4 Analyse des Fehlerrisikos 2. Art
Die Prioritätensetzung bei den beiden Fehlerrisiken hat auch praktische Konsequenzen. Wenn man die Nullhypothese abgelehnen und sich für die Alternative entscheiden wird, so kann höchstens ein Fehler 1. Art vorliegen und das maximale Risiko hierfür ist durch das vorgegebene Testniveau a begrenzt. In diesem Fall wird
die Alternative daher mit Wahrscheinlichkeit 1- a abgesichert.
Wenn man sich jedoch für die Nullhypothese entscheiden wird, dann kann ein Fehler
2. Art vorliegen und das zugehörige Risiko
wird nicht (direkt) durch den Test kontrolliert. Folglich ist die Sicherheit 1- ß>(p) =
Pow>(p) einer Entscheidung für die Nullhypothese nicht kontrolliert und hängt sogar
von der unbekannten Wahrscheinlichkeit p ab. Um dennoch in dieser Situation eine
gewisse Sicherheit zu haben, kann man vorher die Schärfe Pow>(p) oder das Fehlerrisiko 2. Art ß>(p) für spezielle Werte von p bestimmen, die in der jeweiligen Anwendungssituation relevant sind, wie im folgenden Beispiel.
Therapie-Erfolg (2. Fortsetzung)
Typischerweise ist eine geringfügige Verbesserung der Erfolgs-Wahrscheinlichkeit
z.B. p = 81% oder p = 82% der neuen Therapie gegenüber dem Standard von
p = 80% klinisch nicht relevant (außer, wenn das Therapieversagen schwere Schä0
den oder sogar den Tod zur Folge hat). Von Relevanz sind meist deutliche Verbesserungen, wie z.B. p = 90% (d.h. eine Halbierung der Versagensquote von q = 20%
0
auf q = 10%) oder sogar p = 95% (d.h. q = 5%). Die Wahrscheinlichkeit, daß der Test
diese relevanten Werte auch "entdecken", d.h. sich für die Alternative entscheiden
wird, ist für n = 25 und krx(p 0 ) = 24 gegeben durch die zugehörigen Schärfen
n=25:
Pow>(90%) = G(24I90%) = 27%,
Pow>(95%) = G(24l95%) = 64%.
Diese Werte sind inakzeptabel gering, d.h. die Fehlerrisiken
ßi90%) = 73% und
ßi95%) = 36% sind zu groß. Der Grund hierfür ist die relative niedrige Anzahl
Testen von Hypothesen über Wahrscheinlichkeiten
13-13
2.2.16
n = 25. Für n = 100 mit kr)p 0 ) = 87 ergibt sich schon bei p = 90% (vgl. Abb. 3)
n = 100:
Pow>(90%) = G(87I90%) = 88%,
ß>(90%) = 12%
was durchaus akzeptabel ist.
D
Wie das Beispiel zeigt, kann man allein durch Vergrößerung des Umfangs n die
Schärfe des Tests erheblich verbessern. Dies sollte man bereits bei der Planung der
Datenerhebung berücksichtigen, indem man vorher den erforderlichen Mindestumfang n bestimmt, der bei vorgegebenem a eine akzeptable Schärfe für ein anwendungsrelevantes p > p garantiert. Hierauf gehen wir erst später (in 13.5) näher ein.
0
p=p
t
0 ,7
65
70
0
1,0
0,8
75
80
85
T
ka
9o
95
100
Abb. 3: Die Testschärfe Pow(p) als markierte Fläche unter der Dichte von X,.....,_
B(n,p) bzw. X= ~X (obere Skala): links für p = p0 (Nullhypothese) und rechts für
eine Alternative p = p1 > p0 . - Die Werte n = 100, p0 = 80%, a = 5%, ka = 871
p = 90% hier entsprechen dem Beispiel zum Therapie-Erfolg, wobei
1
Pow(p ) = 4,7% und Pow(p ) = 88%.
0
1
Testen von Hypothesen über Wahrscheinlichkeiten
13.2
2.2.16
13-14
Der exakte einseitige Binamial-Test mit unterer Alternative
Für eine Zufallsvariable X mit B(n,p)-Verteilung betrachten wir jetzt die folgenden
einseitigen Hypothesen mit der ;;unteren 11 Alternative:
(1)
Nullhypothese H :
(Referenzwert wird nicht unterschritten)
0
Alternative H :
(Referenzwert wird unterschritten).
Dieses Hypothesen sind in gewisser Weise "dual" zu den bisher (in 13.1) betrachteten Hypothesen und lassen wie folgt auf diese zurückführen. Betrachten wir die Zufallsvariable Y = n- X mit B(n, q)- Verteilung, wobei q = 1- p die komplementäre
Wahrscheinlichkeit ist, so lauten die Hypothesen mit q = 1- p
0
(1) I
Nullhypothese H :
q < qo'
Alternative H :
q > qo'
0
0
äquivalent
und sind von der Form 13.1 (1). Obwohl sich der Test von (1) via (1) 1 auf den Test
d> aus 13.1 zurückführen läßt, wollen wir ihn hier trotzdem explizit beschreiben
und kurz behandeln. Der sich (aus 13.1 oder durch analoge Überlegungen) ergebende Test d< : { 0, ... , n}-----+ {0, 1} lautet wie folgt (vgl. Abb. 4).
Exakter einseitiger unterer Binomial-Test zum (nominellen) Niveau a.:
Ablehnung der Nullhypothese H : p > p bzw. Entscheidung für die Alternative
0
0
H: p < p 0 aufgrundeiner Realisierung x, d.h. d<(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist:
(2)
Die Beobachtung x unterschreitet einen unteren kritischen Wert k~(p 0 ):
(3)
Die Wahrscheinlichkeit P{ X< x I p
(4)
Die exakte obere Konfidenzgrenze
0
}
unterschreitet das Niveau a:
po, 0: (x)
unterschreitet den Wert p 0 :
Testen von Hypothesen über Wahrscheinlichkeiten
p = po
p= p
p = po
!
l
13-15
2.2.16
!
0 ,2
0 ,4
0 ,6
o,o
0 ,2
0 ,4
0 ,6
I
I
I
I
I
I
I
(x)
ol a
0,0
0,2
0 ,4-
0,6
0
5
10
15
:
'
,...:..
r-
.
'
r-
r-
.
I
p"'
::; a
)I
0
I
I
I
I
I
I
I
I
I
h
5
r
f
I
I
I
10
15
0
ka1
I
h
I
5
I
I
10
15
i
r
X
X
Abb. 4: Dichten von X,.....__ B( n, p) bzw. X=~ X (obere Skala) zur Illustration des exakten einseitigen unteren Test mit n = 251 p = 0,8 und a = 5%.
0
links: Dichte für p = p0 mit kritischen Wert k~(p 0 ).
Mitte: Dichte für p = p mit P = P{ X< x I p } als markierter Fläche.
0
rechts: Dichte für p =
po, 0:(x)
0
mit a als markierter Fläche.
Der untere kritische Wert k~(p 0 ) läßt sich auch direkt aus dem oberen kritischen
Wert ka(q 0 ) bestimmen:
(5)
mit
k~(p )
0
kann mit geeigneter Software direkt ermittelt werden (vgl. z.B. Anhang V).
Er läßt sich auch schrittweise wie folgt bestimmen. Für einen beliebigen Startwert
< a bzw. F(k) > a ist, so wird k
schrittweise erhöht bzw. verringert bis F(k) < a < F(k + 1) gilt, und dann ist
k wird F(k) = P{ X< k I p 0 } berechnet. Falls F(k)
k = k~(p 0 ). Ein geeigneter Startwert ist der ganzzahlig abgerundete asymptotische
Wert k~(p 0 ) aus 13.4.2 (3). Bei nicht zu großem n kann man auch einfach mit k = 0
starten.
Die Schärfe des Tests d< ist gegeben durch
Das effektive Testniveau (maximale Fehlerrisko 1. Art) ist höchstens gleich dem nomi-
nalen Testniveau
und somit ist der Test wieder konservativ.
Testen von Hypothesen über Wahrscheinlichkeiten
13-16
10.3.16
Therapie-Erfolg bzw. Therapie-Versagen
Bezeichnet q die Wahrscheinlichkeit für ein Therapie-Versagen, so lauten sind die
überprüfenden Hypothesen von der Form (1) (mit q statt p)
H>: q> qo
(neue Therapie nicht besser als Standard)
H<:q<qo
(neue Therapie besser als Standard).
vs.
Wir betrachten die konkrete Studie aus 13.1.3 noch einmal aus dieser Sicht. Die
Versagerquote der Standardtherapie war q = 20%. Für n = 25 und a = 5% ergibt
0
sich der kritische Wert k~(q 0 ) = 1 (vgl. Abb.
4 links). Die beobachtete Zahl x= 3 für
Therapie-Versagen liegt oberhalb des kritischen Wertes und somit wird die Nullhypothese nicht abgelehnt. Der P- Wert P{ X< 3 I q
0
} = 23,40% (vgl.
Abb.
4 Mitte)
stimmt mit P{ X> 241 p } aus 13.1.3 überein, und die obere Konfidenzgrenze ist
qo, 0: (3) =
0
28,2% (vgl. 11.4 und Abb.
4 rechts).
D
Der exakte zweiseitige Binomial-Test
13.3
Für eine Zufallsvariable X mit B(n,p)- Verteilung betrachten wir schließlich die folgende Nullhypothese mit der zweiseitigen Alternative
(1)
Nullhypothese H
:
p=p 0
(Referenzwert wird eingehalten)
Alternative H :
P :;=Po
(Referenzwert wird nicht eingehalten).
0
Wegen
(2)
p oder der untere Test d< für die jeweilige Alternative p > p0 oder
p p entschieden haben. Damit dieser zweiseitige Test das Niveau
0
0
a einhält, müssen die beiden einseitigen Tests jedoch zum halben Niveau ~ durchge-
führt werden. Der sich so ergebende Test d:;Z: :{O, ... ,n}-----+{0,1} lautet wie folgt (vgl.
auch Abb. 5).
Testen von Hypothesen über Wahrscheinlichkeiten
13-17
2.2.16
Exakter zweiseitiger Binomial-Test zum (nominellen) Niveau a.:
Ablehnung der Nullhypothese H : p = p bzw. Entscheidung für die Alternative
0
0
H: p :;= p0 aufgrundeiner Realisierung x, d.h. d:;zt.(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist
(3)
x
> k9'(p0)
x
oder
<
2
mit
k~(p )
0
2
Min { k E {0, ... , n + 1} I P{ X> k I p 0 }
k0(Po)
2
<~ }
Max{ kE{-1, ... ,n} IP{X<klp 0 }<~}.
(4)
oder
Der Wert p0 liegt nicht im exakten zweiseitigen Konfidenzintervall Ia(x):
(5)
Po
t
0,8
0 ,.6
1
1,0
0,6
l_
_l
0.8
I
1.0
0 ,6
l_
l
i
:
!
I
'
I
I
I
'
)
20
25
30
<
l
I
35
40
a
2~
{
20
25
I
I
i
<a:
:
h:
I
I
30
35
t
kb
i
k'a
_l
:i
I
I
::; a
1.0
i
:
'
'
0,8
.l.
i
'
+'
I
I
- 2
I
I
40
20
~
25
I
l
I
30
j
ka:
2
:l
<a.
rK35
40
i
k
0!
Abb. 5: Dichten von X,.....,_ B( n, p) bzw. X= ~X (obere Skala) unter H0 : p = p0 zum
Vergleich der kritischen Werte des exakten zweiseitigen Test mit denen der beiden einseitigen Test für n = 40 1 p = 0,75 und a = 5%.
Mitte:
0
kritische Werte k~(p ) und k0 (p ) des zweiseitigen Tests,
2
links:
0
2
0
kritischer unterer Wert k~(p 0 ) des einseitigen unteren Tests,
rechts: kritischer oberer Wert k a(p 0 ) des einseitigen oberen Tests.
Wenn man beim zweiseitigen Test die Nullhypothese ablehnt und sich für die Alternative H: p :;= p entscheidet, so gibt man zusätzlich noch die "Richtung" an, d.h.
0
Testen von Hypothesen über Wahrscheinlichkeiten
13-18
2.2.16
man entscheidet sich für die entsprechende Alternative desjenigen einseitigen Test
(zum Niveau~), der für die Ablehnung verantwortlich ist. Konkret entscheidet man
sich also für H: p > p falls x > k0 (p ) und für H: p (p I~)
P{ X> k0 (p 0 ) I p}
2
(7)
Pow<(p I~)
P{X < k~(p 0 ) I p}
2
so ergibt sich die Schärfe des zweiseitigen Tests d:;Z: wegen
für 0 < a
(8)
<1
als Summe beider einseitigen Schärfen
Die Nullhypothese H enthält nur den Wert p = p und das effektive Testniveau bzw.
0
0
maximale Fehlerrisko 1. Art des Tests d:;Z: ist höchstens gleich dem nominellen Niveau
d.h. der Test ist wieder konservativ.
Einseitiger vs. zweiseitiger Test: Für eine Beobachtung x mit (vgl. auch Abb. 5)
oder
lehnt der zweiseitige Test die Nullhypothese nicht ab, während sich der entprechende einseitige Test zum Niveau a bereits für die jeweilige einseitige Alternative
entscheidet. Man könnte daher auf die Idee kommen, im Fall (i) bzw. (ii) statt des
ursprünlich geplanten zweiseitigen Tests doch lieber den einseitigen unteren bzw.
oberen Test zum Niveau a durchzuführen, der dann zur Ablehnung der Nullhypothese führt. Dies ist jedoch nicht zulässig, weil man die zu prüfenden Hypothesen
vor Beginn der Auswertung - und insbesondere unabhängig vom Ergebnis x - festlegen
muß, damit das vorgegebene Niveau a eingehalten wird (konkret würde obige "falsche" Prozedur das Niveau 2a statt a haben).
Ob man ein Testproblem ein- oder zweiseitig formuliert hängt von der jeweiligen
inhaltlichen Fragestellung ab und läßt sich nicht rein mathematisch begründen. Al-
lerdings hat der einseitig obere Test im Fall p > p bzw. der einseitig untere Test im
0
Testen von Hypothesen über Wahrscheinlichkeiten
13-19
2.2.16
Fall p <p gegenüber dem zweiseitigen Test eine größere Schärfe und damit ein
0
kleineres Fehlerrisiko 2. Art. - Diese Überlegungen gelten analog auch beim Vergleich aller folgenden zweiseitigen mit den entsprechenden einseitigen Tests.
Genetik: Dominanter Erbgang (Fortsetzung)
Bei einem Kreuzungsexperiment mit einem Umfang der F -Generation von n = 40
2
trat das Merkmal in x = 23 Fällen auf. Für a = 5% und p = 75% ergeben sich die
0
kritischen Werte zu ka(p 0 I~) = 36 und k ~(p 0 I~) = 23 und somit wird die Nullhypo-
these (dominanter Erbgang) abgelehnt. Die P- Werte sind P{ X> 23 I p
und P{ X< 231 p 0 } = 1,16%
< ~-
0
} =
99,53%
Und das zweiseitige 95%-Konfidenzintervall mit
den Grenzen
p a(x)
~~
p a(x)
= 40,89%,
~~
= 72,96%
enthält daher auch nicht den Referenzwert p = 75%.
D
0
13.4
Asymptotische Tests
Da sich die Binomial-Verteilung B(n,p) von X für wachsendes n beliebig gerrau
durch die Normalverteilung approximieren läßt (vgl. 9.3.1)
(1)
B(n,p) ~ N(np, na (p))
2
mit
wollen wir für die bisherigen Hypothesen jetzt sogenannte asymptotische Tests herleiten, die auf dieser Approximation basieren. Konkret ersetzen wir bei den exakten
Tests die exakten Konfidenzgrenzen durch die jeweiligen asymptotischen Grenzen aus
11.6 und untersuchen die daraus resultierenden asymptotischen Tests.
13.4.1 Der asymptotische einseitige obere Binomial-Test
Für die einseitigen Hypothesen über die Wahrscheinlichkeit p
(1)
Nullhypothese H :
0
Alternative H :
läßt sich der asymptotische Test
(Referenzwert wird nicht überschritten)
(Referenzwert wird überschritten),
d>: {0, ... , n}-----+ {0, 1}
auf verschiedene Weise äqui-
valent formulieren (vgl. auch Abb. 6), wobei P die Verteilungsfunktion von N(O, 1)
Testen von Hypothesen über Wahrscheinlichkeiten
13-20
2.2.16
und z Q : = <P-\1-a) das obere a-Quantil ist (vgl. AnhangT).
Asymptotischer einseitiger oberer Test zum (asymptotischen) Niveau a.:
Ablehnung der Nullhypothese H
0
:p p0 aufgrundeiner Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist
(2)
Die asymptotische untere Konfidenzgrenze
pu,a(x) überschreitet den Wert p0
(vgl. 11.6)
(3)
Die Beobachtung x überschreitet einen oberen kritischen Wert:
bzw.
(4)
t(x) : =
x- np 0
>
a(po) Vn
zQ '
Die Wahrscheinlichkeit P{ N(0,1) > t(x)} unterschreitet das Niveau a:
P{ N(0,1)
> t(x)} = <P(-t(x)) <
a.
p=po
l
10
15
20
25
i
k
Q
0,4
0,6
0,8
1,0
0,4
0,6
0,8
1,0
10
15
20
25
10
15
20
25
i
j
X
X
Abb. 6: Normal-Approximation der Dichte von X,.....__ B(n,p) bzw. X= ~X (obere Skala)
beim asymptotischen einseitigen oberen Test für n = 251 p = 0,8 und a = 5%.
0
links: p = p0 mit kritischem Wert ka(p 0 )
Mitte: p = p0 mit P = P { N(O, 1) > t(x)} = <P(- t(x)) als markierter Fläche.
rechts: p = p (x) mit a als markierter Fläche.
u,a
Hierbei wird t(x) auch als Testwert bezeichnet. Die zugehörige Zufallsvariable t(X)
Testen von Hypothesen über Wahrscheinlichkeiten
2.2.16
13-21
ist für p = p gerade die Standardisierung von X und somit für n---+ oo verteilungs0
konvergent gegen N(0,1). Folglich ist die in (4) auftretende Wahrscheinlichkeit eine
Approximation für die Wahrscheinlichkeit in 13.1.3 (5) - also den P- Wert von x
P{ X> x I p 0 } = P{ t(X) > t(x) I p 0 } ~ P{ N(0,1) > t(x)} = <P(-t(x))
(5)
und deshalb heißt <P(- t(x)) auch der asymptotische P-Wert oder die asymptotische Sig-
nifikanz der Beobachtung x. In (5) wird - ebenso wie in 11.6 (4)-(5) - bewußt auf die
Stetigkeitskorrektur (vgl. 9.3.1) verzichtet um zu erreichen, daß der asymptotische
Test nicht (wie der exakte Test) konservativ wird.
Therapie-Erfolg (Fortsetzung)
Wir wollen für das Beispiel aus 13.1.3 zum Vergleich jetzt auch den asymptotischen Test für n = 100 durchführen. Für p = 80%, a = 5% und x = 88 ergibt sich die
0
untere asymptotische Grenze (vgl. 11.6) zu
der exakten Grenze
pu
asymptotischen Grenze
pu =
81,6% und weicht nur wenig von
= 81,3 %. Da der Referenzwert p = 80% unterhalb der
0
pu liegt, wird die
Nullhypothese auch vom asymptotischen
Test abgelehnt.
D
Wahlumfrage (Fortsetzung)
Bei einer Wahlumfrage von Infratest dimap im Januar 2002 (vgl. 0.3 Abb. 4) ergaben
sich bei n = 1300 Befragungen für die FDP ein Anteil von pFDP = 9% und für Die
Grünen war
Parune
. =
6%. Von Interesse ist hier1 ob diese beiden Parteien an der
5%-Hürde scheitern würden oder nicht. Deshalb soll der einseitig obere Test mit
p = 5% zum Niveau a = 5% für jede Partei einzeln durchgeführt werden.
0
Für die FDP ergibt sich die untere (asymptotische) Grenze zu
pu,o: = 7,78% und so-
mit entscheidet sich der Test für die Alternative (d.h. kein Scheitern an der
5%-Klausel).
Für Die Grünen ist die asymptotische untere Grenze
pu,o: = 5,01% nur minimal größer
als p = 5% und der asymptotische Test entscheidet sich (ganz knapp) für die Alter0
native. Allerdings liegt die exakte untere Grenze
pu,o: =
4,95% knapp unterhalb von
p = 5% und der exakte Test entscheidet sich für die Nullhypothese (mit einem mö0
glichen Fehler 2. Art). Hier kommen der exakte und asymptotische Test zu unterschiedlichen Entscheidungen, wobei allerdings beides sehr knappe Entscheidungen
sind. Wie wir später (in 13.5) sehen werden ist der Umfang n = 1300 hier nicht hoch
Testen von Hypothesen über Wahrscheinlichkeiten
13-22
2.2.16
D
genug, um zu einem zuverlässigen Ergebnis zu kommen.
Der asymptotische Test ist auch von der Form dk aus 13.1.1 (4) mit k als nächstgrößere ganze Zahl von
(6)
kr)p 0 ), d.h.
k:= { Min{lEZil>ka(p 0 )}
n+1
}
falls
sonst
Das maximale Fehlerrisiko 1. Art (effektive Niveau) ist daher nach 13.1.2 (6) gegeben
durch
und konvergiert für
n---+
oo gegen das nominelle Niveau
a -
wobei wir wieder den
zusätzlichen Index (n) verwenden, um die Abhängigkeit von n zu betonen
(8)
n---+ oo
a.
Man sagt daher, daß der Test das asymptotische Niveau a hat. Für ein konkretes n
kann das effektive Niveau a>(p 0 ) sowohl nach oben als nach unten von a abweichen, wobei die Abweichung von a bei wachsendem n beliebig klein wird. Wegen der
fehlenden Stetigkeitskorrektur in (5) ist der Test nicht konservativ.
Der asymptotische Test ist wegen x < n nur dann sinnvoll, wenn gilt
weil andernfalls die Nullhypothese nach (3) für kein x abgelehnt wird. Wegen
(10)
n---+ oo
Po< 1
ist (9) für hinreichend großes n erfüllt. In der Praxis werden daher- wie beim exakten Test - bereits bei der Planung das Risiko a und der Umfang n so aufeinander
abgestimmt, daß der Test die Nullhypothese auch ablehnen kann, d.h. (9) erfüllt ist.
Die Schärfe des asymptotischen Tests
läßt sich approximieren durch die asymptotische Schärfe
(12)
mit
Die Approximation ist nach 9.3.1 (7) sogar von der Ordnung _l_
yn
Testen von Hypothesen über Wahrscheinlichkeiten
13-23
2.2.16
wobei die Konstante c und die Funktion h in 9.3.1 angegeben sind.
Unter der Alternativen H: p > p konvergiert die asymptotische Schärfe und damit
0
auch die exakte Schärfe sogar gegen 1 (vgl. Abb. 1)
(14)
1'
n---+ oo
1
und somit konvergiert das Fehlerrisiko 2. Art gegen Null
(15)
n---+ oo
0,7
0
1,0
0,9
0,7
n=400
n =lOO
65
70
1,0
75
80
85
90
95
100
260
280
300
320
340
i
i
ka
ka
360
380'
400
Abb. 7: Zum Einfluß des Umfangs n beim asymptotischen oberen Test mit a = 5%.
Dargestellt ist die Normal-Approximation der Dichte von X,.....__ B(n,p) bzw. X= ~X
(obere x-Achse) für p = p = 80% und p =p = 85% mit n = 100 (links) und n = 400
0
1
(rechts). Die hell markierte Fläche (rechts vom kritischen Wert k ) entspricht der
asymptotischen Schärfe APow~)(p) und die dunkel markierte Fläche (links vom
kritischen Wert k0 ) ist das zugehörige asymptotische Risiko 2. Art ß~)(p). Bei
wachsendem n wächst die Schärfe und das Risiko 2. Art fällt. Man beachte, daß die
Skalierung der oberen x-Achse und der (nicht gezeichneten) y-Achse jeweils gleich
ist, während die unteren x- Achsen unterschiedlich skaliert sind (die Flächen unter
den Dichten entsprechen immer 100%).
Testen von Hypothesen über Wahrscheinlichkeiten
13-24
2.2.16
13.4.2 Der asymptotische einseitige untere Binomial-Test
Für die einseitigen Hypothesen über die Wahrscheinlichkeit p
(1)
Nullhypothese H
0
(Referenzwert wird nicht unterschritten)
:
Alternative H :
(Referenzwert wird unterschritten).
läßt sich der asymptotische Test d<: {0, ... , n}-----+ {0, 1} auf verschiedene Weise äquivalent formulieren (vgl. Abb. 8), wobei P die Verteilungsfunktion von N(0,1) und
z : = <P-\1-a) das obere a-Quantil ist (vgl. AnhangT).
Ct
Asymptotischer einseitiger unterer Test zum (asymptotischen) Niveau a.:
Ablehnung der Nullhypothese H
0
:p > p
0
bzw. Entscheidung für die Alternative
H :p <p 0 aufgrundeiner Realisierung x, d.h. d<(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist
(2)
Die asymptotische obere Konfidenzgrenze
po, Ct(x) unterschreitet p0
(vgl. 11.6)
(3)
Die Beobachtung x unterschreitet einen unteren kritischen Wert:
bzw.
(4)
t(x) : =
x- np 0
a(po) Vn
< -z
Ct
Die Wahrscheinlichkeit P{ N(0,1) < t(x)} unterschreitet das Niveau a:
P{ N(0,1)
< t(x)} = (t(x)) <
a.
Der asymptotische untere Test wird hier nur kurz erläutert, weil er völlig analog
zum oberen Test aus 13.4.1 verläuft und durch Übergang auf Y = n-X auch auf
diesen formal zurückführbar ist. Die in (4) auftretende Wahrscheinlichkeit ist eine
Approximation für die Wahrscheinlichkeit in 13.2 (3) - also den P- Wert von x
(5)
P{ X< x I p 0 } = P{ t(X) < t(x) I p 0 } ~ P{ N(0,1) < t(x)} = (t(x))
wobei bewußt auf die Stetigkeitskorrektur (vgl. 9.3.1) verzichtet wird. Die Wahrscheinlichkeit <!>( t( x)) heißt auch der asymptotische P-Wert oder die asymptotische Signifikanz der Beobachtung x.
Testen von Hypothesen über Wahrscheinlichkeiten
13-25
2.2.16
p=
p=po
!
J
5
0
0,0
0.2
0.4
0 ,6
0,0
0,2
0,4
0.6
0
5
10
15
0
5
10
15
15
10
po, o (x)
i
i
k'a
i
X
Abb. 8: Normal-Approximation der Dichte von X,.....__ B(n,p) bzw. X= ~X (obere Skala)
beim asymptotischen einseitigen oberen Test mit n = 251 p = 0,8 und a = 5%.
0
links: p = p0 mit kritischem Wert k~(p 0 )
Mitte: p = p0 mit P= P{ N(O,l) < t(x)} = <P(t(x)) als markierter Fläche.
rechts: p = p (x) mit a als markierter Fläche.
o,o:
Das maximale Fehlerrisiko 1. Art (effektive Niveau) ist gegeben durch
und konvergiert für
(7)
n---+
oo gegen das nominelle Niveau
n---+ oo
a
a.
d.h. der Test hat das asymptotische Niveau a. Die Schärfe des asymptotischen Tests
läßt sich approximieren durch die asymptotische Schärfe
(9)
APow <(p) =
<P( u(p))
mit
u(p) =
wobei die Approximation wieder von der Ordnung
(10)
I Pow<(p)- APow<(p) I <
{n ·h(a(p))
mit der Konstanten c und der Funktion h aus 9.3.1.
Vn (Po-P)- zo: a(po)
Fn ist
a(p)
Testen von Hypothesen über Wahrscheinlichkeiten
2.2.16
13-26
Unter der Alternativen H: p < p konvergiert die asymptotische Schärfe und damit
0
auch die exakte Schärfe sogar gegen 1
(11)
APow(<n)(p)
n---+ oo
Pow(n)(p)
<
1,
n---+oo
1
und somit konvergiert das Fehlerrisiko 2. Art gegen Null
(12)
n---+ oo
für p <p 0 .
0
13.4.3 Der asymptotische zweiseitige Binomial- Test
Für das zweiseitige Testproblem mit den Hypothesen über die Wahrscheinlichkeit p
(1)
Nullhypothese H
:
p=p 0
(Referenzwert wird eingehalten)
Alternative H :
P :;=Po
(Referenzwert wird nicht eingehalten).
0
entspricht der zweiseitige asymptotische Test d :;Z: : {0, ... , n}-----+ {0, 1} wieder der Kombination beider einseitiger asymptotischer Tests zum halben Niveau ~.
Asymptotischer zweiseitiger Test zum (asymptotischen) Niveau a.:
Ablehnung der Nullhypothese H : p = p bzw. Entscheidung für die Alternative
0
0
H: p :;= p0 aufgrundeiner Realisierung x, d.h. d;Z:(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist
(2)
Der Wert p liegt nicht im asymptotischen zweiseitigen Konfidenzintervall:
(3)
Der Absolutbetrag des Testwerts überschreitet einen kritischen Wert:
0
I t(x) I : = I x- npo I >
a(po) Vn
(4)
<P( -I t( X) I) <
~
0
Die Schärfe des zweiseitigen asymptotischen Tests zum Niveau a ist die Summe der
Schärfen beider einseitigen asymptotischen Tests zum Niveau ~, d.h.
Also ist das (maximale) Fehlerrisko 1. Art des zweiseitigen Tests die Summe der
Testen von Hypothesen über Wahrscheinlichkeiten
13-27
2.2.16
maximalen Fehlerrisko 1. Art beider einseitigen Tests zum Niveau ~, d.h.
Für
n---+
oo konvergiert das Fehlerrisko 1. Art gegen
(7)
a
a,
d.h. der zweiseitige Test hat das asymptotische Niveau a.
Aus den Approximationen der Schärfen beider einseitigen asymptotischen Tests
erhält man die asymptotische Schärfe des zweiseitigen Testes
Unter der Alternativen H: p :;= p konvergiert die asymptotische Schärfe und damit
0
auch die exakte Schärfe sogar gegen 1
(9)
und somit konvergiert das Fehlerrisiko 2. Art gegen Null
ß(n)(p) = 1- Pow(n)(p)
(10)
7':-
p"
p"
p"
Po
Po
Po
!
L
L
0 ,8
0,6
20
25
für p 7':- p0 .
0
n----+oo
7':-
30
0 ,6
1,0
35
40
20
0 ,8
25
30
1,0
40
35
0 ,8
0,6
20
25
1,0
30
35
f
i
t
t
k'a
k~
ka
2
2
ka
40
Abb. 9: Normal-Approximation der Dichte von X,.....__ B( n, p) bzw. X=~ X (obere
Skala) zum Vergleich der kritischen Werte des asymptotischen zweiseitigen Test mit
denen der beiden einseitigen Test für n = 401 p = 0,75 und a = 5%.
Die kritischen Werte k~(p ) und k 0 (p ) des zweiseitigen Tests.
links:
Der kritische untere Wert k ~(p 0 ) des einseitigen unteren Tests.
2
0
0
Mitte:
~
2
0
rechts: Der kritische obere Wert ka(p 0 ) des einseitigen oberen Tests.
Testen von Hypothesen über Wahrscheinlichkeiten
13-28
2.2.16
Genetik: Dominanter Erbgang (Fortsetzung)
Bei dem schon in 13.3 betrachteten Kreuzungsexperiment mit n = 40 und x = 23
wollen wir (zur Illustration) auch den asymptotischen zweiseitigen Test für p = 75%
0
zum Niveau a = 5% durchführen. Das asymptotische Konfidenzintervall ist im exakten Konfidenzintervall enthalten weil
pu,a/2 =
40,89%
<
42,20% =
pu,a/2 '
po,a/2 =
71,49%
< po,a/2 =
72,96% '
wobei die Abweichungen der exakten von den asymptotischen Grenzen relativ gering sind. Der asymptotische Test entscheidet sich (wie der exakte) für die Alternative (kein dominanter Erbgang), weil p = 75% nicht im asymptotischen Intervall
0
liegt. Zur Illustration überprüfen wir auch noch die Bedingungen (3) und (4), die
hier natürlich ebenfalls erfüllt sein müssen. Der absolute Testwert lt(x)l = 2,556
überschreitet
das
~- Quantil
z2,5% = 1,965.
<!>(- 2,556) = 1,06% liegt unterhalb
von~= 2,5%
Und
der asymptotische
P- Wert
und weicht nur gering vom exakten
P-Wert P{ X< 231 p 0 } = 1,16% aus 13.3 ab.
13.5
D
Planung des erforderlicher Stichproben-Mindestumfangs
Per Konvention sind Tests so konstruiert, daß primär das Fehlerrisiko 1. Art a(pJ
durch ein vorgegebenes Testniveau a kontrolliert wird. Das Fehlerrisiko 2. Art ß(p)
wird hierbei für p---+ p
0
jedoch inakzeptabel groß und konvergiert sogar gegen
1- a(p ), vgl. 13.1.3 (1). Andererseits haben wir in 13.4 gesehen, daß für einen fe0
sten Wert p aus der (ein- oder zweiseitigen) Alternative das Fehlerrisiko ß(p) bei
wachsenden Umfang n sogar gegen Null konvergiert. Folglich kann man für einen in
der jeweiligen Anwendungsituation relevanten Wert p aus der Alternative, das Ri1
siko ß(p ) durch Wahl eines geeignet großen Umfang n entprechend gering halten.
1
Wir erläutern dies zunächst für den einseitigen oberen Test und daraus ergeben
sich dann relativ einfach die entsprechenden Resultate für die anderen Tests.
Testen von Hypothesen über Wahrscheinlichkeiten
2.2.16
13-29
13.5.1 Der einseitige obere Test
Beim einseitigen oberen Test mit den Hypothesen H : p p gehen
0
0
ten wir jetzt von einem anwendungsrelevanten Wert p
und geben uns ein akzeptables Fehlerrisiko 2. Art
1
> p0
0
der Alternative aus
ß (typischerweise
wählt man
ß = 2 a oder ß = 4 a) für diesen Wert p vor. Gesucht ist dann der kleinste Umfang n,
1
für den das Fehlerrisiko ß(n)(p ) unterhalb der Vorgabe ß ist, d.h.
1
ß~)(p 1 )
(1)
= 1-
Pow~)(p 1) < ß.
Da der resultierende Umfang n typischerweise nicht gering ist, wollen wir ihn zuerst unter Verwendung der asymptotischen Schärfe bestimmen. Das asmptotische
Fehlerrisiko 2. Art (vgl. 13.4.1(12))
1- APow <(p) =
(- u(p))
mit
ist formal nicht nur für n E W sondern sogar für beliebiges n E ( 0, oo) definiert und
streng fallend in n. Wir suchen daher zunächst ein n E (O,oo) mit der Eigenschaft
1- APow~)(p ) = ß.
1
(2)
Unter Verwendung des oberen ß-Quantils zß: = <P-\1-ß) von N(0,1) läßt sich (2)
nach n auflösen und als Lösung ergibt sich ist der erforderliche Mindestumfang
(3)
mit
ao = a(po) = JPo (1- Po)
a1 = a(p1) = J P1 (1- P1)
Da n( a,ß,p 0 ,p1 ) im allgemeinen keine ganze Zahl ist, erhält man den Mindestumfang
n E W durch Aufrunden auf die nächst größere ganze Zahl. 1 wodurch sich das asymptotische Fehlerrisiko 2. Art verringert. Man beachte, daß der Mindestumfang
n( a,ß,p 0 ,p1 ) umgekehrt proportional ist zum Quadrat des relevanten Unterschieds
iJ.p = p - p ist (der die Abweichung von der Nullhypothese beschreibt). Halbiert
1
0
man z.B. den Unterschied iJ.p (durch Verringerung von p ) so wächst der Minde1
stumfang n ungefähr auf das Vierfache, wenn man die (eher geringfügige) Änderung
von a
1
vernachlässigt. Der Einfluß von a und
ß
auf den Mindestumfang
n( a,ß,p 0 ,p1 ) ist dagegen nicht ganz so gravierend, weil die Quantile von N(O, 1) im
interessierenden Bereich von 1% bis 20% nicht so stark variieren: von z1% = 2,326
bis z20 % = 0,842 (vgl. AnhangT).
Testen von Hypothesen über Wahrscheinlichkeiten
13-30
2.2.16
Der nach (3) ermittelte Mindestumfang n basiert auf dem asymptotischen und nicht
auf den exakten Fehlerrisiken. Wenn man Zweifel daran hat, ob die verwendete
Normalapproximation der B(n,p )-Verteilung für das so bestimmte n gerrau genug
ist, so kann man das zugehörige exakte Fehlerrisiko nach 13.1.4 bestimmen. Falls
die Bedingung (1) für das exakte Fehlerrisiko nicht gilt, so kann man n schrittweise
solange erhöhen, bis (1) zutrifft.
Therapie-Erfolg (Fortsetzung)
Wir wollen den Mindestumfang bestimmen, bei dem das Fehlerrisiko 2.Art
ß=
10%
ist, wenn die Erfolgs-Wahrscheinlichkeit der neuen Therapie p = 90% bzw.
1
p = 85% beträgt, d.h. die Versagens-Wahrscheinlichkeit ist q = 10% bzw. q = 15%
1
1
1
(gegenüber q = 20% bei der Standardtherapie). Mit zß= 1,282 ergibt sich für
0
p = 90% der Umfang n(a,ß,p ,p ) ~ 109. Und für p = 85% erhält man den
1
1
0 1
wesentlich höheren Umfang n(a,ß,p ,p ) ~ 498.
D
0 1
Wahlumfrage (Fortsetzung)
In der oben betrachteten Umfrage hatten Die Grünen einen Anteil von
p= 6%.
Wir
ß=
10%
wollen jetzt überlegen, bei welchem Mindestumfang das Fehlerrisiko 2.Art
ist, wenn der wahre Stimmanteil der Grünen mit p = 6% nur knapp über p = 5%
1
0
liegt. Mit zß= 1,282 ergibt sich der relativ hohe Umfang n( a,ß, p ,p
0
1
) ~
4394.
D
13.5.2 Der einseitige untere Test
Beim einseitigen unteren Test mit den Hypothesen H
0
:p > p
0
und H: p < p gibt
0
man sich einen anwendungsrelevanten Wert p <p der Alternative und ein zuge1
höriges Fehlerrisiko 2. Art
ß vor.
0
Der erforderliche Mindestumfang n, für den das
Fehlerrisiko ß(n)(p ) unterhalb der Vorgabe ß liegt ergibt sich durch Übergang auf
1
die komplementären Wahrscheinlichkeiten
(1)
q = 1- p)
für i= 0, 1.
q.=1-p.
z
z
Mit denen lauten die Hypothesen äquivalent H
0
: q< q
13.5.1 (3) mit q stattpergibt sich der Mindestumfang zu
0
sowie H: q > q . Und aus
0
Testen von Hypothesen über Wahrscheinlichkeiten
13-31
2.2.16
ao = a(qo) = J qo (1- qo)
a1 = a(q1) = Jq1 (1 -q1)
mit
Wegen
(2)
a(p.)z = a(q.)z
läßt sich der erforderliche Mindestumfang auch als Funktion der ursprünglichen
Wahrscheinlichkeiten p und p schreiben
0
1
(3)
ao = a(po) = JPo (1- Po)
a1 = a(p1) = J P1 (1- P1)
mit
Dieser Mindestunfang stimmt mit dem in 13.5.1 (3) überein, und somit kann der
erforderliche Mindestumfang für beide einseitige Tests nach der gleichen Formel ermittelt werden.
13.5.3 Der zweiseitige Test
Beim zweiseitigen Test mit den Hypothesen H : p = p und H: p :;= p gibt man sich
0
0
einen anwendungsrelevanten Wert p
1
:;= p
0
0
der Alternative und ein zugehöriges Feh-
lerrisiko 2. Art ß vor. Die Schärfe des zweiseitigen Tests ist mindestens so groß ist
wie die Schärfe jeder der beiden einseitigen Tests zum halben Niveau ~, und folglich
ist das Fehlerrisiko 2. Art des zweiseitigen Tests höchstens so groß wie das der einseitigen Tests zum Niveau ~. Man bestimmt daher den erforderlichen Mindestumfang einfach für den zugehörigen einseitigen Test zum halben Niveau, d.h.
(1)
mit
ao = a(po) = JPo (1- Po)
a1 =
a(p1) = Jp1 (1 -p1)
Für den resultierenden (aufgerundeten) Umfang n E W ist das asymptotische Fehlerrisiko höchstens so groß wie die Vorgabe ß. Es handelt sich allerdings nicht notwendig um den kleinsten Umfang n mit dieser Eigenschaft.
1
Wenn man Wert darauf legt, daß sogar das exakte Fehlerrisiko 2. Art ß~)(p ) höchsten ß ist, so kann man
ß~)(p 1 ) zunächst für obiges
n nach 13.3 (9) berechnen, und
Testen von Hypothesen über Wahrscheinlichkeiten
13-32
2.2.16
dann n gegebenfalls schrittweise verändern, bis das exakte Risiko ß~)(p )
1
< ß ist.
Genetik: Dominanter Erbgang (Fortsetzung)
Wir wollen den Mindestumfang bestimmen, bei dem das Fehlerrisiko 2.Art
ß=
10%
beträgt, wenn die Wahrscheinlichkeit für das Auftreteten des Merkmals von
p = 75% um 15% nach oben oder unten abweicht, d.h. für p = 90% und p = 60%.
0
1
1
Mit zrx; 2 = 1,960 und zß= 1,282 ergibt sich für p = 90% der Umfang n(~,ß,p ,p )
0 1
1
~
68. Und für
p1 = 60% erhält man - trotzgleicher Abweichung lp1-
p
I= 15% von
0
der Nullhypothese - den deutlich höheren Umfang n(~,ß,p 0 ,p 1 ) ~ 97. Dies liegt daran, daß die Standardabweichung a(p ) hier größer ist (als bei p = 90%).
1
1
D
Tests für den Erwartungswert der Poissonverteilung
14.*
15.3.16
14-1
Tests für den Erwartungswert der Poisson-Verteilung
Nachdem wir im vorigen Kapitel die Idee des statistischen Tests ausführlich am
Beispiel des Tests über eine Wahrscheinlichkeit erläutert haben, wollen wir jetzt
Tests über den Erwartungswert einer Poisson-Verteilung studieren. Da die grundlegenden Ideen und Verfahren völlig analog zum Testen von Wahrscheinlichkeiten
sind, fallen die Erläuterungen hier etwas knapper aus.
Zur formalen Vereinfachung betrachten wir (wie im Kapitel 12) zunächst nur eine
Pois(,u)-verteilte Zufallsvariable X über deren Erwartungswert ,u > 0 wir ein- oder
zweiseitige Hypothesen testen wollen. Am Ende des Kapitels behandeln wir dann
den Fall mit n unabhängigen Wiederholungen von X. -Wer ein konkretes Anwendungsbeispiel vor Augen haben möchte, findet dies in der Einleitung (Abschnitt 0.1
oder 0.2).
Für eine Realisierung x E W = WU { 0} von X bezeichnen w1r die zugehörigen
0
Poisson-Wahrscheinlichkeiten mit
(1)
p(xl,u) == P{X=xl,u}
1
IX.
(2)
F(xl,u) == P{X<xl,u}
2:: p( i I,u) ,
X -f..l
,u e
'
X
i=O
00
(3)
2::
G(xl,u) == P{X>xl,u}
p(i l,u)
0
z=x
Der einseitige Poisson-Test mit oberer Alternative
14.1*
Für eine Zufallsvariable X mit Pois(,u)- Verteilung betrachten wir zuerst die folgenden einseitigen Hypothesen über den Erwartungswert ,u und einen festen Referenzwert ,u
(1)
0
> 0:
Nullhypothese H
0
(Referenzwert wird nicht überschritten),
:
Alternative H :
(Referenzwert wird überschritten).
Das maximale Fehlerrisiko 1. Art des Tests soll wieder höchstens so groß wie ein
vorgegebenes Testniveau 0 < a
<~
sein.
Tests für den Erwartungswert der Poissonverteilung
14.1.1*
14-2
15.3.16
Der exakte einseitige obere Poisson-Test
Der exakte Test d>:W 0 -----+{0,1}, der jeder Realisierung x von X eine Entscheidung
zuordnet, ergibt sich analog zum Test einer Wahrscheinlichkeit in 13.1.3 zu:
Exakter einseitiger oberer Poisson-Test zum (nominellen) Niveau a.:
Ablehnung der Nullhypothese H : p, < p, bzw. Entscheidung für die Alternative
0
0
H: p, > p, 0 aufgrundeiner Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist:
(1)
Die Wahrscheinlichkeit P{ X> x lp,
(2)
Die exakte untere Konfidenzgrenze (t
(3)
Die Beobachtung x überschreitet einen oberen kritischen Wert ka(p, 0 ):
0
}
unterschreitet das Niveau a:
u,a
(x) überschreitet den Wert p, :
0
Die Schärfe des Tests d>
ist wachsend in p,. Das maximale Fehlerrisiko 1. Art liegt daher für p, = p, vor und ist
0
(als Folge der "Unstetigkeit" der Poisson-Verteilung) höchstens gleich dem nominalen Testniveau
Man bezeichnet a>(p, 0 ) wieder als das effektive Testniveau. Der Test ist in dem Sinn
konservativ, daß er die vorgebenene Irrtumswahrscheinlichkeit a im allgemeinen
nicht voll ausschöpft.
Das Fehlerrisiko 2. Art
ist fallend in p, E (p, , oo) und konvergiert für p,---+ p, gegen das komplementäre ef0
fektive Testniveau
0
Tests für den Erwartungswert der Poissonverteilung
14-3
15.3.16
Also ist die Summe der maximalen Fehlerrisiken wieder 1.
14.1.2*
Der asymptotische einseitige obere Poisson-Test
Die Poisson-Verteilung Pois(p,) läßt sich für wachsendes p, beliebig gerrau durch die
Normalverteilung approximieren (vgl. 9.4)
(1)
mit
Hieraus ergibt sich für "großes" p, ein asymptotischer Test indem man beim exak0
ten Test die Poisson-Wahrscheinlichkeiten unter Verwendung der Normalverteilung
approximiert bzw. die exakten Konfidenzgrenzen durch die jeweiligen asymptotischen
Grenzen ersetzt. Der resultierende Test d>:W 0 -----+{0,1} ergibt sich mit der Verteilungsfunktion P von N(0,1) und dem oberen a-Quantil z : = <P-\1-a) wie folgt
Ct
Asymptotischer einseitiger oberer Test zum (asymptotischen) Niveau a.:
Ablehnung der Nullhypothese H
0
: p, < p,
0
bzw. Entscheidung für die Alternative
H: p, > p, 0 aufgrundeiner Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist:
(2)
Die asymptotische untere Konfidenzgrenze
fi u,a(x) überschreitet den Wert p, 0 :
(vgl. 12.5)
(3)
Die Beobachtung x überschreitet einen oberen kritischen Wert ka(p, 0 ):
t(x) : =
bzw.
(4)
/iLo
> zCt '
Die Wahrscheinlichkeit P{ N(0,1) > t(x)} unterschreitet das Niveau a:
P{ N(0,1)
> t(x)} = (-t(x)) <
Die Schärfe des asymptotischen Tests d>
(5)
X-J-L 0
a.
Tests für den Erwartungswert der Poissonverteilung
15.3.16
14-4
ist wachsend in p,. Folglich tritt das maximale Fehlerrisiko 1. Art (effektive Niveau)
wieder für p, = p, auf und ist gegeben durch
0
Dieses Risiko konvergiert für p,
(7)
a>(J-Lo)
0
---+
oo gegen das nominelle Niveau a
a'
fL ---+oo
0
d.h. der Test hat das asymptotische Niveau a. Der asymptotische Test ist daher nur
dann anwendbar, wenn p, so groß ist, daß die Normal-Approximation der Poisson0
Verteilung Pois(p, ) zufriedenstellend ist. Im Zweifelsfall sollte man den exakten
0
Test vorziehen.
Die Schärfe des asymptotischen Tests läßt sich wieder approximieren durch die
asymptotische Schärfe
(8)
14.2*
mit
Der einseitige Poisson-Test mit unterer Alternative
Für eine Zufallsvariable X mit Pois(p,)-Verteilung betrachten wir jetzt das Testproblem mit folgenden einseitigen Hypothesen:
(1)
Nullhypothese H
0
:
Alternative H :
(Referenzwert wird nicht unterschritten),
(Referenzwert wird unterschritten).
Im Gegensatz zur Binomialverteilung läßt sich dieses untere Testproblem nicht formal auf das schon behandelte obere Testproblem zurückführen. Der zugehörige
exakte und asymptotische Test ergeben sich aber dennoch völlig analog sowohl
zum entsprechenden Test einer Wahrscheinlichkeit als auch zum oberen Test aus
14.1.
Tests für den Erwartungswert der Poissonverteilung
14-5
15.3.16
14.2.1* Der exakte einseitige untere Poisson-Test
Der exakte Test d<: W0 -----+ {0, 1} ergibt sich analog zum Test einer Wahrscheinlichkeit in 13.2 zu:
Exakter einseitiger unterer Poisson-Test zum (nominellen) Niveau a.:
Ablehnung der Nullhypothese H
0
: p, > p,
0
bzw. Entscheidung für die Alternative
H: p, < p, 0 aufgrundeiner Realisierung x, d.h. d<(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist:
(1)
Die Wahrscheinlichkeit P{ X:::; x 11-Lo} unterschreitet das Niveau a:
(2)
Die exakte obere Konfidenzgrenze (t
(3)
Die Beobachtung x unterschreitet einen unteren kritischen Wert k~(p, 0 ):
o, 0:
(x) unterschreitet den Wert p, 0 :
Die Schärfe des Tests d<
ist fallend in p,. Das maximale Fehlerrisko 1. Art liegt daher für p, = p, vor und ist
0
wieder höchstens gleich dem nominalen Testniveau
Der Test ist folglich wieder konservativ. Das Fehlerrisiko 2. Art
ist streng fallend in p, E (0, p, ) und konvergiert für p,---+ p, wieder gegen das kom0
plementäre effektive Testniveau
0
Tests für den Erwartungswert der Poissonverteilung
14.2.2*
14-6
15.3.16
Der asymptotische einseitige untere Poisson-Test
Unter Verwendung der Normal-Approximation der Poisson-Verteilung Pois(p, ) er0
gibt sich für großes p, der folgende asymptotische Test, wobei p,
0
bzw. Entscheidung für die Alternative
H: p, < p, 0 aufgrund einer Realisierung x, d.h. d<( x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist
(1)
Die asymptotische obere Konfidenzgrenze
fi o, Ct(x) unterschreitet den Wert p, 0
(vgl. 12.5)
(2)
Die Beobachtung x unterschreitet einen unteren kritischen Wert:
t(x) : =
bzw.
(3)
X-J-L 0
$o
< -z
Ct
Die Wahrscheinlichkeit P{ N(0,1) < t(x)} unterschreitet das Niveau a:
P{ N(0,1)
< t(x)} = <P(t(x)) <
a.
Die Schärfe des asymptotischen Tests d <
ist fallend in p,. Folglich tritt das maximale Fehlerrisiko 1. Art (effektive Niveau) wieder für p, = p, auf und ist gegeben durch
0
Dieses Risiko konvergiert für p,
(6)
a<(J-Lo)
fL ---+oo
0
---+
oo gegen das nominales Niveau a
a'
0
d.h. der Test hat das asymptotische Niveau a. Der asymptotische Test daher wieder
nur dann anwendbar, wenn p, so groß ist, daß die Normal-Approximation der Pois0
son-Verteilung Pois(p, ) zufriedenstellend ist. Im Zweifelsfall sollte man den exak0
ten Test vorziehen.
Tests für den Erwartungswert der Poissonverteilung
15.3.16
14-7
Die Schärfe des asymptotischen Tests läßt sich approximieren durch die asymptotische Schärfe
(7)
<!>( u(p,))
14.3*
mit
Anwendung: Asbestmessungen in Schulgebäuden
Wir betrachten die im Abschnitt 0.2 beschriebene Asbestmessung in Schulgebäuden, und gehen dabei davon aus, daß die Anzahl X der Asbestfasern in einem
Stichprobenvolumen V (in hinreichender Näherung) Pois(p,)-verteilt ist. Die zu prüfenden Hypothesen beziehen sich hier auf die erwartete Asbestfaserkonzentration
3
). = p,jV pro Kubikmeter (m ), sind aber äquivalent zu den enstprechenden Hypothe-
sen über die Konzentration p, pro Stichprobenvolunen V. Für den (empfohlenen)
Grenzwert >. = 500 [Fasern/rn 3 ] betrachten wir zuerst das Testproblem mit der
0
einseitig unteren Alternative
(1)
H : ..\
> >. 0
bzw.
(Grenzwert nicht unterschritten)
H : ..\
< >. 0
bzw.
(Grenzwert unterschritten)
0
wobei p, = >. V der zugehörige Grenzwert für das Stichprobenvolumen V ist.
0
0
Das Ziel der Asbestmessungen bestand darin, eine Entscheidungsgrundlage für eine
bauliche Sanierung der betroffenen Gebäudeteile zu erhalten. Wir gehen hier (vereinfachend) davon aus, daß eine Sanierung gerrau dann veranlaßt wird, wenn sich
der Test für die Nullhypothese H (Grenzwert nicht unterschritten) entscheidet.
0
Eine Fehlentscheidung 1. Art liegt dann vor, wenn sich der Test nicht für die Sanierung entscheidet, obwohl sie erforderlich wäre (weil der Grenzwert nicht unterschritten wird) und stellt somit eine Gesundheitsgefährdung dar. Demgegenüber bedeutet
ein Fehler 2.Art die Entscheidung für eine Sanierung, obwohl sie nicht erforderlich
wäre, und dies läuft auf eine Geldverschwendung hinaus. Bei diesem Testproblem
wird also primär das Gesundheitsrisiko (in Form des maximalen Fehlers 1. Art)
und weniger das Risiko für Geldverschwendung kontrolliert.
Für das Testproblem mit der einseitig oberen Alternative
(2)
bzw.
(Grenzwert nicht überschritten)
Tests für den Erwartungswert der Poissonverteilung
bzw.
14-8
15.3.16
(Grenzwert überschritten)
sind die Fehlentscheidungen gegenüber (1) gerade vertauscht. Hier wird primär das
Risiko für Geldverschwendung (als Risiko l.Art) und weniger das einer Gesundheitsgefährdung kontrolliert. Man erkennt hieran erneut, wie wichtig bereits die
Wahl von Nullhypothese und Alternative im Hinblick auf die primär zu kontrollierenden Fehlerrisiken ist. Obwohl man sich in der Praxis natürlich vor Beginn der
Datenerhebung (Messung) auf eins der beiden Testprobleme festlegen sollte, wollen
wir hier zwecks Illustration beide Tests an Hand der dritten Messung (vgl. 0.2 Tabelle 2 unten) durchführen mit den Daten
x=8
V = 4,16 x 1,40/380 m 3 ~ 0,01533
'
m
3
.
Einseitig unterer Test
Beim Testproblem (1) soll jetzt zum nominellen Niveau a = 1% getestet werden.
Hierdurch wird das Fehlerrisiko 1. Art (Gesundheitsgefährdung) auf 1% begrenzt,
d.h. im Mittel wird bei 100 auf Asbest untersuchten Räumen nur ein sanierungsbedürftiger Raum nicht saniert. Aus Tabelle 1 (unten) ergibt sich der zugehörige untere
kritische Wert zu k~ = 1 mit einem effektiven Testniveau a<(p, 0 ) = 0,41%, das deutlich unter dem nominellen Wert von 1% liegt.
Da die Beobachtung x = 8 über dem kritischen Wert k'(X = 1 liegt, entscheidet sich
der Test d< für die Nullhypothese H (Grenzwert nicht unterschritten) und somit für
0
eine Sanierung. Der P- Wert (Signifikanz der Beobachtung)
ist daher größer als a und gibt an, wie wahrscheinlich höchstens 8 Asbestfasern im
Volumen V sind, wenn A = >. wäre. Der Vorteil des P- Wertes liegt darin, daß man
0
an ihm auch sofort die Entscheidung eines Test mit einem anderen nominellen Niveau ablesen kann (z.B. würde man auch für a = 5% die Nullhypothese hier nicht
ablehnen).
Die zugehörige einseitige obere Konfidenzgrenze zur Sicherheit 1- a = 99% ist
bzw
A
A 107 (8) = 1135/m
o, 10
3
Tests für den Erwartungswert der Poissonverteilung
15.3.16
14-9
und liegt oberhalb von >. = 500jm 3. Der Vorteil der oberen Grenze liegt darin, daß
0
man an ihr auch Testentscheidungen für einen anderen Referenzwert >.
0
ablesen
kann (z.B. würde man bei >. = 1500 die Nullhypothese hier ablehnen).
0
Da wir uns hier für die Nullhypothese entschieden haben, kann kommt als mögliche
Fehlentscheidung nur ein Fehler 2. Art (Geldverschwendung) in Frage. Weil das maximale Risiko
ß<(p,J =
1- a <(p,J = 99,59% für einen solchen Fehler extrem hoch
ß<(p,1)
ist, wollen wir das Fehlerrisiko
für praktisch relevante Werte von \
bzw. p,1
nach 14.2.1 (6) berechnen. Hierbei ergeben sich z.B.
\
= ~ >. 0 = 250
bzw.
I-L1 =
\
= ~ >. 0 = 100
bzw.
/-L1 = sf-Lo = 1,533
1
2Yo = 3,832
1
ß<(p,1)
ß<(p,1)
= 89,5%'
= 19,9%
0
Diese Risiken (für eine Geldverschwendung) sind immer noch relativ groß, und wir
wollen jetzt exemplarisch zeigen, wie man diese Risiken durch eine aufwendigere
Auswertung (deren zusätzliche Kosten in keinem Verhältnis zur denen einer überflüssigen Sanierung im Falle eines Fehlers 2. Art stehen) erheblich hätte verringern
können. Hierzu genügt es, die ausgewertete Filterfläche oder den Volumendurchsatz
(vgl. Tabelle 2 in 0.2) zu erhöhen, was auch intuitiv schon eine Präzisanssteigerung
erwarten läßt. Zur Illustration gehen wir von einer Verdoppelung einer der beiden
Größen aus, und haben dann statt V das doppelte Stichprobenvolumen V = 2V
2
Dann ergibt sich (bei gleichem
>. 0 ) jetzt ein doppelt so großes p, 0 = >. 0 V2 = 15,326
als vorher. Aus Tabelle 1 entnimmt man den zugehörigen kritischen Wert k(X1 = 6
mit einem effektiven Testniveau a<(p,J = 0,621%, und die obigen Risiken für den
Fehler 2. Art sind jetzt erheblich geringer als vorher:
\
= ~ >. 0 = 250
bzw.
\
= ~ >. 0 = 100
bzw.
ß<(p,1)
ß<(p,1)
= 64,4% '
=3,7%
0
Hieran wird deutlich, daß man im Rahmen einer sorgfältigen Versuchsplanung bei
vorgegebenem Testniveau a auch das Fehlerrisiko ß<(p,1) = ß<(\V) für eine vorgebene (relevante) Konzentration \ über eine geeignete Erhöhung des Stichprobenvolumens V noch kontrollieren kann.
Tests für den Erwartungswert der Poissonverteilung
14-10
15.3.16
Tabelle 1: Werte der Poisson-Verteilungsfunktionen F(x IJ-L) und G(x IJ-L) mit
f-L =).V für verschiedene Asbest-Konzentrationen ). [Fasernjm 3 ]. Die im Text
zitierten Werte sind fett hervorgehoben.
>.
f-L=.AV
X
500
7,6632
F(x I f-L)
=
500
7,6632
G(x I f-L)
=
1000
15,3263
F(x I f-L)
=
1000
15,3263
G(x I f-L)
=
P{ X< X I f-L}
P{X>xlf-L}
P{ X< X I f-L}
P{ X> X I f-L}
0
0,05%
1
0,41%
2
3
4
5
0,00%
0,00%
0,00%
0,02%
0,07%
0,22%
7
1,79%
5,31%
12,06%
22,41%
35,62%
50,09%
100,00%
99,95%
99,59%
98,21%
94,69%
87,94%
77,59%
64,38%
8
63,95%
49,91%
9
10
11
12
75,74%
84,79%
91,08%
95,11%
97,48%
98,78%
99,44%
99,76%
99,90%
99,96%
99,99%
99,99%
100,00%
100,00%
100,00%
100,00%
100,00%
100,00%
100,00%
100,00%
100,00%
100,00%
36,05%
24,26%
15,21%
8,92%
100,00%
100,00%
100,00%
100,00%
99,98%
99,93%
99,78%
99,38%
98,51%
96,84%
94,01%
89,66%
83,59%
75,85%
66,73%
56,74%
46,53%
36,75%
27,94%
20,43%
14,38%
9,74%
6,35%
6
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
4,89%
2,52%
1,22%
0,56%
0,24%
0,10%
0,04%
0,01%
0,01%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,00%
0,62%
1,49%
3,16%
5,99%
10,34%
16,41%
24,15%
33,27%
43,26%
53,47%
63,25%
72,06%
79,57%
85,62%
90,26%
93,65%
96,01%
97,58%
98,58%
99,20%
99,56%
99,77%
99,88%
99,94%
99,97%
3,99%
2,42%
1,42%
0,80%
0,44%
0,23%
0,12%
0,06%
15.3.16
Tests für den Erwartungswert der Poissonverteilung
14-11
Einseitig oberer Test
Wenn man aus finanzpolitischer Sicht das Risiko einer Geldverschwendung auf
a = 5% reduziert wissen will, so ist das Testproblem (2) angemessen. Aus Tabelle 1
ergibt sich der zugehörige obere kritische Wert zu k = 13 mit einem effektiven Testet
niveau a>(,u 0 ) = 4,9% das dicht am nominellen Wert von 5% liegt.
Da die Beobachtung x = 8 unter dem kritischen Wert k (X = 13 liegt, entscheidet sich
der Test d> für die Nullhypothese H 0 (Grenzwert nicht überschritten) und somit für
keine Sanierung (im Gegensatz zum einseitigen unteren Test!). Der P- Wert ist
(vgl. Tabelle 1)
und die einseitige untere Konfidenzgrenze zur Sicherheit 1- a = 95% ist (vgl. 12.6)
4u, 507(8)
10
bzw.
= 3,98
3
A
A 507 (8) = 260/m .
u, 10
Auch hier ist (nur) ein Fehler 2. Art möglich und das zugehörige Risiko ß>(,u ) für
1
eine Gesundheitsgefährdung läßt sich nach 14.1.1 (6) für relevante Werte\ bzw. ,u
1
bestimmen, z.B. für
750
bzw.
,u1 =1,5 ·,u 0 = 11,49
::::}
ß>(,u1) = 63,4%'
2 ·-A 0 = 1000
bzw.
,u1 = 2 ·,u 0 = 15,33
::::}
ß>(,u1) = 24,2%
\ = 1,5 . -A 0 =
\ =
0
Diese Risiken lassen sich (wie beim einseitig unteren Test) durch eine Erhöhung
des Stichprobenvolumens reduzieren. Für ein doppelt so großes ,u 0 = -A 0 V2 = 15,326.
ergibt sich aus Tabelle 1 der zugehörige obere kritische Wert zu k(X = 23 mit einem
effektiven Testniveau a>(,u ) = 3,99%, und die obigen Risiken für den Fehler 2. Art
0
sind jetzt erheblich geringer als vorher:
750
bzw.
,u1 =1,5 ·,u 0 = 22,99
::::}
ß>(,u1) =47,3%'
2 ·-A 0 = 1000
bzw.
,u1 = 2 ·,u 0 = 30,65
::::}
ß>(,u1) =6,5%
\ = 1,5 . -A 0 =
-A 1 =
0
Tests für den Erwartungswert der Poissonverteilung
14.4*
14-12
15.3.16
Der zweiseitige Poison-Test
Für eine Zufallsvariable X mit Pois(p,)- Verteilung betrachten wir schließlich die folgende Nullhypothese mit der zweiseitigen Alternative:
Nullhypothese H
(1)
0
(Referenzwert wird eingehalten),
:
Alternative H :
(Referenzwert wird nicht eingehalten).
Die Entscheidung über diese Hypothesen führt man (wie in Kapitel 13) auf die bei-
den einseitigen Tests zum jeweils halben Niveau ~ zurück, d.h. man entscheidet sich
für die Alternative p, :;= p, , falls sich der einseitig obere Test oder der untere Test
0
zum Niveau ~ für die jeweilige Alternative p, > p, 0 oder p, < p, 0 entschieden hat.
14.4.1* Der exakte zweiseitige Poisson-Test
Der exakte Test lautet daher:
Exakter zweiseitiger Poisson-Test zum (nominellen) Niveau a.:
Ablehnung der Nullhypothese H : p, = p, bzw. Entscheidung für die Alternative
0
0
H: p, :;= p, 0 aufgrundeiner Realisierung x, d.h. d:;zt.(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist
(1)
Der Wert p, 0 liegt nicht im exakten zweiseitigen Konfidenzintervall Irx(x):
(2)
oder
(3)
x
> k0 (p, 0 )
oder
2
mit
P{ X< x 11-Lo} < ~
x
<
k~(p, )
2
0
k9' (1-Lo) : = Min { k E W0 I P{ X> k I p 0 } < ~
},
2
k~(p, 0 ) : = Max { k E W0 U { -1} I P{ X< k I p 0 }
2
< ~ }.
Bezeichnen wir die Schärfen der beiden einseitigen Tests zum Niveau ~ mit
(5)
Pow <(1-L I~) := P{ X< k~(p, 0 ) 11-L },
2
Tests für den Erwartungswert der Poissonverteilung
15.3.16
14-13
so ergibt sich die Schärfe Pow:;Z: (p, I a) des zweiseitigen Tests d:;Z: wegen
(6)
für
0<a<1
als Summe beider einseitigen Schärfen
Die Nullhypothese H enthält hier nur den Wert p, = p, und das effektive Testniveau
0
0
bzw. (maximale) Fehlerrisko 1. Art des zweiseitigen Tests ist wieder höchstens gleich
dem nominalen Niveau (d.h. der Test ist konservativ)
14.4.2* Der asymptotische zweiseitige Poisson-Test
Der asymptotische Test für großes p, lautet:
0
Asymptotischer zweiseitiger Test zum (asymptotischen) Niveau a.:
Ablehnung der Nullhypothese H : p, = p, bzw. Entscheidung für die Alternative
0
0
H: p, :;= p, 0 aufgrundeiner Realisierung x, d.h. d;Z:(x) = 1, gerrau dann wenn eine
der folgenden äquivalenten Bedingungen erfüllt ist
(1)
Der Wert p, liegt nicht im asymptotischen zweiseitigen Konfidenzintervall:
(2)
Der absolute Testwert überschreitet einen kritischen Wert:
0
I t(x) I : = I x- flo I >
v1lo
(3)
<P( -I t( X) I) <
~
0
Die Schärfe Pow :;Z:(p, I a) des zweiseitigen asymptotischen Tests zum Niveau a ist die
Summe der Schärfen beider einseitigen asymptotischen Tests zum Niveau ~, d.h.
Das (maximale) Fehlerrisko 1. Art des zweiseitigen Tests ist die Summe der maximalen Fehlerrisko 1. Art beider einseitigen Tests zum Niveau ~, d.h.
Tests für den Erwartungswert der Poissonverteilung
Dieses Risiko konvergiert für p,
(6)
a~(f-Lo)
fL ---+oo
0
---+
14-14
15.3.16
oo gegen das nominelle Niveau a
a'
0
d.h. der zweiseitige Test hat das asymptotische Niveau a.
Aus den Approximationen der Schärfen beider einseitiger asymptotischer Tests
erhält man die asymptotische Schärfe des zweiseitigen Testes
(7)
APow ~(1-L Ia) : = APow >(1-L I~)
14.5*
Poisson-Tests bei unabhängigen Wiederholungen
+ APow <(1-L I~).
Sind jetzt (wie in 12.7) n unabhängige Pois(p,)-verteilte Zufallsvariablen X , ... , Xn
gegeben, so ist ihre Summe X t == X
(1)
X
+
"'Pois(p,(n))
+ ... +Xn Poisson-verteilt
1
1
p,(n) = np,.
mit
Die Testprobleme mit den Hypothesen über p,
(2)
Ho: 1-L
< 1-Lo
vs.
H: 1-L
(3)
Ho: 1-L
> 1-Lo
vs.
H: 1-L < 1-Lo '
(4)
Ho: 1-L = 1-Lo
vs.
H: 1-L
> 1-Lo '
:;=
1-Lo '
lassen sich äquivalent formulieren als Hypothesen über den Erwartungswert p,(n)
von X+ bzgl. des Referenzwerts p,~n) = n p, :
0
(2)'
HO: 1-L(n) < 1-L~n)
vs.
H: 1-L(n)
> 1-L~n) '
(3)'
HO: 1-L(n) > 1-L~n)
vs.
H: 1-L(n)
< 1-L~n).
(4)'
HO: 1-L(n) = 1-L~n)
vs.
H: 1-L(n)
:;=
1-L~n).
Ersetzt man in den obigen Abschnitten die Zufallsvariable X durch X+ und die Erwartungswerte p, bzw. p, durch p,(n) bzw. p,~n), so ergeben sich die entsprechenden
0
Tests, die wir hier nicht mehr explizit formulieren. Es sei noch darauf hingewiesen,
daß für hinreichend großes n die asymptotischen Tests anwendbar sind, weil
(5)
n---+oo
00
0
G. Osius: Statistik-Funktionen in Tabellenkalkulationen
S
s- 1
11.3.16
Statistische Funktionen in
Tabellenkalkulationen
Gerhard Osius
Für die wichtigsten im Skript behandelten Verteilungen sind hier die zugehörigen
Statistik-Funktionen von Microsoft Excel tabellearisch zusammengestellt. Für Details -und weitere Verteilungen- konsultiere man die Microsoft Excel-Hilfe.
Die unten genannten Funktione stehen auch in anderen (zu Excel kompatiblen)
Tabellenkalkulationen zur Verfügung, z.B. OpenOffice Calc und LibreOffice Calc.
Diskrete Verteilungen
Funktion
Beschreibung
(Kommentar)
Fakultät und Binomialkoeffizient
FAKULTAT[n)
n!
KOMBINATIONEN[n, k)
(~)
Bernoulli-Verteilung
B(1,p)
s.u. für n = 1
Binomial-Verteilung
X~
vgl. 1.2.3
BINOMVERT[k; n; p; 0)
P {X= k} = b( k I n,p)
kE { 0, ... , n}
BINOMVERT[k; n; p; 1)
P{X<k}
kE { 0, ... , n}
KRITBINOM[n;p; a)
Min { k E Z I P {X< k Ip } > a }
+ KRITBINOM[n; p; 1- a)
B(n,p),
kCt (p)
vgl. 13.1.3 (4)
KRITBINOM[n; p; a) -1
k'Ct (p)
vgl. 13.2 (2)
Poisson-Verteilung
X~
POISSON[k; p,; 0)
P {X= k} = p( k 11-L)
kEW
POISSON[k; p,; 1)
P{X<k}
kEW
Geometrische Verteilung
Geo(p) = NB(1,p)
s.u. für n = 1
Negativ-Binomial-Verteilung
X~
vgl. 6.1.4
NEGBINOMVERT[k; n; p)
P{X=k}
kEW
Hypergeometrische Verteilung
X~
vgl. 9.8.3
HYPERGEOMVERT[m; n; p; 0)
P{X=m} = h(mln,M,N),
1
Pois(p,),
NB(n,p),
H(n,M,N),
vgl. 1.3.1
0
0
0
mET MN
n,
'
G. Osius: Statistik-Funktionen in Tabellenkalkulationen
11.3.16
s- 2
Stetige Verteilungen
Funktion
Beschreibung
Standard-Normalverteilung N( 0, 1),
(Kommentar)
vgl. 4.3.3
STANDNORMVERT[x)
Verteilungsfunktion (x) von N(O, 1)
STANDNORMINV(p)
Inverse -\p) von ,
0 -\a),
0<a<1
Normalverteilung
X,.....__ N(p,, a 2 ),
vgl. 1.4.1
NORMVERT[x; p,; a; 0)
2
Dichte f(x) von X,.....__ N(p,, a )
NORMVERT[x; p,; a; 1)
2
Verteilungsfunktion F(x) = P{ X< x} von X,.....__ N(p,, a )
Exponential-Verteilung
X,.....__ Expo(>.),
vgl. 1.4.2
Expo(>.) = Gam(1, >.-1),
vgl. 6.2.2
EXPONVERT[x;).; 0)
Dichte f(x) von X
EXPONVERT[x;).; 1)
Verteilungsfunktion F(x) = P{ X< x} von X
Gamma-Verteilung
X,.....__ Gam( a,ß)
GAMMAVERT[x; a; ß; 0)
Dichte f(x) von X
GAMMAVERT[x; a; ß; 1)
Verteilungsfunktion F(x) = P{ X< x} von X
Gamma-Funktion und ihr (natürlicher) Logarithmus
vgl. 6.2.2
vgl. 6.2.4
GAMMALN[x)
Zn (T(x)),
x>O
EXP[GAMMALN[ x))
r(x),
x>O
t-Verteilung
X,.....__
TVERT(x; m; 1)
P{X>x}
nur für x> 0
P{X>-x} = 1-P{X>x}
nur für x> 0
t
vgl. 10.3
m'
TINV(2a; m)
a-Quantil
Chiquadrat-Verteilung
x,.....__xm'
tm;a der tm -Verteilung
2
vgl. 8.3.3
X~= Gam(~,2)
CHIVERT[x; m)
P{X>x}
CHIINV[a; m)
a-Quantil
F-Verteilung
x,.....__p
FVERT(x; m; n]
P{X>x}
FINV[a; m; n]
a-Quantil F
der F -Verteilung
mn;a
mn
x2m·a der x2m-Verteilung,
'
mn'
vgl. 11.5
T
Statistische Tabellen
Gerhard Osius
1.
Verteilungsfunktion .P(x) der Normalverteilung für
negative Argumente
positive
2.
Argumente
Quantile z der N(0,1)-Verteilung für
a
Quantile tFG-a der t- Verteilung tFG für
' N( 0,1 )-Verteilung für
Quantile z der
a
Quantile tFG-a der t- Verteilung tFG für
a = 0,1%, ... , 10%
a = 0,1% ,... , 10%
a = 15% ,.... , 45%
a = 15% ,.... , 45%
'
3.
Quantile X~c-a der Chiquadrat-Verteilung X~G für
FG = 1,... , 50 ' und a = 0,1%, ... , 10%
a = 20%, ... , 80%
a = 90%, ... , 99,9%
4.
a-Quantile F
m,n;a
der F- Verteilung mit den Freiheitsgraden
m, n = 1,... , 15, 30, 60, 120, 240
und
a = 10% 5% 2,5% 1% 0,5%
Hinweise zu den Tabellen
Vor der Nutzung einer Tabelle sollte man das Ablese-Beipiel nachvollziehen.
Die Funktionswerte y = f(x) sind in der jeweiligen Tabelle nicht lückenlos aufgeführt. Wenn ein Argument x innerhalb des Tabellenbereich liegt, aber nicht aufgeführt ist, so kann man den zugehörigen Funktionswert y wie folgt durch lineare Interpolation approximieren. Hierfür liest man für die beiden benachbarten Argumente x1 < x < x2 in der Tabelle die Funktionswerte yi = f(x) für i = 1, 2 ab. Die Gerade durch beide Punkte (x , y ) und (x , y ) approximiert die Funktion f im Inter1 1
2 2
vall [x , x ] und man verwendet den Funktionswert g(x) auf der Geraden als Nähe1 2
rung für f(x). Die zugehörige Geradengleichung lautet
(1)
Wenn das Argument außerhalb des Bereiches einer Tabelle liegt, so kann man dieInterpolation (1) für die ersten bzw. letzten beiden Argumente x < x < x bzw.
1
2
x < xx < x aus der Tabelle für eine (grobe) Approximation vonf(x) verwenden.
1
Die Funktionswerte bei Beispielen im Skript sind exakt berechnet und können von
durch Interpolation gewonnen Werten aus den Tabellen (geringfügig) abweichen.
T-1
G. Osius: Statistische Tabellen
Verteilungsfunktion .P(x) der Normalverteilung
N( 0,1) in Prozent für negative Argumente x < 0
Ablese-Beispiele:
.P(-1,00)
.P(-1,64)
= 15,87%,
= 5,050%
X 0
0
-,00 -,01 -,02
-,03
-,04 -,05 -,06
-,07
-,08
-,09
X
-0,0
-0,1
-0,2
-0,3
-0,4
50,00
46,02
42,07
38,21
34,46
49,60
45,62
41,68
37,83
34,09
49,20
45,22
41,29
37,45
33,72
48,80
44,83
40,90
37,07
33,36
48,40
44,43
40,52
36,69
33,00
48,01
44,04
40,13
36,32
32,64
47,61
43,64
39,74
35,94
32,28
47,21 46,81
43,25 42,86
39,36 38,97
35,57 35,20
31,92 31,56
46,41
42,47
38,59
34,83
31,21
-0,0
-0,1
-0,2
-0,3
-0,4
-0,5
-0,6
-0,7
-0,8
-0,9
30,85
27,43
24,20
21,19
18,41
30,50
27,09
23,89
20,90
18,14
30,15
26,76
23,58
20,61
17,88
29,81
26,43
23,27
20,33
17,62
29,46
26,11
22,96
20,05
17,36
29,12
25,78
22,66
19,77
17,11
28,77
25,46
22,36
19,49
16,85
28,43
25,14
22,06
19,22
16,60
28,10
24,83
21,77
18,94
16,35
27,76
24,51
21,48
18,67
16,11
-0,5
-0,6
-0,7
-0,8
-0,9
-1,0
-1,1
-1,2
-1,3
-1,4
15,87
13,57
11,51
9,680
8,076
15,62
13,35
11,31
9,510
7,927
15,39 15,15
13,14 12,92
11,12 10,93
9,342 9,176
7,780 7,636
14,92
12,71
10,75
9,012
7,493
14,69
12,51
10,56
8,851
7,353
14,46
12,30
10,38
8,692
7,215
14,23
12,10
10,20
8,534
7,078
14,01
11,90
10,03
8,379
6,944
13,79
11,70
9,853
8,226
6,811
-1,0
-1,1
-1,2
-1,3
-1,4
-1,5
-1,6
-1,7
-1,8
-1,9
6,681
5,480
4,457
3,593
2,872
6,552
5,370
4,363
3,515
2,807
6,426
5,262
4,272
3,438
2,743
6,301
5,155
4,182
3,362
2,680
6,178
5,050
4,093
3,288
2,619
6,057
4,947
4,006
3,216
2,559
5,938
4,846
3,920
3,144
2,500
5,821 5,705
4,746 4,648
3,836 3,754
3,074 3,005
2,442 2,385
5,592
4,551
3,673
2,938
2,330
-1,5
-1,6
-1,7
-1,8
-1,9
-2,0
-2,1
-2,2
-2,3
-2,4
2,275
1,786
1,390
1,072
0,820
2,222
1,743
1,355
1,044
0,798
2,169 2,118
1,700 1,659
1,321 1,287
1,017 0,990
0,776 0,755
2,068
1,618
1,255
0,964
0,734
2,018
1,578
1,222
0,939
0,714
1,970
1,539
1,191
0,914
0,695
1,923
1,500
1,160
0,889
0,676
1,876
1,463
1,130
0,866
0,657
1,831
1,426
1,101
0,842
0,639
-2,0
-2,1
-2,2
-2,3
-2,4
-2,5
-2,6
-2,7
-2,8
-2,9
0,621
0,466
0,347
0,256
0,187
0,604
0,453
0,336
0,248
0,181
0,587
0,440
0,326
0,240
0,175
0,570
0,427
0,317
0,233
0,169
0,554
0,415
0,307
0,226
0,164
0,539
0,402
0,298
0,219
0,159
0,523
0,391
0,289
0,212
0,154
0,508
0,379
0,280
0,205
0,149
0,494
0,368
0,272
0,199
0,144
0,480
0,357
0,264
0,193
0,139
-2,5
-2,6
-2,7
-2,8
-2,9
-3,0
-3,1
-3,2
-3,3
-3,4
0,135
0,097
0,069
0,048
0,034
0,131
0,094
0,066
0,047
0,032
0,126
0,090
0,064
0,045
0,031
0,122
0,087
0,062
0,043
0,030
0,118
0,084
0,060
0,042
0,029
0,114
0,082
0,058
0,040
0,028
0,111
0,079
0,056
0,039
0,027
0,107
0,076
0,054
0,038
0,026
0,104
0,074
0,052
0,036
0,025
0,100
0,071
0,050
0,035
0,024
-3,0
-3,1
-3,2
-3,3
-3,4
-,00 -,01 -,02
-,03
-,04 -,05 -,06
-,07
-,08
-,09
X
X
X
T-2
G. Osius: Statistische Tabellen
Verteilungsfunktion .P(x) der Normalverteilung
N( 0,1) in Prozent für positive Argumente x > 0
Ablese-Beispiele:
.P(+1,00)
.P(+1,64)
= 84,13%,
= 94,9 5%0
0
X
+,OO +,01 +,02
+,03
+,04 +,05 +,06
+,07
+,08
+,09
X
+O,O
+0,1
+0,2
+0,3
+0,4
50,00
53,98
57,93
61,79
65,54
50,40
54,38
58,32
62,17
65,91
50,80
54,78
58,71
62,55
66,28
51,20
55,17
59,10
62,93
66,64
51,60
55,57
59,48
63,31
67,00
51,99
55,96
59,87
63,68
67,36
52,39
56,36
60,26
64,06
67,72
52,79
56,75
60,64
64,43
68,08
53,19
57,14
61,03
64,80
68,44
53,59
57,53
61,41
65,17
68,79
+O,O
+0,1
+0,2
+0,3
+0,4
+0,5
+0,6
+0,7
+0,8
+0,9
69,15
72,57
75,80
78,81
81,59
69,50
72,91
76,11
79,10
81,86
69,85
73,24
76,42
79,39
82,12
70,19
73,57
76,73
79,67
82,38
70,54
73,89
77,04
79,95
82,64
70,88
74,22
77,34
80,23
82,89
71,23
74,54
77,64
80,51
83,15
71,57
74,86
77,94
80,78
83,40
71,90
75,17
78,23
81,06
83,65
72,24
75,49
78,52
81,33
83,89
+0,5
+0,6
+0,7
+0,8
+0,9
+1,0
+1,1
+1,2
+1,3
+1,4
84,13
86,43
88,49
90,32
91,92
84,38
86,65
88,69
90,49
92,07
84,61
86,86
88,88
90,66
92,22
84,85
87,08
89,07
90,82
92,36
85,08
87,29
89,25
90,99
92,51
85,31
87,49
89,44
91,15
92,65
85,54
87,70
89,62
91,31
92,79
85,77
87,90
89,80
91,47
92,92
85,99
88,10
89,97
91,62
93,06
86,21
88,30
90,15
91,77
93,19
+1,0
+1,1
+1,2
+1,3
+1,4
+1,5
+1,6
+1,7
+1,8
+1,9
93,32
94,52
95,54
96,41
97,13
93,45
94,63
95,64
96,49
97,19
93,57
94,74
95,73
96,56
97,26
93,70
94,84
95,82
96,64
97,32
93,82
94,95
95,91
96,71
97,38
93,94
95,05
95,99
96,78
97,44
94,06
95,15
96,08
96,86
97,50
94,18
95,25
96,16
96,93
97,56
94,29
95,35
96,25
96,99
97,61
94,41
95,45
96,33
97,06
97,67
+1,5
+1,6
+1,7
+1,8
+1,9
+2,0
+2,1
+2,2
+2,3
+2,4
97,72
98,21
98,61
98,93
99,18
97,78
98,26
98,64
98,96
99,20
97,83
98,30
98,68
98,98
99,22
97,88
98,34
98,71
99,01
99,25
97,93
98,38
98,75
99,04
99,27
97,98
98,42
98,78
99,06
99,29
98,03
98,46
98,81
99,09
99,31
98,08
98,50
98,84
99,11
99,32
98,12
98,54
98,87
99,13
99,34
98,17
98,57
98,90
99,16
99,36
+2,0
+2,1
+2,2
+2,3
+2,4
+2,5
+2,6
+2,7
+2,8
+2,9
99,38
99,53
99,65
99,74
99,81
99,40
99,55
99,66
99,75
99,82
99,41
99,56
99,67
99,76
99,82
99,43
99,57
99,68
99,77
99,83
99,45
99,59
99,69
99,77
99,84
99,46
99,60
99,70
99,78
99,84
99,48
99,61
99,71
99,79
99,85
99,49
99,62
99,72
99,79
99,85
99,51
99,63
99,73
99,80
99,86
99,52
99,64
99,74
99,81
99,86
+2,5
+2,6
+2,7
+2,8
+2,9
+3,0
+3,1
+3,2
+3,3
+3,4
99,87
99,90
99,93
99,95
99,97
99,87
99,91
99,93
99,95
99,97
99,87
99,91
99,94
99,95
99,97
99,88
99,91
99,94
99,96
99,97
99,88
99,92
99,94
99,96
99,97
99,89
99,92
99,94
99,96
99,97
99,89
99,92
99,94
99,96
99,97
99,89
99,92
99,95
99,96
99,97
99,90
99,93
99,95
99,96
99,97
99,90
99,93
99,95
99,97
99,98
+3,0
+3,1
+3,2
+3,3
+3,4
+,OO +,01 +,02
+,03
+,04 +,05 +,06
+,07
+,08
+,09
X
X
X
T-3
G. Osius: Statistische Tabellen
Quantile z 0 der N(0,1)-Verteilung für a = 0,1% ,.... , 10%._
Beispiel:
a
Za
(\
~
~
Für a = 5% ist z5% = 1,645 .
0,1% 0,25%
0,5%
1%
2,5%
5%
10%
a
3,090
2,576
2,326
1,960
1,645
1,282
Za
2,807
Quantile t~;a der I-Verteilung tFGfür a = 0,1%, ... , 10%~
Bezspzel:
FG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
80
100
200
300
400
500
00
FG
Fur FG = 10, a
= 5% 1st t10 . 507 = 1,812.
0,1% 0,25%
318,31 127,32
22,327 14,089
10,215
7,453
7,173
5,598
5,893
4,773
5,208
4,317
4,785
4,029
4,501
3,833
4,297
3,690
4,144
3,581
4,025
3,497
3,930
3,428
3,852
3,372
3,787
3,326
3,733
3,286
3,686
3,252
3,646
3,222
3,610
3,197
3,579
3,174
3,552
3,153
3,527
3,135
3,505
3,119
3,485
3,104
3,467
3,091
3,450
3,078
3,435
3,067
3,421
3,057
3,408
3,047
3,396
3,038
3,385
3,030
3,307
2,971
3,261
2,937
3,232
2,915
3,195
2,887
3,174
2,871
3,131
2,839
3,118
2,828
3,111
2,823
3,107
2,820
3,090
2,807
0,1% 0,25%
,
0,5%
63,66
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,678
2,660
2,639
2,626
2,601
2,592
2,588
2,586
2,576
0,5%
10
1%
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,403
2,390
2,374
2,364
2,345
2,339
2,336
2,334
2,326
1%
2,5%
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,009
2,000
1,990
1,984
1,972
1,968
1,966
1,965
1,960
2,5%
5%
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,676
1,671
1,664
1,660
1,653
1,650
1,649
1,648
1,645
5%
0
tFG·a
10%
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,299
1,296
1,292
1,290
1,286
1,284
1,284
1,283
1,282
10%
FG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
80
100
200
300
400
500
00
FG
Quantile z 0 der N(0,1)-Verteilung für a = 15% ,.... , 45%.
Beispiel:
Für a
/k
T-4
Go Osius: Statistische Tabellen
= 25% ist z2507 = 0,674
0
0
10
Za
a
15%
20%
25%
30%
35%
40%
45%
a
Za
1,036
0,842
0,674
0,524
0,385
0,253
0,126
Za
Quantile t~;a der t- Verteilung tFG für: = 15% ,.... , 45%~
Bezspzelo
Fur FG -10, a - 25% 1st t100 2507 - 0,700 0
,
10
0
tFG·a
FG
15%
20%
25%
30%
35%
40%
45%
FG
1
2
3
4
5
6
7
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
0,851
0,849
0,848
0,846
0,845
0,843
0,843
0,843
0,842
0,842
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683
0,681
0,679
0,679
0,678
0,677
0,676
0,675
0,675
0,675
0,674
0,727
0,617
0,584
0,569
0,559
0,553
0,549
0,546
0,543
0,542
0,540
0,539
0,538
0,537
0,536
0,535
0,534
0,534
0,533
0,533
0,532
0,532
0,532
0,531
0,531
0,531
0,531
0,530
0,530
0,530
0,529
0,528
0,527
0,526
0,526
0,525
0,525
0,525
0,525
0,524
0,510
0,445
0,424
0,414
0,408
0,404
0,402
0,399
0,398
0,397
0,396
0,395
0,394
0,393
0,393
0,392
0,392
0,392
0,391
0,391
0,391
0,390
0,390
0,390
0,390
0,390
0,389
0,389
0,389
0,389
0,388
0,388
0,387
0,387
0,386
0,386
0,386
0,386
0,386
0,385
0,325
0,289
0,277
0,271
0,267
0,265
0,263
0,262
0,261
0,260
0,260
0,259
0,259
0,258
0,258
0,258
0,257
0,257
0,257
0,257
0,257
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,255
0,255
0,254
0,254
0,254
0,254
0,254
0,254
0,253
0,253
0,158
0,142
0,137
0,134
0,132
0,131
0,130
0,130
0,129
0,129
0,129
0,128
0,128
0,128
0,128
0,128
0,128
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,127
0,126
0,126
0,126
0,126
0,126
0,126
0,126
0,126
0,126
0,126
1
2
3
4
5
6
7
00
1,963
1,386
1,250
1,190
1,156
1,134
1,119
1,108
1,100
1,093
1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064
1,063
1,061
1,060
1,059
1,058
1,058
1,057
1,056
1,055
1,055
1,050
1,047
1,045
1,043
1,042
1,039
1,038
1,038
1,038
1,036
FG
15%
20%
25%
30%
35%
40%
45%
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
80
100
200
300
400
500
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
80
100
200
300
400
500
00
FG
T-5
G. Osius: Statistische Tabellen
Quantile X~c-a der Chiquadrat-Verteilung X~G für
~
FG = 1,... , 50,(Zeilen) und a = 0,1%, ... , 10% (Spalten)
Beispiel:
FG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
Für FG = 10, a
= 5% ist X~o·, 5070;c = 18,307 .
0,1% 0,25%
10,828
13,816
16,266
18,467
20,515
22,458
24,322
26,124
27,877
29,588
31,264
32,909
34,528
36,123
37,697
39,252
40,790
42,312
43,820
45,315
46,797
48,268
49,728
51,179
52,620
54,052
55,476
56,892
58,301
59,703
61,098
62,487
63,870
65,247
66,619
67,985
69,346
70,703
72,055
73,402
74,745
76,084
77,419
78,750
80,077
81,400
82,720
84,037
85,351
86,661
9,141
11,983
14,320
16,424
18,386
20,249
22,040
23,774
25,462
27,112
28,729
30,318
31,883
33,426
34,950
36,456
37,946
39,422
40,885
42,336
43,775
45,204
46,623
48,034
49,435
50,829
52,215
53,594
54,967
56,332
57,692
59,046
60,395
61,738
63,076
64,410
65,739
67,063
68,383
69,699
71,011
72,320
73,624
74,925
76,223
77,517
78,809
80,097
81,382
82,664
I"N
a
x2
FG;a
0
0,5%
1%
2,5%
5%
10%
FG
7,879
10,597
12,838
14,860
16,750
18,548
20,278
21,955
23,589
25,188
26,757
28,300
29,819
31,319
32,801
34,267
35,718
37,156
38,582
39,997
41,401
42,796
44,181
45,559
46,928
48,290
49,645
50,993
52,336
53,672
55,003
56,328
57,648
58,964
60,275
61,581
62,883
64,181
65,476
66,766
68,053
69,336
70,616
71,893
73,166
74,437
75,704
76,969
78,231
79,490
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
52,191
53,486
54,776
56,061
57,342
58,619
59,893
61,162
62,428
63,691
64,950
66,206
67,459
68,710
69,957
71,201
72,443
73,683
74,919
76,154
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
48,232
49,480
50,725
51,966
53,203
54,437
55,668
56,896
58,120
59,342
60,561
61,777
62,990
64,201
65,410
66,617
67,821
69,023
70,222
71,420
3,841
5,991
7,815
9,488
11,071
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
44,985
46,194
47,400
48,602
49,802
50,998
52,192
53,384
54,572
55,758
56,942
58,124
59,304
60,481
61,656
62,830
64,001
65,171
66,339
67,505
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
41,422
42,585
43,745
44,903
46,059
47,212
48,363
49,513
50,660
51,805
52,949
54,090
55,230
56,369
57,505
58,641
59,774
60,907
62,038
63,167
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
T-6
G. Osius: Statistische Tabellen
Quantile X~c-a
, der Chiquadrat-Verteilung X~G für
FG
=
1, ... , 50 (Zeilen) und a
Beispiel:
=
20%, ... , 80% (Spalten)
Für FG = 10, a =50% ist X~o; SO%= 9,342 .
o
fh
XFG;a
FG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
20%
1,642
3,219
4,642
5,989
7,289
8,558
9,803
11,030
12,242
13,442
14,631
15,812
16,985
18,151
19,311
20,465
21,615
22,760
23,900
25,038
30%
1,074
2,408
3,665
4,878
6,064
7,231
8,383
9,524
10,656
11,781
12,899
14,011
15,119
16,222
17,322
18,418
19,511
20,601
21,689
22,775
40%
0,708
1,833
2,946
4,045
5,132
6,211
7,283
8,351
9,414
10,473
11,530
12,584
13,636
14,685
15,733
16,780
17,824
18,868
19,910
20,951
50%
0,455
1,386
2,366
3,357
4,351
5,348
6,346
7,344
8,343
9,342
10,341
11,340
12,340
13,339
14,339
15,338
16,338
17,338
18,338
19,337
60%
0,275
1,022
1,869
2,753
3,655
4,570
5,493
6,423
7,357
8,295
9,237
10,182
11,129
12,078
13,030
13,983
14,937
15,893
16,850
17,809
70%
0,148
0,713
1,424
2,195
3,000
3,828
4,671
5,527
6,393
7,267
8,148
9,034
9,926
10,821
11,721
12,624
13,531
14,440
15,352
16,266
80%
0,064
0,446
1,005
1,649
2,343
3,070
3,822
4,594
5,380
6,179
6,989
7,807
8,634
9,467
10,307
11,152
12,002
12,857
13,716
14,578
FG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
26,171
27,301
28,429
29,553
30,675
31,795
32,912
34,027
35,139
36,250
37,359
38,466
39,572
40,676
41,778
42,879
43,978
45,076
46,173
47,269
48,363
49,456
50,548
51,639
52,729
53,818
54,906
55,993
57,079
58,164
23,858
24,939
26,018
27,096
28,172
29,246
30,319
31,391
32,461
33,530
34,598
35,665
36,731
37,795
38,859
39,922
40,984
42,045
43,105
44,165
45,224
46,282
47,339
48,396
49,452
50,507
51,562
52,616
53,670
54,723
21,991
23,031
24,069
25,106
26,143
27,179
28,214
29,249
30,283
31,316
32,349
33,381
34,413
35,444
36,475
37,505
38,535
39,564
40,593
41,622
42,651
43,679
44,706
45,734
46,761
47,787
48,814
49,840
50,866
51,892
20,337
21,337
22,337
23,337
24,337
25,336
26,336
27,336
28,336
29,336
30,336
31,336
32,336
33,336
34,336
35,336
36,336
37,335
38,335
39,335
40,335
41,335
42,335
43,335
44,335
45,335
46,335
47,335
48,335
49,335
18,768
19,729
20,690
21,652
22,616
23,579
24,544
25,509
26,475
27,442
28,409
29,376
30,344
31,313
32,282
33,252
34,222
35,192
36,163
37,134
38,105
39,077
40,050
41,022
41,995
42,968
43,942
44,915
45,889
46,864
17,182
18,101
19,021
19,943
20,867
21,792
22,719
23,647
24,577
25,508
26,440
27,373
28,307
29,242
30,178
31,115
32,053
32,992
33,932
34,872
35,813
36,755
37,698
38,641
39,585
40,529
41,474
42,420
43,366
44,313
15,445
16,314
17,187
18,062
18,940
19,820
20,703
21,588
22,475
23,364
24,255
25,148
26,042
26,938
27,836
28,735
29,635
30,537
31,441
32,345
33,251
34,157
35,065
35,974
36,884
37,795
38,708
39,621
40,534
41,449
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
T-7
G. Osius: Statistische Tabellen
Quantile
;FG·a der Chiquadrat-Verteilung ;FG für
~
~O,(Zeilen) und a . 90~,..., 99,9% (Spalten)~
Fur FG = 10, a = 95% 1st x10 . 95 = 3,940 .
0 x2
,
;o
FG;a
FG . 1, ... ,
Bezspzel:
FG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
(!1
90%
0,016
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
13,240
14,041
14,848
15,659
16,473
17,292
18,114
18,939
19,768
20,599
21,434
22,271
23,110
23,952
24,797
25,643
26,492
27,343
28,196
29,051
29,907
30,765
31,625
32,487
33,350
34,215
35,081
35,949
36,818
37,689
95%
0,004
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
11,591
12,338
13,091
13,848
14,611
15,379
16,151
16,928
17,708
18,493
19,281
20,072
20,867
21,664
22,465
23,269
24,075
24,884
25,695
26,509
27,326
28,144
28,965
29,787
30,612
31,439
32,268
33,098
33,930
34,764
97,5%
0,001
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
10,283
10,982
11,689
12,401
13,120
13,844
14,573
15,308
16,047
16,791
17,539
18,291
19,047
19,806
20,569
21,336
22,106
22,878
23,654
24,433
25,215
25,999
26,785
27,575
28,366
29,160
29,956
30,755
31,555
32,357
99%
0,000
0,020
0,115
0,297
0,554
0,872
1,239
1,646
2,088
2,558
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
8,897
9,542
10,196
10,856
11,524
12,198
12,879
13,565
14,256
14,953
15,655
16,362
17,074
17,789
18,509
19,233
19,960
20,691
21,426
22,164
22,906
23,650
24,398
25,148
25,901
26,657
27,416
28,177
28,941
29,707
99,5% 99,75%
0,000
0,000
0,010
0,005
0,072
0,045
0,207
0,145
0,412
0,307
0,676
0,527
0,989
0,794
1,344
1,104
1,735
1,450
2,156
1,827
2,603
2,232
3,074
2,661
3,565
3,112
4,075
3,582
4,601
4,070
5,142
4,573
5,697
5,092
6,265
5,623
6,844
6,167
7,434
6,723
8,034
7,289
8,643
7,865
9,260
8,450
9,886
9,044
10,520
9,646
11,160 10,256
11,808 10,873
12,461 11,497
13,121 12,128
13,787 12,765
14,458 13,407
15,134 14,056
15,815 14,709
16,501 15,368
17,192 16,032
17,887 16,700
18,586 17,373
19,289 18,050
19,996 18,732
20,707 19,417
21,421 20,106
22,138 20,799
22,859 21,496
23,584 22,196
24,311 22,900
25,041 23,606
25,775 24,316
26,511 25,029
27,249 25,745
27,991 26,464
99,9%
0,000
0,002
0,024
0,091
0,210
0,381
0,598
0,857
1,152
1,479
1,834
2,214
2,617
3,041
3,483
3,942
4,416
4,905
5,407
5,921
6,447
6,983
7,529
8,085
8,649
9,222
9,803
10,391
10,986
11,588
12,196
12,811
13,431
14,057
14,688
15,324
15,965
16,611
17,262
17,916
18,575
19,239
19,906
20,576
21,251
21,929
22,610
23,295
23,983
24,674
FG
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
G. Osius: Statistische Tabellen
T-8
15.06.07
α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner)
α = 10%
FQ (m =5, n =14; α=10%) =
Beispiele:
FQ (m =14, n =5; α=10%) =
2,307
n
F -Verteilung
3,247
1-α
m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
30
60
120
240
1
2
3
4
5
6
7
8
9
10
39,86
8,526
5,538
4,545
4,060
3,776
3,589
3,458
3,360
3,285
49,50
9,000
5,462
4,325
3,780
3,463
3,257
3,113
3,006
2,924
53,59
9,162
5,391
4,191
3,619
3,289
3,074
2,924
2,813
2,728
55,83
9,243
5,343
4,107
3,520
3,181
2,961
2,806
2,693
2,605
57,24
9,293
5,309
4,051
3,453
3,108
2,883
2,726
2,611
2,522
58,20
9,326
5,285
4,010
3,405
3,055
2,827
2,668
2,551
2,461
58,91
9,349
5,266
3,979
3,368
3,014
2,785
2,624
2,505
2,414
59,44
9,367
5,252
3,955
3,339
2,983
2,752
2,589
2,469
2,377
59,86
9,381
5,240
3,936
3,316
2,958
2,725
2,561
2,440
2,347
60,19
9,392
5,230
3,920
3,297
2,937
2,703
2,538
2,416
2,323
60,47
9,401
5,222
3,907
3,282
2,920
2,684
2,519
2,396
2,302
60,71
9,408
5,216
3,896
3,268
2,905
2,668
2,502
2,379
2,284
60,90
9,415
5,210
3,886
3,257
2,892
2,654
2,488
2,364
2,269
61,07
9,420
5,205
3,878
3,247
2,881
2,643
2,475
2,351
2,255
61,22
9,425
5,200
3,870
3,238
2,871
2,632
2,464
2,340
2,244
62,26
9,458
5,168
3,817
3,174
2,800
2,555
2,383
2,255
2,155
62,79
9,475
5,151
3,790
3,140
2,762
2,514
2,339
2,208
2,107
63,06
9,483
5,143
3,775
3,123
2,742
2,493
2,316
2,184
2,082
63,19
9,487
5,138
3,768
3,114
2,732
2,482
2,304
2,172
2,069
11
12
13
14
15
3,225
3,177
3,136
3,102
3,073
2,860
2,807
2,763
2,726
2,695
2,660
2,606
2,560
2,522
2,490
2,536
2,480
2,434
2,395
2,361
2,451
2,394
2,347
2,307
2,273
2,389
2,331
2,283
2,243
2,208
2,342
2,283
2,234
2,193
2,158
2,304
2,245
2,195
2,154
2,119
2,274
2,214
2,164
2,122
2,086
2,248
2,188
2,138
2,095
2,059
2,227
2,166
2,116
2,073
2,037
2,209
2,147
2,097
2,054
2,017
2,193
2,131
2,080
2,037
2,000
2,179
2,117
2,066
2,022
1,985
2,167
2,105
2,053
2,010
1,972
2,076
2,011
1,958
1,912
1,873
2,026
1,960
1,904
1,857
1,817
2,000
1,932
1,876
1,828
1,787
1,986
1,918
1,861
1,813
1,771
16
17
18
19
20
3,048
3,026
3,007
2,990
2,975
2,668
2,645
2,624
2,606
2,589
2,462
2,437
2,416
2,397
2,380
2,333
2,308
2,286
2,266
2,249
2,244
2,218
2,196
2,176
2,158
2,178
2,152
2,130
2,109
2,091
2,128
2,102
2,079
2,058
2,040
2,088
2,061
2,038
2,017
1,999
2,055
2,028
2,005
1,984
1,965
2,028
2,001
1,977
1,956
1,937
2,005
1,978
1,954
1,932
1,913
1,985
1,958
1,933
1,912
1,892
1,968
1,940
1,916
1,894
1,875
1,953
1,925
1,900
1,878
1,859
1,940
1,912
1,887
1,865
1,845
1,839
1,809
1,783
1,759
1,738
1,782
1,751
1,723
1,699
1,677
1,751
1,719
1,691
1,666
1,643
1,735
1,703
1,674
1,649
1,626
21
22
23
24
25
2,961
2,949
2,937
2,927
2,918
2,575
2,561
2,549
2,538
2,528
2,365
2,351
2,339
2,327
2,317
2,233
2,219
2,207
2,195
2,184
2,142
2,128
2,115
2,103
2,092
2,075
2,060
2,047
2,035
2,024
2,023
2,008
1,995
1,983
1,971
1,982
1,967
1,953
1,941
1,929
1,948
1,933
1,919
1,906
1,895
1,920
1,904
1,890
1,877
1,866
1,896
1,880
1,866
1,853
1,841
1,875
1,859
1,845
1,832
1,820
1,857
1,841
1,827
1,814
1,802
1,841
1,825
1,811
1,797
1,785
1,827
1,811
1,796
1,783
1,771
1,719
1,702
1,686
1,672
1,659
1,657
1,639
1,622
1,607
1,593
1,623
1,604
1,587
1,571
1,557
1,605
1,586
1,568
1,552
1,538
26
27
28
29
30
2,909
2,901
2,894
2,887
2,881
2,519
2,511
2,503
2,495
2,489
2,307
2,299
2,291
2,283
2,276
2,174
2,165
2,157
2,149
2,142
2,082
2,073
2,064
2,057
2,049
2,014
2,005
1,996
1,988
1,980
1,961
1,952
1,943
1,935
1,927
1,919
1,909
1,900
1,892
1,884
1,884
1,874
1,865
1,857
1,849
1,855
1,845
1,836
1,827
1,819
1,830
1,820
1,811
1,802
1,794
1,809
1,799
1,790
1,781
1,773
1,790
1,780
1,771
1,762
1,754
1,774
1,764
1,754
1,745
1,737
1,760
1,749
1,740
1,731
1,722
1,647
1,636
1,625
1,616
1,606
1,581
1,569
1,558
1,547
1,538
1,544
1,531
1,520
1,509
1,499
1,524
1,511
1,500
1,489
1,478
60
120
240
2,791
2,748
2,727
2,393
2,347
2,325
2,177
2,130
2,107
2,041
1,992
1,968
1,946
1,896
1,871
1,875
1,824
1,799
1,819
1,767
1,742
1,775
1,722
1,696
1,738
1,684
1,658
1,707
1,652
1,625
1,680
1,625
1,598
1,657
1,601
1,573
1,637
1,580
1,552
1,619
1,562
1,533
1,603
1,545
1,516
1,476
1,409
1,376
1,395
1,320
1,281
1,348
1,265
1,219
1,321
1,232
1,180
G. Osius: Statistische Tabellen
T-9
15.06.07
α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner)
α = 5%
FQ (m =5, n =14; α=5%) =
Beispiele:
FQ (m =14, n =5; α=5%) =
2,958
n
F -Verteilung
4,636
1-α
m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
30
60
120
240
1
2
3
4
5
6
7
8
9
10
161,4
18,51
10,13
7,709
6,608
5,987
5,591
5,318
5,117
4,965
199,5
19,00
9,552
6,944
5,786
5,143
4,737
4,459
4,256
4,103
215,7
19,16
9,277
6,591
5,409
4,757
4,347
4,066
3,863
3,708
224,6
19,25
9,117
6,388
5,192
4,534
4,120
3,838
3,633
3,478
230,2
19,30
9,013
6,256
5,050
4,387
3,972
3,687
3,482
3,326
234,0
19,33
8,941
6,163
4,950
4,284
3,866
3,581
3,374
3,217
236,8
19,35
8,887
6,094
4,876
4,207
3,787
3,500
3,293
3,135
238,9
19,37
8,845
6,041
4,818
4,147
3,726
3,438
3,230
3,072
240,5
19,38
8,812
5,999
4,772
4,099
3,677
3,388
3,179
3,020
241,9
19,40
8,786
5,964
4,735
4,060
3,637
3,347
3,137
2,978
243,0
19,40
8,763
5,936
4,704
4,027
3,603
3,313
3,102
2,943
243,9
19,41
8,745
5,912
4,678
4,000
3,575
3,284
3,073
2,913
244,7
19,42
8,729
5,891
4,655
3,976
3,550
3,259
3,048
2,887
245,4
19,42
8,715
5,873
4,636
3,956
3,529
3,237
3,025
2,865
245,9
19,43
8,703
5,858
4,619
3,938
3,511
3,218
3,006
2,845
250,1
19,46
8,617
5,746
4,496
3,808
3,376
3,079
2,864
2,700
252,2
19,48
8,572
5,688
4,431
3,740
3,304
3,005
2,787
2,621
253,3
19,49
8,549
5,658
4,398
3,705
3,267
2,967
2,748
2,580
253,8
19,49
8,538
5,643
4,382
3,687
3,249
2,947
2,727
2,559
11
12
13
14
15
4,844
4,747
4,667
4,600
4,543
3,982
3,885
3,806
3,739
3,682
3,587
3,490
3,411
3,344
3,287
3,357
3,259
3,179
3,112
3,056
3,204
3,106
3,025
2,958
2,901
3,095
2,996
2,915
2,848
2,790
3,012
2,913
2,832
2,764
2,707
2,948
2,849
2,767
2,699
2,641
2,896
2,796
2,714
2,646
2,588
2,854
2,753
2,671
2,602
2,544
2,818
2,717
2,635
2,565
2,507
2,788
2,687
2,604
2,534
2,475
2,761
2,660
2,577
2,507
2,448
2,739
2,637
2,554
2,484
2,424
2,719
2,617
2,533
2,463
2,403
2,570
2,466
2,380
2,308
2,247
2,490
2,384
2,297
2,223
2,160
2,448
2,341
2,252
2,178
2,114
2,426
2,319
2,230
2,155
2,090
16
17
18
19
20
4,494
4,451
4,414
4,381
4,351
3,634
3,592
3,555
3,522
3,493
3,239
3,197
3,160
3,127
3,098
3,007
2,965
2,928
2,895
2,866
2,852
2,810
2,773
2,740
2,711
2,741
2,699
2,661
2,628
2,599
2,657
2,614
2,577
2,544
2,514
2,591
2,548
2,510
2,477
2,447
2,538
2,494
2,456
2,423
2,393
2,494
2,450
2,412
2,378
2,348
2,456
2,413
2,374
2,340
2,310
2,425
2,381
2,342
2,308
2,278
2,397
2,353
2,314
2,280
2,250
2,373
2,329
2,290
2,256
2,225
2,352
2,308
2,269
2,234
2,203
2,194
2,148
2,107
2,071
2,039
2,106
2,058
2,017
1,980
1,946
2,059
2,011
1,968
1,930
1,896
2,035
1,986
1,943
1,905
1,870
21
22
23
24
25
4,325
4,301
4,279
4,260
4,242
3,467
3,443
3,422
3,403
3,385
3,072
3,049
3,028
3,009
2,991
2,840
2,817
2,796
2,776
2,759
2,685
2,661
2,640
2,621
2,603
2,573
2,549
2,528
2,508
2,490
2,488
2,464
2,442
2,423
2,405
2,420
2,397
2,375
2,355
2,337
2,366
2,342
2,320
2,300
2,282
2,321
2,297
2,275
2,255
2,236
2,283
2,259
2,236
2,216
2,198
2,250
2,226
2,204
2,183
2,165
2,222
2,198
2,175
2,155
2,136
2,197
2,173
2,150
2,130
2,111
2,176
2,151
2,128
2,108
2,089
2,010
1,984
1,961
1,939
1,919
1,916
1,889
1,865
1,842
1,822
1,866
1,838
1,813
1,790
1,768
1,839
1,811
1,785
1,762
1,740
26
27
28
29
30
4,225
4,210
4,196
4,183
4,171
3,369
3,354
3,340
3,328
3,316
2,975
2,960
2,947
2,934
2,922
2,743
2,728
2,714
2,701
2,690
2,587
2,572
2,558
2,545
2,534
2,474
2,459
2,445
2,432
2,421
2,388
2,373
2,359
2,346
2,334
2,321
2,305
2,291
2,278
2,266
2,265
2,250
2,236
2,223
2,211
2,220
2,204
2,190
2,177
2,165
2,181
2,166
2,151
2,138
2,126
2,148
2,132
2,118
2,104
2,092
2,119
2,103
2,089
2,075
2,063
2,094
2,078
2,064
2,050
2,037
2,072
2,056
2,041
2,027
2,015
1,901
1,884
1,869
1,854
1,841
1,803
1,785
1,769
1,754
1,740
1,749
1,731
1,714
1,698
1,683
1,720
1,702
1,685
1,669
1,654
60
120
240
4,001
3,920
3,880
3,150
3,072
3,033
2,758
2,680
2,642
2,525
2,447
2,409
2,368
2,290
2,252
2,254
2,175
2,136
2,167
2,087
2,048
2,097
2,016
1,977
2,040
1,959
1,919
1,993
1,910
1,870
1,952
1,869
1,829
1,917
1,834
1,793
1,887
1,803
1,761
1,860
1,775
1,733
1,836
1,750
1,708
1,649
1,554
1,507
1,534
1,429
1,375
1,467
1,352
1,290
1,430
1,307
1,237
G. Osius: Statistische Tabellen
T - 10
15.06.07
α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner)
α = 2,5%
FQ (m =5, n =14; α=2,5%) =
Beispiele:
FQ (m =14, n =5; α=2,5%) =
3,663
n
F -Verteilung
6,456
1-α
m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
30
60
120
240
1
2
3
4
5
6
7
8
9
10
647,8
38,51
17,44
12,22
10,01
8,813
8,073
7,571
7,209
6,937
799,5
39,00
16,04
10,65
8,434
7,260
6,542
6,059
5,715
5,456
864,2
39,17
15,44
9,979
7,764
6,599
5,890
5,416
5,078
4,826
899,6
39,25
15,10
9,605
7,388
6,227
5,523
5,053
4,718
4,468
921,8
39,30
14,88
9,364
7,146
5,988
5,285
4,817
4,484
4,236
937,1
39,33
14,73
9,197
6,978
5,820
5,119
4,652
4,320
4,072
948,2
39,36
14,62
9,074
6,853
5,695
4,995
4,529
4,197
3,950
956,7
39,37
14,54
8,980
6,757
5,600
4,899
4,433
4,102
3,855
963,3
39,39
14,47
8,905
6,681
5,523
4,823
4,357
4,026
3,779
968,6
39,40
14,42
8,844
6,619
5,461
4,761
4,295
3,964
3,717
973,0
39,41
14,37
8,794
6,568
5,410
4,709
4,243
3,912
3,665
976,7
39,41
14,34
8,751
6,525
5,366
4,666
4,200
3,868
3,621
979,8
39,42
14,30
8,715
6,488
5,329
4,628
4,162
3,831
3,583
982,5
39,43
14,28
8,684
6,456
5,297
4,596
4,130
3,798
3,550
984,9
39,43
14,25
8,657
6,428
5,269
4,568
4,101
3,769
3,522
1001,4
39,46
14,08
8,461
6,227
5,065
4,362
3,894
3,560
3,311
1009,8
39,48
13,99
8,360
6,123
4,959
4,254
3,784
3,449
3,198
1014,0
39,49
13,95
8,309
6,069
4,904
4,199
3,728
3,392
3,140
1016,1
39,49
13,92
8,283
6,042
4,877
4,171
3,699
3,363
3,110
11
12
13
14
15
6,724
6,554
6,414
6,298
6,200
5,256
5,096
4,965
4,857
4,765
4,630
4,474
4,347
4,242
4,153
4,275
4,121
3,996
3,892
3,804
4,044
3,891
3,767
3,663
3,576
3,881
3,728
3,604
3,501
3,415
3,759
3,607
3,483
3,380
3,293
3,664
3,512
3,388
3,285
3,199
3,588
3,436
3,312
3,209
3,123
3,526
3,374
3,250
3,147
3,060
3,474
3,321
3,197
3,095
3,008
3,430
3,277
3,153
3,050
2,963
3,392
3,239
3,115
3,012
2,925
3,359
3,206
3,082
2,979
2,891
3,330
3,177
3,053
2,949
2,862
3,118
2,963
2,837
2,732
2,644
3,004
2,848
2,720
2,614
2,524
2,944
2,787
2,659
2,552
2,461
2,914
2,756
2,628
2,520
2,429
16
17
18
19
20
6,115
6,042
5,978
5,922
5,871
4,687
4,619
4,560
4,508
4,461
4,077
4,011
3,954
3,903
3,859
3,729
3,665
3,608
3,559
3,515
3,502
3,438
3,382
3,333
3,289
3,341
3,277
3,221
3,172
3,128
3,219
3,156
3,100
3,051
3,007
3,125
3,061
3,005
2,956
2,913
3,049
2,985
2,929
2,880
2,837
2,986
2,922
2,866
2,817
2,774
2,934
2,870
2,814
2,765
2,721
2,889
2,825
2,769
2,720
2,676
2,851
2,786
2,730
2,681
2,637
2,817
2,753
2,696
2,647
2,603
2,788
2,723
2,667
2,617
2,573
2,568
2,502
2,445
2,394
2,349
2,447
2,380
2,321
2,270
2,223
2,383
2,315
2,256
2,203
2,156
2,350
2,282
2,222
2,169
2,121
21
22
23
24
25
5,827
5,786
5,750
5,717
5,686
4,420
4,383
4,349
4,319
4,291
3,819
3,783
3,750
3,721
3,694
3,475
3,440
3,408
3,379
3,353
3,250
3,215
3,183
3,155
3,129
3,090
3,055
3,023
2,995
2,969
2,969
2,934
2,902
2,874
2,848
2,874
2,839
2,808
2,779
2,753
2,798
2,763
2,731
2,703
2,677
2,735
2,700
2,668
2,640
2,613
2,682
2,647
2,615
2,586
2,560
2,637
2,602
2,570
2,541
2,515
2,598
2,563
2,531
2,502
2,476
2,564
2,528
2,497
2,468
2,441
2,534
2,498
2,466
2,437
2,411
2,308
2,272
2,239
2,209
2,182
2,182
2,145
2,111
2,080
2,052
2,114
2,076
2,041
2,010
1,981
2,079
2,040
2,005
1,973
1,944
26
27
28
29
30
5,659
5,633
5,610
5,588
5,568
4,265
4,242
4,221
4,201
4,182
3,670
3,647
3,626
3,607
3,589
3,329
3,307
3,286
3,267
3,250
3,105
3,083
3,063
3,044
3,026
2,945
2,923
2,903
2,884
2,867
2,824
2,802
2,782
2,763
2,746
2,729
2,707
2,687
2,669
2,651
2,653
2,631
2,611
2,592
2,575
2,590
2,568
2,547
2,529
2,511
2,536
2,514
2,494
2,475
2,458
2,491
2,469
2,448
2,430
2,412
2,451
2,429
2,409
2,390
2,372
2,417
2,395
2,374
2,355
2,338
2,387
2,364
2,344
2,325
2,307
2,157
2,133
2,112
2,092
2,074
2,026
2,002
1,980
1,959
1,940
1,954
1,930
1,907
1,886
1,866
1,917
1,892
1,869
1,847
1,827
60
120
240
5,286
5,152
5,088
3,925
3,805
3,746
3,343
3,227
3,171
3,008
2,894
2,839
2,786
2,674
2,620
2,627
2,515
2,461
2,507
2,395
2,341
2,412
2,299
2,245
2,334
2,222
2,167
2,270
2,157
2,102
2,216
2,102
2,047
2,169
2,055
1,999
2,129
2,014
1,958
2,093
1,977
1,921
2,061
1,945
1,888
1,815
1,690
1,628
1,667
1,530
1,460
1,581
1,433
1,354
1,534
1,376
1,289
G. Osius: Statistische Tabellen
T - 11
15.06.07
α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner)
α = 1%
FQ (m =5, n =14; α=1%) =
Beispiele:
FQ (m =14, n =5; α=1%) =
4,695
n
F -Verteilung
9,770
1-α
m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
30
60
120
240
1
2
3
4
5
6
7
8
9
10
4052,2
98,50
34,12
21,20
16,26
13,75
12,25
11,26
10,56
10,04
4999,5
99,00
30,82
18,00
13,27
10,92
9,547
8,649
8,022
7,559
5403,4
99,17
29,46
16,69
12,06
9,780
8,451
7,591
6,992
6,552
5624,6
99,25
28,71
15,98
11,39
9,148
7,847
7,006
6,422
5,994
5763,6
99,30
28,24
15,52
10,97
8,746
7,460
6,632
6,057
5,636
5859,0
99,33
27,91
15,21
10,67
8,466
7,191
6,371
5,802
5,386
5928,4
99,36
27,67
14,98
10,46
8,260
6,993
6,178
5,613
5,200
5981,1
99,37
27,49
14,80
10,29
8,102
6,840
6,029
5,467
5,057
6022,5
99,39
27,35
14,66
10,16
7,976
6,719
5,911
5,351
4,942
6055,8
99,40
27,23
14,55
10,05
7,874
6,620
5,814
5,257
4,849
6083,3
99,41
27,13
14,45
9,963
7,790
6,538
5,734
5,178
4,772
6106,3
99,42
27,05
14,37
9,888
7,718
6,469
5,667
5,111
4,706
6125,9
99,42
26,98
14,31
9,825
7,657
6,410
5,609
5,055
4,650
6142,7
99,43
26,92
14,25
9,770
7,605
6,359
5,559
5,005
4,601
6157,3
99,43
26,87
14,20
9,722
7,559
6,314
5,515
4,962
4,558
6260,6
99,47
26,50
13,84
9,379
7,229
5,992
5,198
4,649
4,247
6313,0
99,48
26,32
13,65
9,202
7,057
5,824
5,032
4,483
4,082
6339,4
99,49
26,22
13,56
9,112
6,969
5,737
4,946
4,398
3,996
6352,6
99,49
26,17
13,51
9,066
6,925
5,694
4,903
4,354
3,953
11
12
13
14
15
9,646
9,330
9,074
8,862
8,683
7,206
6,927
6,701
6,515
6,359
6,217
5,953
5,739
5,564
5,417
5,668
5,412
5,205
5,035
4,893
5,316
5,064
4,862
4,695
4,556
5,069
4,821
4,620
4,456
4,318
4,886
4,640
4,441
4,278
4,142
4,744
4,499
4,302
4,140
4,004
4,632
4,388
4,191
4,030
3,895
4,539
4,296
4,100
3,939
3,805
4,462
4,220
4,025
3,864
3,730
4,397
4,155
3,960
3,800
3,666
4,342
4,100
3,905
3,745
3,612
4,293
4,052
3,857
3,698
3,564
4,251
4,010
3,815
3,656
3,522
3,941
3,701
3,507
3,348
3,214
3,776
3,535
3,341
3,181
3,047
3,690
3,449
3,255
3,094
2,959
3,647
3,405
3,210
3,050
2,914
16
17
18
19
20
8,531
8,400
8,285
8,185
8,096
6,226
6,112
6,013
5,926
5,849
5,292
5,185
5,092
5,010
4,938
4,773
4,669
4,579
4,500
4,431
4,437
4,336
4,248
4,171
4,103
4,202
4,102
4,015
3,939
3,871
4,026
3,927
3,841
3,765
3,699
3,890
3,791
3,705
3,631
3,564
3,780
3,682
3,597
3,523
3,457
3,691
3,593
3,508
3,434
3,368
3,616
3,519
3,434
3,360
3,294
3,553
3,455
3,371
3,297
3,231
3,498
3,401
3,316
3,242
3,177
3,451
3,353
3,269
3,195
3,130
3,409
3,312
3,227
3,153
3,088
3,101
3,003
2,919
2,844
2,778
2,933
2,835
2,749
2,674
2,608
2,845
2,746
2,660
2,584
2,517
2,799
2,700
2,613
2,537
2,470
21
22
23
24
25
8,017
7,945
7,881
7,823
7,770
5,780
5,719
5,664
5,614
5,568
4,874
4,817
4,765
4,718
4,675
4,369
4,313
4,264
4,218
4,177
4,042
3,988
3,939
3,895
3,855
3,812
3,758
3,710
3,667
3,627
3,640
3,587
3,539
3,496
3,457
3,506
3,453
3,406
3,363
3,324
3,398
3,346
3,299
3,256
3,217
3,310
3,258
3,211
3,168
3,129
3,236
3,184
3,137
3,094
3,056
3,173
3,121
3,074
3,032
2,993
3,119
3,067
3,020
2,977
2,939
3,072
3,019
2,973
2,930
2,892
3,030
2,978
2,931
2,889
2,850
2,720
2,667
2,620
2,577
2,538
2,548
2,495
2,447
2,403
2,364
2,457
2,403
2,354
2,310
2,270
2,409
2,355
2,306
2,261
2,220
26
27
28
29
30
7,721
7,677
7,636
7,598
7,562
5,526
5,488
5,453
5,420
5,390
4,637
4,601
4,568
4,538
4,510
4,140
4,106
4,074
4,045
4,018
3,818
3,785
3,754
3,725
3,699
3,591
3,558
3,528
3,499
3,473
3,421
3,388
3,358
3,330
3,304
3,288
3,256
3,226
3,198
3,173
3,182
3,149
3,120
3,092
3,067
3,094
3,062
3,032
3,005
2,979
3,021
2,988
2,959
2,931
2,906
2,958
2,926
2,896
2,868
2,843
2,904
2,871
2,842
2,814
2,789
2,857
2,824
2,795
2,767
2,742
2,815
2,783
2,753
2,726
2,700
2,503
2,470
2,440
2,412
2,386
2,327
2,294
2,263
2,234
2,208
2,233
2,198
2,167
2,138
2,111
2,183
2,148
2,117
2,087
2,060
60
120
240
7,077
6,851
6,742
4,977
4,787
4,695
4,126
3,949
3,864
3,649
3,480
3,398
3,339
3,174
3,094
3,119
2,956
2,878
2,953
2,792
2,714
2,823
2,663
2,586
2,718
2,559
2,482
2,632
2,472
2,395
2,559
2,399
2,322
2,496
2,336
2,260
2,442
2,282
2,205
2,394
2,234
2,157
2,352
2,192
2,114
2,028
1,860
1,778
1,836
1,656
1,565
1,726
1,533
1,432
1,666
1,462
1,351
G. Osius: Statistische Tabellen
T - 12
15.06.07
α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner)
α = 0,5%
FQ (m =5, n =14; α=0,5%) =
Beispiele:
FQ (m =14, n =5; α=0,5%) =
5,562
n
F -Verteilung
13,21
1-α
m
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
30
60
120
240
1
2
3
4
5
6
7
8
9
10
16211
198,5
55,55
31,33
22,78
18,63
16,24
14,69
13,61
12,83
19999
199,0
49,80
26,28
18,31
14,54
12,40
11,04
10,11
9,427
21615
199,2
47,47
24,26
16,53
12,92
10,88
9,596
8,717
8,081
22500
199,2
46,19
23,15
15,56
12,03
10,05
8,805
7,956
7,343
23056
199,3
45,39
22,46
14,94
11,46
9,522
8,302
7,471
6,872
23437
199,3
44,84
21,97
14,51
11,07
9,155
7,952
7,134
6,545
23715
199,4
44,43
21,62
14,20
10,79
8,885
7,694
6,885
6,302
23925
199,4
44,13
21,35
13,96
10,57
8,678
7,496
6,693
6,116
24091
199,4
43,88
21,14
13,77
10,39
8,514
7,339
6,541
5,968
24224
199,4
43,69
20,97
13,62
10,25
8,380
7,211
6,417
5,847
24334
199,4
43,52
20,82
13,49
10,13
8,270
7,104
6,314
5,746
24426
199,4
43,39
20,70
13,38
10,03
8,176
7,015
6,227
5,661
24505
199,4
43,27
20,60
13,29
9,950
8,097
6,938
6,153
5,589
24572
199,4
43,17
20,51
13,21
9,877
8,028
6,872
6,089
5,526
24630
199,4
43,08
20,44
13,15
9,814
7,968
6,814
6,032
5,471
25044
199,5
42,47
19,89
12,66
9,358
7,534
6,396
5,625
5,071
25253
199,5
42,15
19,61
12,40
9,122
7,309
6,177
5,410
4,859
25359
199,5
41,99
19,47
12,27
9,001
7,193
6,065
5,300
4,750
25411
199,5
41,91
19,40
12,21
8,941
7,135
6,008
5,244
4,695
11
12
13
14
15
12,23
11,75
11,37
11,06
10,80
8,912
8,510
8,186
7,922
7,701
7,600
7,226
6,926
6,680
6,476
6,881
6,521
6,233
5,998
5,803
6,422
6,071
5,791
5,562
5,372
6,102
5,757
5,482
5,257
5,071
5,865
5,525
5,253
5,031
4,847
5,682
5,345
5,076
4,857
4,674
5,537
5,202
4,935
4,717
4,536
5,418
5,085
4,820
4,603
4,424
5,320
4,988
4,724
4,508
4,329
5,236
4,906
4,643
4,428
4,250
5,165
4,836
4,573
4,359
4,181
5,103
4,775
4,513
4,299
4,122
5,049
4,721
4,460
4,247
4,070
4,654
4,331
4,073
3,862
3,687
4,445
4,123
3,866
3,655
3,480
4,337
4,015
3,758
3,547
3,372
4,281
3,960
3,703
3,492
3,317
16
17
18
19
20
10,58
10,38
10,22
10,07
9,944
7,514
7,354
7,215
7,093
6,986
6,303
6,156
6,028
5,916
5,818
5,638
5,497
5,375
5,268
5,174
5,212
5,075
4,956
4,853
4,762
4,913
4,779
4,663
4,561
4,472
4,692
4,559
4,445
4,345
4,257
4,521
4,389
4,276
4,177
4,090
4,384
4,254
4,141
4,043
3,956
4,272
4,142
4,030
3,933
3,847
4,179
4,050
3,938
3,841
3,756
4,099
3,971
3,860
3,763
3,678
4,031
3,903
3,793
3,696
3,611
3,972
3,844
3,734
3,638
3,553
3,920
3,793
3,683
3,587
3,502
3,539
3,412
3,303
3,208
3,123
3,332
3,206
3,096
3,000
2,916
3,224
3,097
2,987
2,891
2,806
3,168
3,041
2,931
2,834
2,749
21
22
23
24
25
9,830
9,727
9,635
9,551
9,475
6,891
6,806
6,730
6,661
6,598
5,730
5,652
5,582
5,519
5,462
5,091
5,017
4,950
4,890
4,835
4,681
4,609
4,544
4,486
4,433
4,393
4,322
4,259
4,202
4,150
4,179
4,109
4,047
3,991
3,939
4,013
3,944
3,882
3,826
3,776
3,880
3,812
3,750
3,695
3,645
3,771
3,703
3,642
3,587
3,537
3,680
3,612
3,551
3,497
3,447
3,602
3,535
3,475
3,420
3,370
3,536
3,469
3,408
3,354
3,304
3,478
3,411
3,351
3,296
3,247
3,427
3,360
3,300
3,246
3,196
3,049
2,982
2,922
2,868
2,819
2,841
2,774
2,713
2,658
2,609
2,730
2,663
2,602
2,546
2,496
2,673
2,605
2,543
2,488
2,437
26
27
28
29
30
9,406
9,342
9,284
9,230
9,180
6,541
6,489
6,440
6,396
6,355
5,409
5,361
5,317
5,276
5,239
4,785
4,740
4,698
4,659
4,623
4,384
4,340
4,300
4,262
4,228
4,103
4,059
4,020
3,983
3,949
3,893
3,850
3,811
3,775
3,742
3,730
3,687
3,649
3,613
3,580
3,599
3,557
3,519
3,483
3,450
3,492
3,450
3,412
3,377
3,344
3,402
3,360
3,322
3,287
3,255
3,325
3,284
3,246
3,211
3,179
3,259
3,218
3,180
3,145
3,113
3,202
3,161
3,123
3,088
3,056
3,151
3,110
3,073
3,038
3,006
2,774
2,733
2,695
2,660
2,628
2,563
2,522
2,483
2,448
2,415
2,450
2,408
2,369
2,333
2,300
2,391
2,348
2,309
2,273
2,239
60
120
240
8,495
8,179
8,027
5,795
5,539
5,417
4,729
4,497
4,387
4,140
3,921
3,816
3,760
3,548
3,447
3,492
3,285
3,187
3,291
3,087
2,991
3,134
2,933
2,837
3,008
2,808
2,713
2,904
2,705
2,610
2,817
2,618
2,524
2,742
2,544
2,450
2,677
2,479
2,385
2,620
2,423
2,329
2,570
2,373
2,278
2,187
1,984
1,886
1,962
1,747
1,640
1,834
1,606
1,488
1,764
1,524
1,396
Stochastik
15.3.16
Index- 1
Index
Der Index enthält vorwiegend Begriffe aus dem methodischen Textteil (also nicht aus allen Beispielen und Anwendungen), wobei für jedes Stichwort nur die wichtigsten (nicht alle)
Textstellen aufgeführt sind, an denen es erwähnt wird.
A
Absolutbetrag
4-13
absolute Konvergenz eines Integrals 7-3
absolutes Moment
7-20
9-10
absolutes zentrales Moment
9-28
absteigendes Produkt
abzählbare Produkte
von Wahrscheinlichkeitsräumen 4-35
1-8
Additionsformel
13-3
Alternative
3-4
Alterungs pro zeß
6-11 9-5
arithmetische Operation
7-4 8-2
arithmetisches Mittel
Asbestmessung
0-4 12-10 14-7
asym ptotische
- Irrtumswahrscheinlichkeit
10-9
- Konfidenzgrenze
10-7 11-11
Poisson
12-6
grobe
11-16
- obere Grenze
Binomial
11-13
12-8 14-6
Poisson
- Schärfe
13-22 13-25 13-27 14-4 14-7
- Sicherheit
10-9
- Signifikanz der Beobachtung 13-2113-24
- untere Grenze
11-13
Binomial
12-8
Poisson
- untere Konfidenzgrenze
13-20
Binomial.
14-3
Poisson
asymptotischer einseitiger oberer Test
- Binomial
13-20
14-3
Poisson
asymptotischer einseitiger unterer Test
- Binomial
13-24
14-6
- Poisson
asymptotischer P-Wert
13-2113-24
asym ptotischer Test
13-19
asymptotischer zweiseitiger Test
- Binomial
13-26
14-13
- Poisson
asym ptotisches Konfidenzintervall
- Binomial.
13-26
asymptotisches Niveau
13-22 13-25 14-4 14-6 14-14
2-6
Augensummezweier Würfel
B
B(1,p), Bernoulli-Verteilung
1-10
B(n,p), Binomial-Verteilung
1-11
Bayes, Formel
3-4
bedingte Wahrscheinlichkeit
3-1
Bernoulli-Verteilung
1-10 2-1 3-9 6-2 11-1 S-1
9-10
Berry-Esseen, Theorem
7-31
Bestimmthei tsmaß
2-2 4-35 4-38
Bildmaß
Binamial-Approximation der
hypergeometrischen Vertwilung
9-30
Binomial-Grenzwertsatz
9-12
Binomial-Test
13-1
13-19 13-24 13-26
- asymptotischer
- exakter
13-9 13-14 13-17
Binomial-Verteilung
1-11 3-9 4-4 6-2 7-9 7-17 7-21 9-18 S-1
6-4 7-9
- negative
8-4
Binomial-Verteilungsmodell
S-1
Binomialkoeffizient
1-5
Bore1-Menge
- mehrdimensionale
4-20
c
C(-,-), Cauchy-Verteilung
Cauchy-Verteilung
Cauchy-Verteilungsmodell
Che bychev-Ungleichung
Chiquadrat-Verteilung
Clopper-Pearson
- Konfidenzgrenze
Corr(-,-), Korrelation
Cov(-,-), Covarianz
Covarianz
Covarianz-Matrix
7-11
7-11 7-18 10-12
8-6
7-23
8-8 S-2 T -5
11-2 11-4
7-28
7-16
7-16 7-26
7-29
D
de Moivre - Laplace, Grenzwertsatz
DG(-), diskrete Gleichverteilung
diag(-), Diagonalmatrix
Diagonalmatrix
9-12
7-9
5-8
5-8
Stochastik
1-14 4-6 4-8
Dichte
4-24
- eines Zufallsvektors
1-18 4-7
- kanonische
4-30
- mehrdimensionale
- zweidimensionale
4-23
Differenz von Mengen
1-4
Differenz von Zufallsvariablen
6-11
Dirac(-), Dirac-Verteilung
4-4
Dirac-Verteilung
4-4 7-7 7-17 7-24
diskret
- Wahrscheinlichkeitmaß, Verteilung 2-5
diskrete Gleichverteilung
1-10 7-9 7-17
diskrete Zufallsvariable
4-3 5-3
diskreter W-Raum
1-13
4-22
diskreter Zufallsvektor
E
7-2 7-3
E(-), Erwartungswert
effektives Testniveau 13-10 14-2 14-5 14-13
Einpunkt-Verteilung
4-4 7-17 7-24
Einschränkung
2-4
einseitig oberer Test, Binomial
13-29
einseitig oberer Test, Poisson
14-1
einseitig unterer Test, Binomial
13-30
einseitig unterer Test, Poisson
14-4
einseitiger Test
13-18
Elementar-Ereignis
1-1
Elementar-Wahrscheinlichkeit
1-9
empirische Verteilung 1-12 7-25 8-7 8-10
empirisches Gesetz der großen Zahlen 1-1
endlich-additiv
1-7
endliche Produkte
von Wahrscheinlichkeitsräumen 4-33
endlicher Wahrscheinlichkeitsraum
1-9
Entscheidungsfunktion
13-4
Ereignis
1-1 1-3
Erfolg
1-10
Ergebnis
1-1
Ergebnisraum
1-1
8-2 8-6 8-7
erwartungstreu
7-114-1
Erwartungswert
7-9
- spezieller Verteilungen
7-7
- Eigenschaften
8-8
- quadratische Form
- Schätzen
8-2
1-5
erzeugte Sigma-Algebra
4-19
Erzeugung von Zufallszahlen
6-7
Eulersche Gammafunktion
exakte obere Konfidenzgrenze
- Binomial
11-2 13-14
- Poisson
12-114-5
exakte untere Konfidenzgrenze
15.3.16
Index- 2
- Binomial
11-4 13-9
- Poisson
12-3 14-2
exakter einseitiger oberer Test
- Binomial
13-9
- Poisson
14-2
exakter einseitiger unterer Test
- Binomial
13-14
- Poisson
14-5
exakter zweiseitiger Test
- Binomial
13-17
- Poisson
14-12
exaktes Konfidenzintervall
- Binomial
13-17
- Poisson
12-4
exaktes zweiseitiges Konfidenzintervall
11-5
S-1
Excel
Expo(-), Exponentialverteilung
1-20
Exponential-Verteilung
1-20 3-4 4-9 4-13 4-18 5-7 7-10 7-18 S-2
- Faltung
6-7
F
F-Verteilung
11-7 11-8 S-2 T-8
Fakultät
6-10 S-1
falsch-negativ
13-5
falsch-positiv
13-5
Faltung
6-1 9-11
- diskreter Verteilungen
6-1
- stetiger Verteilungen
6-6
Fehlentscheidung
13-5
Fehler 1. Art
13-5
13-5
Fehler 2. Art
13-5
Fehlerrisiko
- 1. Art
13-6 14-2 14-5 14-13
- 2. Art
13-6 13-12 14-2 14-5
2-4
Fortsetzung
4-25 4-26 4-31
Fubini, Satz von
G
Garn(-,-), Gamma-Verteilung
6-7
Gamma-Funktion
6-7 6-10 S-2
Gamma-Grenzwertsatz
9-22
Gamma-Verteilung
6-7 7-10 7-18 7-21 9-22 S-2
8-5
Gamma-Verteilungsmodell
1-19
Gaußsehe Glockenkurve
Gedächtnislosigkeit
3-4 5-7
gemeinsame Verteilung
4-21 5-4
gemeinsame Verteilungsfunktion
5-10
Geo(-), geometrische Verteilung
5-6
geometrische Verteilung
5-5 5-6 6-4 7-9 7-17 S-1
Stochastik
8-2 9-1
Gesetz der großen Zahlen
1-1
- empirisches
- schwaches
9-3
- starkes
9-4
7-2
gewichtetes Mittel
Gleichverteilung
- diskrete
1-10 7-9 7-17
- stetige
1-20 4-13 4-19 7-10
Grenzwertsatz, zentraler
9-1
H
hypergeometrischer Grenzwertsatz 9-31
- multivariat
9-36
hypergeometrische Verteilung
9-25 9-28 S-1
- multivariat
9-31 9-34 9-35
I
8-1 8-10
iid
Indikatorfunktion
2-1
Integral
1-14 1-16 4-23 4-30 7-5
4-20
Intervall, mehrdimensionales
Intervall-Schätzer
10-1
Intervall-Wahrscheinlichkeit
4-1
10-1
Irrtumswahrscheinlichkeit
- asym ptotische
10-9
K
1-18 4-7
kanonische Dichte
2-5
kanonischer Träger
0-8
5-4
klinische Vergleichsstudie
1-3 1-7
Kolmogorov
1-3
Korn plementär- Ereignis
10-1
Konfidenzgrenze
10-1
- für Erwartungswert
- asym ptotische
10-7
10-10
- Normalverteilung
- Binomial-Verteilung
11-1
- Poisson-Verteilung
12-112-12
10-1
Konfidenzintervall
13-26
- asym ptotisches
10-5
- Normalverteilung
11-3 12-2 13-22
konservativ
- Test
13-10 14-2 14-13
9-6
konsistent
9-6
Konsistenz
9-8
konvergent nach Verteilung
Konvergenz
9-23
- nach Verteilung
9-3 9-5
- nach Wahrscheinlichkeit
2-5
konzentriert
7-28 8-10
Korrelation
Korrelationskoeffizient 4-28 5-8 7-28 7-29
15.3.16
Index- 3
kritischer Wert
13-9 13-14 13-20 13-24 13-26 14-2 14-6
4-23
Kronecker-Symbol
L
Lebensdauer
3-4 4-18
Lebesgue-Dichte
4-6
Lebesgue
- Doppel-Integral
4-25
1-14 1-16 4-23 4-25 4-30 4-31
- Integral
Leukämiefälle
0-2
S-1
Libreüffice
Lindeberg-Levy
9-9
zentraler Grenzwertsatz
4-12
lineare Transformation
linearer Zusammenhang
7-29
links-stetig
4-1
linksseitiger Grenzwert
4-1
Log-Normalverteilung 4-16 7-10 7-18 7-21
M
M(-,-), Multinomial-Verteilung 4-23 7-27
7-23
Markov-Ungleichung
7-1
Maßzahl
4-30
mehrdimensionale Dichte
4-30
mehrdimensionale Verteilung
1-3
Mengensystem
2-2
meßbar
2-2
meßbare Menge
S-1
Microsoft Excel
13-29 13-30 13-31
Mindestumfang
2-5
minimaler Träger
7-25 8-2 9-1 9-9
Mittelwert
- standardisierter
9-2
- Verteilung
8-3
7-20
Moment
- absolutes
7-20
9-10
zentrales
- zentrales
7-20 8-6
1-8
monoton
monotone Transformation
4-12
Multinomial-Verteilung
4-22 6-2 7-27
multivariate hypergeometrische
Verteilung
9-31 9-34 9-35
multivariate Normal-Verteilung
4-32
multivariater hypergeometrischer
Grenzwertsatz
9-36
N
1-18
N(-,-), Normalverteilung
N(0,1), Standard-Normalverteilung
1-19
n-dimensionales Intervall
4-31
n-faches Lebesgue-Integral
4-31
NB(n,p), negative Binomial-Verteilung 6-4
Stochastik
negative Binomial-Verteilung
6-4 7-9 7-17 7-21 9-21 S-1
13-22 13-25
Niveau, asymptotisches
14-6 14-13
nominales Niveau
nominales Testniveau
13-8 14-2 14-5
Normal-Approximation
9-13
- Gamma-Verteilung
9-22
9-12
- Binomial-Verteilung
- Poisson-Verteilung
9-20
Normal-Verteilung 1-18 4-9 4-13 5-8 7-10
7-17 7-24 10-10 S-2 T-1 T-3
6-6
- Faltung
10-3
- Konfidenzgrenzen
- multivariate
4-32
- zweidimensionale
4-27 7-29
Normal-Verteilungsmodell
8-5 8-8
normale asymptotische Grenzen
11-17
Nullhypothese
S
13-3
0
obere Konfidenzgrenze für
Erwartungswert
10-8
obere Konfidenzgrenze
Normalverteilung
10-5 10-12
oberer kritischer Wert 13-9 13-20 14-2 14-3
OpenOffice
S-1
p
P-Wert
13-10
- asymptotischer
13-2113-24
Parameter
7-1 8-1
Phi, N(0,1)- Verteilungsfunktion
4-9
1-19
phi, N(0,1)-Dichte
Planung
13-28
Pois(-), Poison-Verteilung
1-13
Poisson-Approximation
9-18
Poisson-Grenzwertsatz
9-20 12-6
Poisson-Grenzwertsatz
- für Binomial- Verteilung
9-18
Poisson-Prozeß
6-9
Poisson-Test
14-2 14-3 14-5 14-6 14-12 14-13 14-14
Poisson-Verteilung
1-13 4-4 6-9 7-9 7-17 7-21 9-20 12-114-1 S-1
6-3
- Faltung
8-5
Poisson-Verteilungsmodell
4-13
Potenz
13-6
Power
Produkt
- diskrete Wahrscheinlichkeitsräume 3-7
4-33
- endliches
- abzählbares
4-35
- Zufallsvariablen
6-11
15.3.16
Index- 4
3-8 4-35 4-38 5-4
Produktmaß
- abzählbar-vieler
4-37
Wahrscheinlichkeitsmaße
- endlich vieler
Wahrscheinlichkeitsmaße
4-34
Produktraum
3-8 4-35 4-38 5-2
7-30
Prognose
3-8
4-35
4-36
5-2
Projektion
Punkt-Schätzer
10-1
Q
quadratische Form
8-8
Qualitätskontrolle
9-29
Quantil
- Chiquadrat-Verteilung
12-5 T-5
- F-Verteilung
11-7 T-8
- Normalverteilung
10-4 T -3
10-12 T-3
- t- Verteilung
Quasi-Inverse
4-2 4-19
Quotient von Zufallsvariablen
6-12
R
Rand- Verteilungsfunktion
5-10
randomisierte klinische Studie
5-4
Randverteilung
4-21 5-4
rechts-stetig
4-1
reelle Zufallsvariable
2-3
Regressionsfunktion
7-30
Regressionsgerade
7-30 8-10
relative Häufigkeit
1-1 1-8 1-11 7-25 8-4 8-10
7-30
Residuum
1-16
Riemann-Integral
s
Sammlerproblem
7-12
Satz von Fubini
4-25 4-26 4-31
Schärfe
13-6 13-15 13-18 13-26
14-2 14-3 14-4 14-5 14-6 14-7 14-13 14-14
- asymptotische
13-22 13-25
13-6
Schärfefunktion
8-2
Schätzer
8-2
Schätzfunktion
8-2
Schätzgröße
8-1 8-2 8-6
Schätzung
7-18 7-20 7-25
Schiefe
8-10
- Schätzung
schwaches Gesetz der großen Zahlen
9-1 9-3
Schwartzsche Ungleichung
7-26
SD(-), Standardabweichung
7-15
SG(-,-) stetige Gleichverteilung
1-20
Sicherheit
10-111-1
10-9
- asymptotische
Stochastik
sigma-additiv
1-7
sigma-Algebra
1-4
- erzeugte
1-5
Signifikanz der Beobachtung
13-10
- asymptotische
13-2113-24
9-23
Slutzky, Theorem
Standard-Cauchy- Verteilung
7-11
Standard-Gamma-Verteilung
6-8
Standard-Normalverteilung
1-19 S-2
Standardabweichung
7-15
- Schätzung
8-7
standardisierter Mittelwert
9-1 9-2
Standardisierung
4-10 7-16 9-9
starkes Gesetz der großen Zahlen
9-4
Statistik
0-1
statistischer Test
13-4
stetig (verteilt)
4-6
stetige Gleichverteilung
1-20 4-9 4-13 4-19 7-10 7-17
4-24
stetiger Zufallsvektor
9-13
Stetigkeitskorrektur
13-28
Stich proben-Mindestumfang
8-1
Stich proben-Modell
1-1
Stich probenraum
0-1
Stochastik
9-3 9-5
stochastisch konvergent
3-5 5-1
stochastische Unabhängigkeit
0-1 1-1
stochastischer Vorgang
10-10
Studentsehe t- Verteilung
6-11
Summe von Zufallsvariablen
7-18
symmetrische Verteilung
T
10-10 S-2 T-3
t- Verteilung
S-1
Tabellenkalkulation
13-4 14-1
Test
Testniveau
13-8 13-10 13-15 13-18 14-2
Testwert
13-20 13-26
totale Zerlegung, Satz
3-3
Träger
2-5
Trägerintervall
4-7
- kanonisches
4-7
2-6 4-7
- minimales
Transformation
- einer Zufallsvariablen
4-11
- lineare
4-12
- monotone
4-12
1-10 3-9 5-5 6-4
Treffer
15.3.16
Index- 5
u
3-5
Unabhängigkeit
5-3
- diskreter Zufallsvariabl.
5-8
- stetiger Zufallsvariablen
- von Zufallsvariablen
5-1
- von Zufallsvektoren
5-9
7-23
Ungleichung von Chebychev
7-23
Ungleichung von Markov
7-26
Ungleichung von Schwartz
untere Konfidenzgrenze
10-8
- für Erwartungswert
10-5 10-12
- Normalverteilung
unterer kritischer Wert
13-14 13-24 14-5 14-6
unverfälscht
8-2
Urbild
2-1
V
7-15
Var(-) Varianz
Varianz
7-15 7-25 7-26
- quadratische Form
8-8
- Schätzung
8-6
7-17
- spezieller Verteilungen
verteilt
2-2
Verteilung
1-7 2-2
7-25
- empirische
4-21
- gememsame
- Zufallsvektoren
4-21
- zweidimensionale
4-23
4-1
4-5
4-8
7-5
9-8
Verteilungsfunktion
T-1
- Normalverteilung
- Standard-Normalverteilung
4-9
- Zufallsvektors
4-21
9-7
Verteilungskonvergenz
10-1
Vertrauensgrenze
w
Wahrscheinlichkeitsmaß
1-7
Wahrscheinlichkeitsraum
1-7
- endlicher
1-9
Wahlumfrage
0-6 9-16 9-25 9-29 13-113-5 13-2113-30
1-1 1-7
Wahrscheinlichkeit
3-1
- bedingte
1-14 1-17
Wahrscheinlichkeitsdichte
Wahrscheinlichkeitsdichte
- mehrdimensionale
4-30
- zweidimensionale
4-23
1-10 1-13
Wahrscheinlichkeitsfunktion
0-1
Wahrscheinlichkeitstheorie
4-23
Wahrscheinlichkeitsvektor
3-4 5-7 6-9
Wartezeit
4-18
Weibull-Verteilung
Stochastik
Wiederholungen
Würfel
z
15.3.16
8-1 9-1
3-10
1-10 1-13 4-3
Zähldichte
9-1 9-7
zentraler Grenzwertsatz
zentrales Moment
7-20
3-3
Zerlegung, totale
Ziehen (mit und ohne Zurücklegen) 9-26
1-10
Ziel-Ereignis
Zufallselement
2-2
Zufallsvariable
2-2
Zufallsvariable
- diskrete
4-3 5-3
- reelle
2-3
4-6
- stetige
4-19 4-21
Zufallsvektor
4-22
- diskreter
4-24
- stetiger
4-19
Zufallszahlen
7-29
Zusammenhang, linearer
zweidimensionale
4-23
- Dichte
4-27 7-29
- Normal-Verteilung
4-23
zweidimensionale Verteilung
4-24
zweidimensionales Intervall
13-16
zweiseitige Alternative
13-18
zweiseitiger Test
- Binomial
13-31
14-12 14-13
Poisson
4-37
Zylindermenge
Index- 6

Skript zur Veranstaltung: Stochastik - math.uni

Zugehörige Unterlagen

Produkte

Unterstützung

Skript zur Veranstaltung: Stochastik - math.uni

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können