Ein Einblick in den Aufbau und die Themen der Stochastik (Version 3)

Werbung
Ein Einblick in den Aufbau
und die Themen der Stochastik
24. Oktober 2007
Karl Oelschläger
Institut für Angewandte Mathematik
Universität Heidelberg
In den folgenden Überlegungen sollen
• die Stochastik als eine Disziplin der Mathematik charakterisiert und
• beispielhaft Aufgabenstellungen und Vorgehensweisen vorgestellt werden.
Außerdem werden
• einige wichtige Begriffe und Konzepte eingeführt.
Auf die letztendlich notwendige mathematische Präzision wird hier weitgehend verzichtet. Einige ergänzende Hinweise finden sich in Fußnoten. Gelegentlich werden
Begriffe nur erwähnt und Definitionen oder genaue Erläuterungen auf später verschoben.
Als Charakterisierung des vorliegenden mathematischen Gebiets eignet sich:
Die Stochastik ist die Lehre von den mathematischen
Gesetzmäßigkeiten des Zufalls 1.
Beispiel (Gesetzmäßigkeit in einem zufälligen Geschehen). Eine sehr oft geworfene
Münze zeigt in etwa der Hälfte aller Fälle Kopf“. Diese Gesetzmäßigkeit wird im
”
sog. Gesetz der großen Zahlen mathematisch gefaßt 2.
Beispiel (Zufälliges Geschehen ohne eine erkennbare Gesetzmäßigkeit 3). Öffentliche Diskussionsbeiträge von Politikern und Funktionären zur Steuer- oder Rentengesetzgebung.
Mathematische Gesetzmäßigkeiten z.B. in der Natur, der Technik oder der Wirtschaft 4 werden mit Hilfe von Modellen formuliert 5 und untersucht 6. Daher ist das
zentrale Thema der folgenden Ausführungen die Bildung und Untersuchung
stochastischer Modelle.
Im Rahmen einer speziellen Anwendung werden typische Fragestellungen und übliche Vorgehensweisen in der Stochastik erläutert. Insbesondere werden wesentliche
1In der Einleitung zu [1] findet sich eine Deutung des Wortes Stochastik aus Ursprüngen im
Altgriechischen.
2Das Gesetz der großen Zahlen ist in seinen vielen Variationen ein zentrales Resultat der Stochastik. Im vorliegenden Fall beschreibt es die Asymptotik bei Wurfanzahl N → ∞ der relativen
Anzahl von Kopf“, d.h. des Quotienten Anzahl von Kopf“/N . Insbesondere wird die Konvergenz
”
”
dieses Quotienten gegen seinen Erwartungswert, der bei einer fairen Münze 1/2 ist, festgehalten.
Eine vergleichbar grundlegende Bedeutung hat der Zentrale Grenzwertsatz, der im Zusammenhang dieses Beispiels die Asymptotik der zufälligen
√ Fluktuationen der relativen Anzahl von ”Kopf“
um den Erwartungswert 1/2, d.h. genauer von N ((Anzahl von Kopf“/N )−1/2), charakterisiert.
”
3
Solche Phänomene werden in der Stochastik nicht behandelt.
4
Dies betrifft alle Arten von Anwendungen, auch solche in denen kein Zufall involviert ist.
5
Bei der Formulierung eines Modells werden alle bekannten, für wichtig erachteten Merkmale
der jeweiligen Anwendung mathematisch formuliert. Vermeintlich unwesentliche Details werden
ignoriert, wie z.B. bei der Modellierung des Wurfs eines Würfels dessen Farbe.
6
Nicht offensichtliche, sich als Konsequenzen spezieller Voraussetzungen, bzw. Modellannahmen ergebende Eigenschaften werden bewiesen.
1
2
Aspekte dieses mathematischen Gebiets und seine Aufteilung in die Teilgebiete der
Wahrscheinlichkeitstheorie und der Statistik angesprochen 7.
Aufgabe: In einem Industriebetrieb werden N gleichartige Produktionsstücke 8
zufällig ausgewählt und auf ihre Fehlerfreiheit getestet.
• Zunächst soll die Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke, d.h. die Struktur und die Eigenschaften dieser
Daten, analysiert werden 9.
• Weiterhin soll untersucht werden, wie aus konkreten Prüfungsergebnissen
Rückschlüsse auf die Verarbeitungsqualität des Betriebs gezogen werden
können 10.
1. Einfache Modellannahmen. 11 Es sei angenommen, daß
(i) ein einzelnes Produktionsstück mit einer zunächst noch unbekannten Wahrscheinlichkeit 12 p ∈ [0, 1] fehlerhaft ist 13, und daß
(ii) die Qualitätseigenschaften der jeweiligen Produktionsstücke voneinander
unabhängig 14 sind.
Bemerkung. Völlig analoge Modellannahmen machen auch in anderen Situationen
einen Sinn, z.B. bei Alkoholkontrollen im Straßenverkehr, beim Prüfen der Wirksamkeit eines neuen Medikaments durch seine Verabreichung an Testpersonen oder
bei der Untersuchung von Schlachtvieh auf spezielle Krankheiten. In diesen Fällen
wären die Produktionsstücke durch Autofahrer, Testpersonen, bzw. Schlachttiere
zu ersetzen. Außerdem wäre dann p die Wahrscheinlichkeit für einen festgestellten
Alkoholkonsum, eine positive Wirkung des Medikaments, bzw. das Vorliegen einer
Erkrankung 15.
Im Rahmen der Stochastik kann man die Modellannahmen (i) und (ii) zunächst
7
Als ein drittes Teilgebiet der Stochastik kann auch die Maßtheorie betrachtet werden. Durch
ihre allgemeinen Resultate insbesondere zu einer abstrakten Integrationstheorie weist sie in vielen
technisch komplizierten Situationen in der Wahrscheinlichkeitstheorie und der Statistik den Weg
zu einem mathematisch korrekten Vorgehen.
8Je nach Branche könnten dies Glühlampen, Speicherchips oder auch PKW’s sein.
9In diesem Kontext werden insbesondere Methoden der Wahrscheinlichkeitstheorie angewandt.
10Bei diesem Vorhaben kommen Methoden der Statistik zur Geltung.
11 Mathematische Modelle gehen immer von Annahmen aus, die plausibel, widerspruchsfrei
und mit der zugrundeliegenden Realität verträglich sein sollen. Zur Klärung der Frage, ob diese
Annahmen ausreichend sind oder aber verändert bzw. ergänzt werden sollten, müssen vorhandene
Daten und Fakten berücksichtigt, evtl. weitere Messungen und Experimente vorgenommen und
auch die mathematischen Konsequenzen des Modells mit der Realität verglichen werden.
12Dieser zentrale Begriff ist zunächst formal zu verstehen. Später wird genauer erläutert werden, wie Ereignissen gewisse Wahrscheinlichkeiten ∈ [0, 1] zugeordnet werden. Es gilt: Ein Ereignis
mit Wahrscheinlichkeit 0 tritt (fast) sicher nicht ein, ein Ereignis mit Wahrscheinlichkeit 1 tritt
(fast) sicher ein, allgemein tritt ein Ereignis mit größerer Sicherheit ein, je höher seine Wahrscheinlichkeit ist.
13Mit dieser Annahme wird u.a. auch zum Ausdruck gebracht, daß die Qualität des Herstellungsprozesses keinen systematischen Schwankungen unterliegt: Jedes Produktionsstück besitzt
die gleiche Chance“, fehlerfrei zu sein.
”
14
Der Begriff der Unabhängigkeit, der in der Umgangssprache eine klare Bedeutung hat, bzw.
seine mathematisch präzisierte Formulierung wird in der Stochastik außerordentlich oft verwendet.
Die Unabhängigkeit von zwei Ereignissen A und B besagt, daß die Wahrscheinlichkeit, mit der A
eintritt, sich nicht ändert, wenn bekannt wird, daß B eingetreten ist.
Hier beschreibt die Unabhängigkeit der . . . Produktionsstücke“ eine gewisse Optimalität“ des
”
”
Herstellungsprozesses: Auch wenn ein defektes Produktionsstück gefunden wird, so hat dennoch
das nächste wieder alle Chancen“, fehlerfrei zu sein.
15Um alle diese ”möglichen Situationen gleichzeitig behandeln zu können und um irrelevante,
spezielle Details aus dem Blickfeld zu drängen, wird in der Stochastik oft der mehrmalige, unabhängige Wurf einer Münze betrachtet, die mit Wahrscheinlichkeit p Kopf“ zeigt. Wenn p = 1/2
”
ist, nennt man diese Münze fair, sonst wird sie als unfair bezeichnet.
24. Oktober 2007
3
• innerhalb der Wahrscheinlichkeitstheorie in ein mathematisches Modell der
Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke umsetzen. Für dieses wahrscheinlichkeitstheoretische Modell lassen sich mathematische Resultate herleiten, beispielsweise über Erwartungswerte oder die Asymptotik bei N → ∞ 16. Aufbauend auf dem wahrscheinlichkeitstheoretischen Modell und den hierzu gewonnenen Erkenntnissen
kann in einem weiteren Schritt
• innerhalb der Statistik 17 ein mathematisches Modell zur Auswertung real vorliegender Prüfungsergebnisse entwickelt werden. Im Rahmen dieses
statistischen Modells können z.B. Verfahren erarbeitet werden, die eine
Schätzung des wahren“ Parameters p = pw 18 aus konkret erhobenen Da”
ten 19 ermöglichen.
2. Ein wahrscheinlichkeitstheoretisches Modell. Die Annahmen (i) und (ii)
können in folgender mathematischer Struktur (ΩN , FN , PN,p ) zusammengefaßt werden:
• ΩN = {0, 1}N = (ω1 , ω2 , . . . , ωN ) : ωk ∈ {0, 1}, k = 1, . . . , N beschreibt
die Menge der möglichen Stichproben. ωk = 1, bzw. ωk = 0, bedeutet,
daß das k-te Produktionsstück 20 defekt, bzw. nicht defekt ist. ΩN wird
Stichprobenraum genannt.
• Die Menge FN = {A : A ⊆ ΩN } der Teilmengen von ΩN 21 beschreibt die
Menge aller Ereignisse. Beispielsweise sind
N
X
ωi = r , r = 0, . . . , N,
(1)
Ar = ω ∈ ΩN :
i=1
die Ereignisse, daß jeweils r der getesteten Produktionsstücke defekt sind 22.
• Jedem Ereignis A ∈ FN wird durch PN,p [A] ∈ [0, 1] seine Wahrscheinlichkeit zugeordnet 23. In Übereinstimmung mit der Modellannahme (i) wird
beispielsweise
(2)
PN,p {ω ∈ ΩN : ωi = 1} = p,
PN,p {ω ∈ ΩN : ωi = 0} = 1 − p, i = 1, . . . , N,
festgesetzt. Weiterhin ist
PN,p [Ar ] = PN,p
"
[
ω∈Ar
#
{ω} =
24
X
PN,p [{ω}],
(3)
ω∈Ar
16In jenen Überlegungen nimmt die Fehlerwahrscheinlichkeit p einen fest vorgegebenen Wert
an.
17Genaugenommen ist hier die mathematische, induktive oder schließende Statistik gemeint.
Im Gegensatz dazu werden in der deskriptiven, beschreibenden oder empirischen Statistik die
Prüfungsdaten nur geeignet zusammengefaßt, beispielsweise in graphischen Darstellungen oder
Kennzahlen.
18Hiermit ist dasjenige p gemeint, das dem speziellen Produktionsprozeß, für den die Prüfungen
durchgeführt werden, zugeordnet ist.
19
D.h. aus den Prüfungsergebnissen für N ausgewählte Produktionsstücke.
20Hier wird implizit angenommen, daß die Produktionsstücke durchnummeriert werden.
21Damit wird F
N = Pot(ΩN ) gesetzt, wobei Pot(S) die Potenzmenge einer Menge S
bezeichnet.
22In einer anderen Sprechweise ist A das Ereignis, daß die gezogene Stichprobe genau r
r
”
defekte Produktionsstücke umfaßt“.
23Bei einem festen N hängt die Wahrscheinlichkeit eines Ereignisses von dem innerhalb dieses
wahrscheinlichkeitstheoretischen Modells als zwar fest, aber beliebig betrachteten Parameter p ab.
ΩN und FN hingegen sind von p unabhängig.
24. Oktober 2007
4
wobei
PN,p [{ω}] =
25
N
Y
i=1
= p
pωi (1 − p)1−ωi
|
{z
}
(
p,
falls ωi = 1,
=
1 − p, falls ωi = 0.
PN
i=1
ωi
(1 − p)N −
= pr (1 − p)N −r ,
PN
i=1
(4)
ωi
ω ∈ Ar .
Es gibt Nr Möglichkeiten für die Einordnung“ von r defekten Produkti
”
onsstücken in die Folge aller N Produktionsstücke, d.h. |Ar | = Nr 26. Mit
(3) und (4) folgt daher
N r
PN,p [Ar ] =
p (1 − p)N −r , r = 0, . . . , N.
(5)
r
Somit ist die Anzahl der defekten Produktionsstücke binomialverteilt mit
den Parametern N und p 27.
Die nun konstruierte Struktur (ΩN , FN , PN,p ) ist ein einfaches Beispiel eines
Wahrscheinlichkeitsraums. Mit ihm liegt ein wahrscheinlichkeitstheoretisches Modell für die hier behandelte Qualitätsprüfung von Produktionsstücken vor 28.
Mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) sind auch Zufallsvariable, d.h.
gewisse reellwertige Funktionen auf ΩN , gegeben 29, wie z.B.:
• Yi : ΩN → R, i = 1, . . . , N , mit
Yi (ω) = ωi ,
ω ∈ ΩN , i = 1, . . . , N.
(6)
24Die Wahrscheinlichkeiten disjunkter Mengen addieren sich, d.h., wenn Ereignisse A und B
aufgrund von A ∩ B = ∅ sich gegenseitig ausschließen, gilt
PN,p [A oder B] = PN,p [A ∪ B] = PN,p [A] + PN,p [B].
Somit addieren sich in diesem
Fall die¯Einzelwahrscheinlichkeiten. Offensichtlich besteht Ar aus
˘
den disjunkten Mengen {ω} : ω ∈ Ar .
25Da nach der Modellannahme (ii) die Produktionsstücke unabhängig sind, gilt z.B.
PN,p [1. Produktionsstück defekt, 2. Produktionsstück nicht defekt]
= PN,p [{ω ∈ ΩN : ω1 = 1, ω2 = 0}]
= PN,p [{ω ∈ ΩN : ω1 = 1} ∩ {ω ∈ ΩN : ω2 = 0}] = p(1 − p).
Wenn allgemein zwei Ereignisse A und B unabhängig sind, gilt die Beziehung
PN,p [A und B] = PN,p [A ∩ B] = PN,p [A]PN,p [B],
d.h. die Einzelwahrscheinlichkeiten werden multipliziert.
26Mit |M | wird die Mächtigkeit einer endlichen Menge M bezeichnet.
27Die Binomialverteilung ist eine der klassischen Wahrscheinlichlichkeitsmaße oder -verteilungen, die in der Stochastik häufig betrachtet werden.
28Nach der axiomatischen Begründung der Wahrscheinlichkeitstheorie u.a. durch A.N. Kolmogorov liegt jedem wahrscheinlichkeitstheoretischen Modell ein Wahrscheinlichkeitsraum zugrunde.
Für einen allgemeinen Wahrscheinlichkeitsraum (Ω, F, P) ist Ω eine Menge, F eine σ-Algebra bestehend aus einer Menge von Ereignissen, d.h. einer geeigneten Menge von Teilmengen von Ω, und
P ein Wahrscheinlichkeitsmaß, das jedem A ∈ F eine Wahrscheinlichkeit P[A] ∈ [0, 1] zuweist.
Ein Wahrscheinlichkeitsraum kann auch betrachtet werden als ein meßbarer Raum (Ω, F), der
durch ein Wahrscheinlichkeitsmaß eine Gewichtung der meßbaren Mengen F erfährt.
Im allgemeinen ist F 6= Pot(Ω), da andernfalls eine vernünftige Definition von P nicht möglich
zu sein braucht, vgl. [1], Satz (1.5).
29Allgemein müssen diese Funktionen meßbar sein und damit eine in der Stochastik übliche
Minimalforderung für Funktionen erfüllen. Da im vorliegenden Fall die σ-Algebra FN alle Teilmengen von ΩN umfaßt, sind automatisch alle reellwertigen Funktionen auf ΩN meßbar.
24. Oktober 2007
5
Yi gibt das Testergebnis für das i-te Produktionsstück an
• ZN : ΩN → R mit
ZN (ω) =
N
1 X
ω i , ω ∈ ΩN ,
N i=1
d.h. ZN =
30
N
1 X
Yi .
N i=1
.
(7)
ZN gibt die relative Anzahl defekter Produktionsstücke an.
• TN : ΩN → R mit
( PN
inf i ∈ {1, ..., N } : ωi = 1 , falls
i=1 ωi > 0,
TN (ω) =
ω ∈ ΩN .
N + 1,
sonst,
TN modelliert den Zeitpunkt 31 der ersten Beobachtung eines defekten Produktionsstücks.
Solche Zufallsvariablen können als Darstellungen von Verfahren zur Erhebung
von Daten betrachtet werden 32. Vor allem auch durch das Studium von Zufallsvariablen kann das durch (ΩN , FN , PN,p ) gegebene stochastische Modell genauer
untersucht werden 33.
3. Untersuchung des in Abschnitt 2 eingeführten wahrscheinlichkeitstheoretischen Modells. In der Wahrscheinlichkeitstheorie werden primär gegebene Modelle 34 mathematisch studiert 35. Detaillierte Überlegungen, die reale Meßwerte einschließen, treten in den Hintergrund.
Für das in Abschnitt 2 beschriebene Modell werden in der Wahrscheinlichkeitstheorie beispielsweise Kenngrößen wie Erwartungswerte oder Varianzen berechnet
oder Sätze bewiesen, die das asymptotische Verhalten bei N → ∞ oder p → 0 charakterisieren. Auf erhobenen konkreten Daten basierende Überlegungen insbesondere zur Bestimmung des Parameters p = pw , der ein spezielles Produktionsverfahren
charakterisiert, werden in der Statistik vorgenommen 36.
Am Anfang einer wahrscheinlichkeitstheoretischen Untersuchung der Zufallsvariablen 37 ZN ergibt sich beispielsweise:
• Erwartungswert von Z N .
N
hn
X
k
k oi
EN,p [ZN ] = 38
PN,p ω ∈ ΩN : ZN (ω) =
(8)
N|
N }
{z
k=0
= 39 PN,p [ZN = k/N ]
30Wenn man die Zufallsvariablen Y , i = 1, . . . , N , als eine Gesamtheit (Y )
i
i i=1,...,N betrachtet,
erhält man ein einfaches Beispiel eines stochastischen Prozesses.
Im allgemeinen sind stochastische Prozesse (Yt )t∈T Familien Yt , t ∈ T, von Zufallsvariablen, die
durch eine Menge T ⊆ R indiziert sind, welche als ein Bereich von Zeitpunkten betrachtet werden
kann. Stochastische Prozesse dienen u.a. der Modellierung dynamischer, vom Zufall beeinflußter
Vorgänge.
31Es sei angenommen, daß die Tests in aufeinanderfolgenden Zeitpunkten durchgeführt werden.
Aufgrund von (6) ist in diesem Zusammenhang die Identifizierung der Folge der Zufallsvariablen
Yi , i = 1, . . . , N , mit dem stochastischen Prozeß (Yi )i=1,...,N naheliegend, vgl. Fußnote 30.
32
Für jede mögliche Stichprobe ω ∈ ΩN ist z.B. mit ZN (ω) die relative Anzahl der defekten
Produktionsstücke gegeben.
33Aus diesem Grund ist es auch sinnvoll, alle oder zumindest eine als wichtig erachtete Familie
von Zufallsvariablen zusammen mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) als wahrscheinlichkeitstheoretisches Modell zu bezeichnen.
34
Insbesondere werden i. allg. sämtliche Parameter, wie hier z.B. p, als zwar beliebig, aber fest
vorgegeben betrachtet.
35
Beispielsweise werden Sätze bewiesen, Verbesserungen und Verallgemeinerungen gesucht oder
Verbindungen zu anderen Teilgebieten der Mathematik hergestellt.
36Allgemein ist die mathematisch fundierte Entwicklung geeigneter Methoden zur Datenauswertung eine Aufgabe der Statistik.
37Vgl. (7).
24. Oktober 2007
6
N
1 X
kPN,p [Ak ]
N
k=0
N
X
N
41 1
=
pk (1 − p)N −k
k
N
k
k=1 | {z }
N!
N −1
=k
=N
k!(N − k)!
k−1
N
X
N − 1 k−1
=p
p
(1 − p)N −1−(k−1)
k−1
k=1
{z
}
|
N
−1
X N −1
=
pl (1−p)N −1−l = (p + (1−p))N −1 = 1
l
=
40
=
42
l=0
p.
• Varianz von Z N .
VarN,p (ZN ) =
=
43
EN,p (ZN − EN,p [ZN ])2
N X
k=0
= ...
=
44
(9)
2
k
− p PN,p [ZN = k/N ]
N
1
p(1 − p).
N
38Der Erwartungswert E[X] einer Zufallsvariablen X ist charakterisiert als ein gewichtetes
Mittel über den Wertebereich von X. Die Gewichte sind hierbei gegeben durch die Wahrscheinlichkeiten, mit der die jeweiligen Werte von X angenommen werden, d.h. durch die Verteilung
von X. Der Erwartungswert existiert, wenn jenes gewichtete Mittel wohldefiniert ist. Das ist z.B.
für integrable, bzw. für nicht-negative Zufallsvariable der Fall.
Um die zugrunde liegenden Parameter N und p, d.h. den Bezug zum Wahrscheinlichkeitsmaß
PN,p hervorzuheben, wird hier die Notation EN,p [. . . ] benutzt.
39
Dies ist eine abkürzende Schreibweise.
40
Vgl. (1). Insbesondere ist {ω ∈ ΩN : ZN (ω) = k/N } = Ak , k = 1, . . . , N .
41
Vgl. (5).
42
Eine einfachere Begründung von (8) wäre folgende:
(a) Die Zuordnung X → E[X], die jeder Zufallsvariablen X auf einem Wahrscheinlichkeitsraum
(Ω, F, P), die einen Erwartungswert besitzt, diesen Erwartungswert E[X] zuordnet, ist ein
linearer Operator, d.h. es gilt
E[αX + βY ] = αE[X] + βE[Y ],
X, Y Zufallsvariable, α, β ∈ R.
(b) Bei Berücksichtigung von (7) folgt somit
EN,p [ZN ] =
N
1 X
EN,p [Yi ],
N i=1
wobei die Zufallsvariablen Yi , i = 1, . . . , N , in (6) eingeführt wurden.
(c) Aufgrund von (2) ist
EN,p [Yi ] = PN,p [Yi = 1] · 1 + PN,p [Yi = 0] · 0 = p,
i = 1, . . . , N.
(d) Zusammenfassend folgt nun
EN,p [ZN ] =
N
1 X
p = p.
N i=1
Durch wenige simple Berechnungen wie in (c) und (d) und ein allgemeines Resultat der Stochastik, genauer der Maßtheorie, wie in (a) erübrigen sich somit aufwendigere, langweilige Berechnungen wie bei der obigen Herleitung von (8).
24. Oktober 2007
7
• Asymptotik von Z N 45. Die Beziehungen (8) und (9) besagen, daß die
Schwankungen der Zufallsvariablen ZN um ihren Erwartungswert p mit
wachsendem N immer kleiner werden. Mit Hilfe eines allgemeinen Resultats
aus der Wahrscheinlichkeitstheorie, der Čebyšev’schen Ungleichung 46
1
P |X − E[X]| ≥ ǫ ≤ 2 Var(X), X Zufallsvariable, ǫ > 0,
(10)
ǫ
läßt sich diese Aussage genauer fassen. Es ergibt sich die Konvergenz von
ZN gegen p bei N → ∞ in der Form
1
(11)
PN,p |ZN − p| ≥ ǫ ≤ 2 VarN,p (ZN )
ǫ
1
N →∞
= 2 p(1 − p) −−−−→ 0, ǫ > 0.
ǫ N
Das in (11) beschriebene Konvergenzresultat ist auch als schwaches Gesetz
der großen Zahlen bekannt 47 48.
43Die Varianz Var(X) einer Zufallsvariablen X ist definiert als der Erwartungswert der quadratischen Abweichung von X von ihrem Erwartungswert E[X]. Sie charakterisiert die Größe der
Schwankungen von X um E[X]. Nicht für alle Zufallsvariablen X ist Var(X) < ∞.
44
Zur Begründung von (9) könnte man detaillierte Berechnungen wie bei der obigen Herleitung
von (8) durchführen. Andererseits könnte mit Hilfe allgemeiner Zusammenhänge der Wahrscheinlichkeitstheorie auch wie folgt argumentiert werden.
P
(a) Gemäß (7) ist ZN = (1/N ) N
i=1 Yi eine gewichtete Summe der Zufallsvariablen Yi ,
i = 1, . . . , N . In Übereinstimmung mit der Modellannahme (ii) in Abschnitt 1 sind diese
Zufallsvariablen (stochastisch) unabhängig.
(b) Für unabhängige Zufallsvariable X und Y auf einem Wahrscheinlichkeitsraum (Ω, F, P) und
α, β ∈ R gilt allgemein die Beziehung:
Var(αX + βY ) = α2 Var(X) + β 2 Var(Y ).
(c) Wegen (2), weil EN,p [Yi ] = p, i = 1, . . . , N , vgl. Fußnote 42(c), und wegen der Linearität
des Operators EN,p [.], vgl. Fußnote 42(a), ergibt sich:
VarN,p (Yi ) = EN,p [(Yi − p)2 ]
= EN,p [Yi2 ] − 2EN,p [Yi ]p + p2 = p − p2 = p(1 − p),
i = 1, . . . , N.
(d) Zusammenfassend folgt (9), d.h.
VarN,p (ZN ) =
N
N
1 X
1 X
1
Var
(Y
)
=
p(1 − p) =
p(1 − p).
i
N,p
N 2 i=1
N 2 i=1
N
45Im Rest dieses Abschnitts 3 ist N nicht mehr fest, sondern kann beliebige Werte in N an-
nehmen. Um insbesondere große N zu behandeln, wird der Grenzübergang N → ∞ diskutiert.
46In (10) sollte Var(X) < ∞ vorausgesetzt werden. Die Čebyšev’sche Ungleichung ist eine der
vielen Ungleichungen, die in den mathematischen Untersuchungen in der Stochastik unverzichtbar
sind.
47Es gibt auch ein starkes Gesetz der großen Zahlen für Z , N ∈ N. Die beiden Varianten des
N
Gesetzes der großen Zahlen unterscheiden sich durch den jeweils zur Feststellung der Konvergenz
von ZN gegen p verwendeten Konvergenzbegriff. Während bei der Formulierung des schwachen
Gesetzes der großen Zahlen wie in (11) die stochastische Konvergenz benutzt wird, findet beim
starken Gesetz der großen Zahlen die fast-sichere Konvergenz Verwendung.
Die hier genannten und auch andere Konvergenzbegriffe werden in der Maßtheorie genauer
untersucht. U.a. werden dort die Beziehungen zwischen den unterschiedlichen Konvergenzkonzepten verdeutlicht. So folgt beispielsweise die stochastische Konvergenz aus der fast-sicheren. Daher
impliziert das starke Gesetz der großen Zahlen das schwache, wodurch insbesondere die gewählte
Namensgebung gerechtfertigt wird.
48
In einer allgemeineren Form wird beim Gesetz der großen Zahlen die Konvergenz
N
1 X
N→∞
Xk −−−−→ E[X1 ]
N k=1
für unabhängige, identisch verteilte, integrable Zufallsvariablen X1 , X2 , . . . nachgewiesen.
24. Oktober 2007
8
• Fluktuationen von Z N bei N → ∞. Eine Präzisierung der durch (11)
beschriebenen Konvergenz von ZN wird durch den Zentralen Grenzwertsatz gegeben. Während das Gesetz der großen Zahlen ohne Angabe einer
N →∞
Konvergenzgeschwindigkeit nur besagt, daß ZN − p −−−−→ 0 bzgl. eines geeigneten Konvergenzbegriffs, identifiziert
√ der Zentrale Grenzwertsatz diese
Konvergenzgeschwindigkeit als
∼
1/
N . In einer genauen Formulierung
√
wird festgestellt, daß die mit N skalierten Fluktuationen von ZN um den
Erwartungswert p für N → ∞ normalverteilt sind, d.h. 49 50 51 52
p
(12)
lim PN,p N/p(1 − p)(ZN − p) ∈ [a, b]
N →∞
Z b
1
dx exp(−x2 /2), a, b ∈ R, a < b.
= √
2π a
4. Ein statistisches Modell. Entsprechend der Aufgabe, die Qualität des Produktionsverfahrens zu prüfen, sei jetzt angenommen, daß
• diesem Produktionsprozeß eine wahre“, allerdings unbekannte Fehlerwahr”
scheinlichkeit pw zugeordnet ist, und daß somit
• aufgrund von Qualitätskontrollen vorliegende Prüfungsergebnisse y1 , . . . ,
yN mit
(
1, falls das i-te Produktionsstück fehlerhaft ist,
yi =
i = 1, ..., N,
0, sonst,
Realisierungen 53 der Zufallsvariablen Yi , i = 1, . . . , N , auf dem Wahrscheinlichkeitsraum (ΩN , FN , PN,pw ) sind.
Die Aufgabe besteht nun darin, pw zu schätzen, wobei nur die empirisch bestimmten
Daten y1 , . . . , yN der Schätzung zugrundegelegt werden können.
Bei der Lösung der Aufgabe findet sich ein Statistiker in folgender Situation 54:
49Die Normalverteilung N(µ, σ2 ) mit Erwartungswert µ und Varianz σ2 ist ein Wahrscheinlichkeitsmaß auf R, das einem Intervall [a, b], −∞ ≤ a < b ≤ ∞, jeweils die Wahrscheinlichkeit
R
(2πσ2 )−1/2 ab dx exp(−(x − µ)2 /2σ2 ) zuordnet. Die Verteilung N(0, 1), die auf der rechten Seite
von (12) auftaucht, wird als standard Normalverteilung bezeichnet.
50
Mit (12) wird ein weiterer, in der Stochastik üblicher Konvergenzbegriff vorgestellt, nämlich
die sog. Konvergenz
in Verteilung.
Diese Namensgebung wird verständlich, wenn bedacht wird, daß
ˆ
˜
die Größen P X ∈ [a, b] , a, b ∈ R, a < b, die Verteilung einer Zufallsvariablen X kennzeichnen.
p
Durch (12) wird festgehalten, daß bei N → ∞ die Verteilung der Zufallsvariablen N/p(1 − p)
(ZN − p) gegen die standard Normalverteilung N(0, 1), vgl. Fußnote 49, konvergiert.
51
In einer allgemeineren Form besagt der Zentrale Grenzwertsatz, daß für unabhängige, identisch verteilte, quadratintegrable Zufallsvariablen X1 , X2 , . . . mit Varianz σ2 die Verteilung der
Zufallsvariablen
!
r
N
1 X
N
ηN =
X
−
E[X
]
, N = 1, 2, . . . ,
1
k
σ2 N k=1
bei N → ∞ gegen die standard Normalverteilung N(0, 1) konvergiert.
52
Als Präzisierung des Gesetzes der großen Zahlen (11) besagt der Zentrale Grenzwertsatz (12)
p
N→∞
zumindest formal, daß ZN ∼ p + p(1 − p)/N Z, wobei Z eine normalverteilte Zufallsvariable
mit Erwartungswert 0 und Varianz 1 ist.
53Eine Realisierung einer Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P) ergibt sich als X(ω) nach Auswahl eines zufälligen, dann aber als fest betrachteten ω ∈ Ω.
54Der Statistiker sei aufgrund der Auskünfte der am Produktionsprozeß beteiligten Personen
mit den Modellannahmen (i) und (ii) in Abschnitt 1 einverstanden. Weiterhin akzeptiere er aufgrund seiner fachlichen Kompetenz das in Abschnitt 2 eingeführte und in Abschnitt 3 untersuchte
wahrscheinlichkeitstheoretische Modell der Gesamtheit der möglichen Prüfungsdaten für die einzelnen Produktionsstücke. Letztendlich sei er aufgrund seiner fachlichen Erfahrung der Auffassung,
daß nach der Prüfung einer festen Anzahl N von Produktionsstücken zur Einschätzung der Verarbeitungsqualität, d.h. zu einer vernünftigen Schätzung pc
w von pw , nur die Kenntnis der Anzahl
24. Oktober 2007
9
• Es gibt eine Menge XN = {0, 1, 2, . . . , N }, die die möglichen Werte für die
Anzahl der fehlerhaften Produktionsstücke umfaßt. XN wird Stichprobenraum genannt 55.
• Die σ-Algebra GN = Pot(XN ) der Teilmengen von XN beschreibt die Ereignisse, auf denen der Statistiker seine Entscheidungen aufbaut.
• Auf dem meßbaren Raum (XN , GN ) gibt es mit (QN,p )p∈[0,1] eine Familie von Wahrscheinlichkeitsmaßen. Für eine zugrundeliegende Fehlerwahrscheinlichkeit p beschreibt QN,p die zugehörige Wahrscheinlichkeitsverteilung der Anzahl fehlerhafter Produktionsstücke bei N Stichproben. Aufgrund von (5) gilt
QN,p = B(N, p),
p ∈ [0, 1],
(13)
wobei B(N, p) die Binomialverteilung mit den Parametern N und p ist.
Die Struktur (XN , GN , (QN,p )p∈[0,1] ) ist ein Beispiel eines statistischen Modells 56.
In jeder Anwendungssituation ist die Bestimmung eines derartigen Modells die erste Aufgabe eines Statistikers. Seine mathematischen Überlegungen kann er dann
im Rahmen dieses Modells ausführen.
5. Statistische Untersuchungen auf der Basis des in Abschnitt 4 bestimmten Modells. 57 In der Realität sind die Ziele und die Methoden statistischer Überlegungen stark von der konkreten Anwendungssituation abhängig.
Für den vorliegenden Fall der Prüfung der Verarbeitungsqualität sollen drei typische Fragestellungen und ihre jeweilige Lösung durch Methoden der Statistik
vorgestellt werden.
• Schätzung der Fehlerwahrscheinlichkeit pw . Ein Verfahren zur Bestimmung eines Schätzers pc
w basiert auf dem sog. Maximum-LikelihoodPrinzip: Für eine beobachtete Anzahl x fehlerhafter Produktionsstücke wird
pc
w dadurch charakterisiert, daß unter der zugehörigen Verteilung, d.h. unter
58
der Binomialverteilung QN,b
c
, jener Wert x die maximale
w)
pw = B(N, p
59
60
Wahrscheinlichkeit hat . pc
w löst somit
N x
N
x
N −x
p (1 − p)N −x .
(14)
c
= sup
pc
w)
w (1 − p
x
x
p∈[0,1]
fehlerhafter Produktionsstücke aber keiner weiteren Details wie der genauen Reihenfolge ihres
Auftretens, notwendig ist.
55In der hier betrachteten speziellen Situation, in der nicht das detaillierte Ergebnis der Prüfung
von N Produktionsstücken, sondern nur die Anzahl der fehlerhaften Teile von Interesse ist, wird
es sinnvoll, mit XN einen Stichprobenraum zu wählen, der übersichtlicher“ ist als der in den
”
Abschnitten 2 und 3 benutzte Stichprobenraum ΩN .
56Genaugenommen liegt hier ein parametrisches Modell mit dem Parameterbereich Θ = [0, 1]
vor. Θ kennzeichnet die unterschiedlichen Wahrscheinlichkeitsverteilungen QN,p , p ∈ [0, 1], die
als mögliche Kandidaten für die real zugrundeliegende Wahrscheinlichkeitsverteilung QN,pw der
Daten in Frage kommen.
57
In diesem Abschnitt sei die Anzahl N der geprüften Produktionsstücke fest.
58Vgl. (13).
59Unter allen möglichen p ist also der beobachtete Wert x für jenes pc am wahrscheinlichsten“.
w
60In einer etwas allgemeineren Formulierung mit einem statistischen ”Modell (X, G, (Q )
p p∈Θ ),
wobei X höchstens abzählbar und G = Pot(X) sei, ist bei einer Anwendung des MaximumLikelihood-Prinzips zu x ∈ X eine Lösung pb = pb(x) von
Qpb[{x}] = sup Qp [{x}]
p∈Θ
zu suchen. Für ein festes x ∈ X bezeichnet man übrigens die Funktion Θ ∋ p → Qp [{x}] ∈ [0, 1]
als Likelihood-Funktion zum Beobachtungswert x.
24. Oktober 2007
10
Als Maximum-Likelihood-Schätzer, d.h., als Lösung von (14), ergibt sich
mit 61
x
pc
(15)
w =
N
die relative Anzahl der defekten Produktionsstücke in der auszuwertenden
Stichprobe vom Umfang N .
Der Schätzer pc
w ist insofern zunächst unbefriedigend, als mit ihm keine
Angabe über seine Zuverlässigkeit verbunden ist.
• Konfidenzbereich für pw 62. Eine Schätzung für pw gewinnt an Vertrauenswürdigkeit durch die Angabe eines möglichst kleinen sog. Konfidenzbereichs, innerhalb dessen mit einer hinreichend großen Sicherheit“ 63 dieses
”
pw erwartet werden kann. Eine sinnvolle Vorgehensweise besteht darin,
– zunächst ein Irrtumsniveau s ∈ (0, 1) 64 zu wählen und dann
– eine Zuordnung XN ∋ x → C(x) = [pu (x), po (x)] ⊆ [0, 1] zu bestimmen, so daß für alle x das jeweilige Intervall C(x) möglichst klein ist
und
– für jedes mögliche pw ∈ [0, 1] bzgl. des zugehörigen Wahrscheinlichkeitsmaßes QN,pw höchstens mit Wahrscheinlichkeit s solche x beobachtet werden, für die C(x) 6∋ pw gilt 65.
Wegen (13) sollte daher
X N sup
px (1 − p)N −x ≤ s
(16)
x
p∈[0,1]
x=0,1,...,N
C(x)6∋p
gelten
66
.
61Zur Lösung von (14) ist das Maximum der Likelihood-Funktion p → `N ´px (1 − p)N−x , bzw.
x
in einer äquivalenten Formulierung das Maximum der Log-Likelihood-Funktion
`` ´ x
´
` ´
p → log N
p (1 − p)N−x = log N
+ x log(p) + (N − x) log(1 − p) = Fx (p)
x
x
zu suchen. (15) ergibt sich nun aus
N −x
x
x
−
= 0 ⇐⇒ p =
,
p
1−p
N
x
N −x
Fx′′ (p) = − 2 −
< 0, p ∈ (0, 1),
p
(1 − p)2
Fx′ (p) =
und
lim Fx (p) = lim Fx (p) = −∞.
pց0
pր1
62In den folgenden Überlegungen wird auf die Frage des Herstellers nach einer möglichst zuverlässigen und objektiven Einschätzung der Verarbeitungsqualität seines Produkts eingegangen.
63Eine derartige Phrase muß natürlich mathematisch gefaßt werden.
64Man könnte auch von einem Sicherheitsniveau 1 − s sprechen.
65Damit wären die Aussagen p 6∈ C(x) für höchstens s · 100 % aller Beobachtungen x“ und
” w
pw ∈ C(x) für mindestens (1 − s) · 100 % aller Beobachtungen x“ zutreffend. Diese Aussagen sind
”
dann unabhängig vom genauen Wert von pw korrekt.
66In einer allgemeineren, im Rahmen eines statistischen Modells (X, G, (Q )
p p∈Θ ) gewählten
Formulierung sollte die Zuordnung X ∋ x → C(x) ⊆ Θ so bestimmt werden, daß
ˆ
˜
sup Qp {x ∈ X : C(x) 6∋ p} ≤ s.
p∈Θ
24. Oktober 2007
11
Für einen festen Beobachtungswert x und nach der Bestimmung von
C(x) kann nun der Statistiker sein Ergebnis in der folgenden Form präsentieren: Mit einer Sicherheit von mindestens (1 − s) · 100 % liegt pw in dem
”
Intervall C(x)“ 67.
Auf die konkrete Bestimmung eines Konfidenzintervalls C(.) wird in Anhang . . . eingegangen.
• Testen einer Hypothese 68. Die Gefahr, eine vereinbarte maximale Fehlerwahrscheinlichkeit p1 unbemerkt zu überschreiten, soll unter einem vorgegebenen, gerade noch akzeptablen Niveau bleiben. In einem systematischen statistischen Verfahren besteht
– ein erster Schritt darin, ein Irrtumsniveau t ∈ (0, 1) festzulegen.
– Für das noch genauer zu bestimmende Entscheidungsschema, einen
sog. Test φ, mit 69
(
0, falls p ≥ p1 angenommen wird 70,
XN ∋ x → φ(x) =
(17)
1, falls p < p1 vermutet wird 71,
sollte dann einerseits die maximale Irrtumswahrscheinlichkeit bei einer
zu großen Fehlerquote nicht größer als t sein 72, d.h. 73 74
X
N x
p (1 − p)N −x ≤ t,
(18)
sup
x
p∈Θ0
{x∈XN :φ(x)=1}
wobei
Θ0 = {p ∈ [0, 1] : p ≥ p1 }
als Nullhypothese 75 bezeichnet wird.
(19)
67Die häufig umgangssprachlich verwendete Aussage
Mit einer Wahrscheinlichkeit von (1 −
”
s) · 100 % liegt pw in dem Intervall C(x)“ ist unpräzise und irreführend, da sie suggeriert, daß pw
zufällig ist, was nicht der Fall ist.
68Eine Problemstellung wie die nun diskutierte kann für den Hersteller dann relevant werden,
wenn er zur Vermeidung von Regreßforderungen der Kunden beim Unterschreiten einer vorgegebenen Qualitätsgrenze, bzw. beim Überschreiten einer festen Fehlerwahrscheinlichkeit, informiert
werden will.
69Bei der genauen Bestimmung von φ(.) werden die Mengen A = {x ∈ X : φ(x) = 0} und
0
N
A1 = {x ∈ XN : φ(x) = 1} = XN \ A0 spezifiziert.
70Der Statistiker, der die Datenauswertung vornimmt, kommt zum Ergebnis, daß die Fehlerwahrscheinlichkeit p1 überschritten wird. Er schlägt nun dem Betrieb vor, Verbesserungen im
Produktionsprozeß vorzunehmen.
71
Der Statistiker kommt zum Schluß, daß die Fehlerwahrscheinlichkeit p1 nicht erreicht wird.
Der Produktionsprozeß könnte dann beibehalten werden.
72Die maximale Wahrscheinlichkeit für einen sog. Fehler 1. Art sollte das Niveau t nicht
überschreiten.
73
In einem allgemeineren, im Rahmen eines statistischen Modells (X, G, (Qp )p∈Θ ) formulierten
Problem sollte für eine gegebene Nullhypothese Θ0 ⊆ Θ der Test φ : X → {0, 1} so bestimmt
werden, daß
sup Qp [{x ∈ X : φ(x) = 1}] ≤ t
p∈Θ0
gilt. Analog zu (17) hat auch hier φ die Bedeutung
(
0, falls Θ0 akzeptiert wird,
φ(x) =
1, falls Θ0 abgelehnt wird,
74
x ∈ X.
Ein Statistiker könnte für (18) folgende Formulierungen wählen: Die Nullhypothese Θ0 wird
”
in höchstens t·100 % aller Fälle übersehen“ oder auch die Nullhypothese wird mit einer Sicherheit
”
von mindestens (1−t)·100 % erkannt“. Eine Verwendung des Wortes Wahrscheinlichkeit“ anstelle
”
von Sicherheit“ wäre unpräzise, da sie eine nicht vorhandene Zufälligkeit von p suggerieren würde.
”
75
Die Gültigkeit der Nullhypothese Θ0 sollte nur auf einem geringen Irrtumsniveau unentdeckt
bleiben, da ihr Übersehen mit hohen Kosten verbunden sein kann.
24. Oktober 2007
12
– Andererseits sollte auch im Fall einer eigentlich akzeptablen Fehlerquote p < p1 die entsprechende Irrtumswahrscheinlichkeit möglichst
klein sein 76, d.h. 77
X
N x
p (1 − p)N −x
(20)
x
{x∈XN :φ(x)=0}
!!
= minimal für den zu suchenden Test φ, falls p < p1 .
Die konkrete Bestimmung des Tests φ wird in Anhang . . . vorgenommen.
6. Zusammenfassung. In der Stochastik werden Gesetzmäßigkeiten in zufälligen
Vorgängen mathematisch beschrieben. Hierbei wird mit mathematischen Modellen
gearbeitet.
Im Teilgebiet der Wahrscheinlichkeitstheorie werden die Eigenschaften fest vorgegebener wahrscheinlichkeitstheoretischer Modelle studiert.
Im Teilgebiet der Statistik werden im Rahmen statistischer Modelle reale Beobachtungsdaten interpretiert.
Während der vorangegangenen Überlegungen wurden u.a. folgende Begriffe,
Konzepte und Resultate der Stochastik vorgestellt:
• Wahrscheinlichkeitsraum
(Stichprobenraum, σ-Algebra der Ereignisse, Wahrscheinlichkeitsmaß)
• Zufallsvariable
• Stochastischer Prozeß
• Unabhängigkeit
• Erwartungswert, Varianz
• (schwaches bzw. starkes) Gesetz der großen Zahlen
• Zentraler Grenzwertsatz
• Čebyšev’sche Ungleichung
• stochastische bzw. fast-sichere Konvergenz, Konvergenz in Verteilung
• Binomialverteilung, Normalverteilung
• deskriptive und mathematische Statistik
• (parametrisches) statistisches Modell
• Maximum-Likelihood-Prinzip, Schätzer
• Konfidenzbereich
• Testen einer Hypothese
• Maß- und Integrationstheorie
• ...
Diese Begriffe sind von einer Einführung zur Stochastik nicht wegzudenken und
werden später immer wieder auftauchen 78.
Literatur
[1] H.-O. Georgii. Stochastik. De Gruyter, 2002.
76Durch diese Forderung soll der sog. Fehler 2. Art möglichst unwahrscheinlich werden. Die
Gefahr eines falschen Alarms soll möglichst klein werden. Damit soll eine evtl. kostenintensive,
aber überflüssige Änderung des Produktionsprozesses vermieden werden.
77Für alle p < p soll in der Klasse aller Tests, die (18) erfüllen, das Minimum der linken Seite
1
von (20) durch den zu suchenden Test φ angenommen werden.
78Allerdings ist einzuschränken, daß Begriffe der Statistik wie z.B. Maximum-LikelihoodPrinzip, Schätzer oder Konfidenzbereich durch die Betonung der Wahrscheinlichkeitstheorie etwas
in den Hintergrund treten werden.
24. Oktober 2007
Herunterladen