Ein Einblick in den Aufbau und die Themen der Stochastik 24. Oktober 2007 Karl Oelschläger Institut für Angewandte Mathematik Universität Heidelberg In den folgenden Überlegungen sollen • die Stochastik als eine Disziplin der Mathematik charakterisiert und • beispielhaft Aufgabenstellungen und Vorgehensweisen vorgestellt werden. Außerdem werden • einige wichtige Begriffe und Konzepte eingeführt. Auf die letztendlich notwendige mathematische Präzision wird hier weitgehend verzichtet. Einige ergänzende Hinweise finden sich in Fußnoten. Gelegentlich werden Begriffe nur erwähnt und Definitionen oder genaue Erläuterungen auf später verschoben. Als Charakterisierung des vorliegenden mathematischen Gebiets eignet sich: Die Stochastik ist die Lehre von den mathematischen Gesetzmäßigkeiten des Zufalls 1. Beispiel (Gesetzmäßigkeit in einem zufälligen Geschehen). Eine sehr oft geworfene Münze zeigt in etwa der Hälfte aller Fälle Kopf“. Diese Gesetzmäßigkeit wird im ” sog. Gesetz der großen Zahlen mathematisch gefaßt 2. Beispiel (Zufälliges Geschehen ohne eine erkennbare Gesetzmäßigkeit 3). Öffentliche Diskussionsbeiträge von Politikern und Funktionären zur Steuer- oder Rentengesetzgebung. Mathematische Gesetzmäßigkeiten z.B. in der Natur, der Technik oder der Wirtschaft 4 werden mit Hilfe von Modellen formuliert 5 und untersucht 6. Daher ist das zentrale Thema der folgenden Ausführungen die Bildung und Untersuchung stochastischer Modelle. Im Rahmen einer speziellen Anwendung werden typische Fragestellungen und übliche Vorgehensweisen in der Stochastik erläutert. Insbesondere werden wesentliche 1In der Einleitung zu [1] findet sich eine Deutung des Wortes Stochastik aus Ursprüngen im Altgriechischen. 2Das Gesetz der großen Zahlen ist in seinen vielen Variationen ein zentrales Resultat der Stochastik. Im vorliegenden Fall beschreibt es die Asymptotik bei Wurfanzahl N → ∞ der relativen Anzahl von Kopf“, d.h. des Quotienten Anzahl von Kopf“/N . Insbesondere wird die Konvergenz ” ” dieses Quotienten gegen seinen Erwartungswert, der bei einer fairen Münze 1/2 ist, festgehalten. Eine vergleichbar grundlegende Bedeutung hat der Zentrale Grenzwertsatz, der im Zusammenhang dieses Beispiels die Asymptotik der zufälligen √ Fluktuationen der relativen Anzahl von ”Kopf“ um den Erwartungswert 1/2, d.h. genauer von N ((Anzahl von Kopf“/N )−1/2), charakterisiert. ” 3 Solche Phänomene werden in der Stochastik nicht behandelt. 4 Dies betrifft alle Arten von Anwendungen, auch solche in denen kein Zufall involviert ist. 5 Bei der Formulierung eines Modells werden alle bekannten, für wichtig erachteten Merkmale der jeweiligen Anwendung mathematisch formuliert. Vermeintlich unwesentliche Details werden ignoriert, wie z.B. bei der Modellierung des Wurfs eines Würfels dessen Farbe. 6 Nicht offensichtliche, sich als Konsequenzen spezieller Voraussetzungen, bzw. Modellannahmen ergebende Eigenschaften werden bewiesen. 1 2 Aspekte dieses mathematischen Gebiets und seine Aufteilung in die Teilgebiete der Wahrscheinlichkeitstheorie und der Statistik angesprochen 7. Aufgabe: In einem Industriebetrieb werden N gleichartige Produktionsstücke 8 zufällig ausgewählt und auf ihre Fehlerfreiheit getestet. • Zunächst soll die Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke, d.h. die Struktur und die Eigenschaften dieser Daten, analysiert werden 9. • Weiterhin soll untersucht werden, wie aus konkreten Prüfungsergebnissen Rückschlüsse auf die Verarbeitungsqualität des Betriebs gezogen werden können 10. 1. Einfache Modellannahmen. 11 Es sei angenommen, daß (i) ein einzelnes Produktionsstück mit einer zunächst noch unbekannten Wahrscheinlichkeit 12 p ∈ [0, 1] fehlerhaft ist 13, und daß (ii) die Qualitätseigenschaften der jeweiligen Produktionsstücke voneinander unabhängig 14 sind. Bemerkung. Völlig analoge Modellannahmen machen auch in anderen Situationen einen Sinn, z.B. bei Alkoholkontrollen im Straßenverkehr, beim Prüfen der Wirksamkeit eines neuen Medikaments durch seine Verabreichung an Testpersonen oder bei der Untersuchung von Schlachtvieh auf spezielle Krankheiten. In diesen Fällen wären die Produktionsstücke durch Autofahrer, Testpersonen, bzw. Schlachttiere zu ersetzen. Außerdem wäre dann p die Wahrscheinlichkeit für einen festgestellten Alkoholkonsum, eine positive Wirkung des Medikaments, bzw. das Vorliegen einer Erkrankung 15. Im Rahmen der Stochastik kann man die Modellannahmen (i) und (ii) zunächst 7 Als ein drittes Teilgebiet der Stochastik kann auch die Maßtheorie betrachtet werden. Durch ihre allgemeinen Resultate insbesondere zu einer abstrakten Integrationstheorie weist sie in vielen technisch komplizierten Situationen in der Wahrscheinlichkeitstheorie und der Statistik den Weg zu einem mathematisch korrekten Vorgehen. 8Je nach Branche könnten dies Glühlampen, Speicherchips oder auch PKW’s sein. 9In diesem Kontext werden insbesondere Methoden der Wahrscheinlichkeitstheorie angewandt. 10Bei diesem Vorhaben kommen Methoden der Statistik zur Geltung. 11 Mathematische Modelle gehen immer von Annahmen aus, die plausibel, widerspruchsfrei und mit der zugrundeliegenden Realität verträglich sein sollen. Zur Klärung der Frage, ob diese Annahmen ausreichend sind oder aber verändert bzw. ergänzt werden sollten, müssen vorhandene Daten und Fakten berücksichtigt, evtl. weitere Messungen und Experimente vorgenommen und auch die mathematischen Konsequenzen des Modells mit der Realität verglichen werden. 12Dieser zentrale Begriff ist zunächst formal zu verstehen. Später wird genauer erläutert werden, wie Ereignissen gewisse Wahrscheinlichkeiten ∈ [0, 1] zugeordnet werden. Es gilt: Ein Ereignis mit Wahrscheinlichkeit 0 tritt (fast) sicher nicht ein, ein Ereignis mit Wahrscheinlichkeit 1 tritt (fast) sicher ein, allgemein tritt ein Ereignis mit größerer Sicherheit ein, je höher seine Wahrscheinlichkeit ist. 13Mit dieser Annahme wird u.a. auch zum Ausdruck gebracht, daß die Qualität des Herstellungsprozesses keinen systematischen Schwankungen unterliegt: Jedes Produktionsstück besitzt die gleiche Chance“, fehlerfrei zu sein. ” 14 Der Begriff der Unabhängigkeit, der in der Umgangssprache eine klare Bedeutung hat, bzw. seine mathematisch präzisierte Formulierung wird in der Stochastik außerordentlich oft verwendet. Die Unabhängigkeit von zwei Ereignissen A und B besagt, daß die Wahrscheinlichkeit, mit der A eintritt, sich nicht ändert, wenn bekannt wird, daß B eingetreten ist. Hier beschreibt die Unabhängigkeit der . . . Produktionsstücke“ eine gewisse Optimalität“ des ” ” Herstellungsprozesses: Auch wenn ein defektes Produktionsstück gefunden wird, so hat dennoch das nächste wieder alle Chancen“, fehlerfrei zu sein. 15Um alle diese ”möglichen Situationen gleichzeitig behandeln zu können und um irrelevante, spezielle Details aus dem Blickfeld zu drängen, wird in der Stochastik oft der mehrmalige, unabhängige Wurf einer Münze betrachtet, die mit Wahrscheinlichkeit p Kopf“ zeigt. Wenn p = 1/2 ” ist, nennt man diese Münze fair, sonst wird sie als unfair bezeichnet. 24. Oktober 2007 3 • innerhalb der Wahrscheinlichkeitstheorie in ein mathematisches Modell der Gesamtheit der möglichen Prüfungsdaten für die verschiedenen Produktionsstücke umsetzen. Für dieses wahrscheinlichkeitstheoretische Modell lassen sich mathematische Resultate herleiten, beispielsweise über Erwartungswerte oder die Asymptotik bei N → ∞ 16. Aufbauend auf dem wahrscheinlichkeitstheoretischen Modell und den hierzu gewonnenen Erkenntnissen kann in einem weiteren Schritt • innerhalb der Statistik 17 ein mathematisches Modell zur Auswertung real vorliegender Prüfungsergebnisse entwickelt werden. Im Rahmen dieses statistischen Modells können z.B. Verfahren erarbeitet werden, die eine Schätzung des wahren“ Parameters p = pw 18 aus konkret erhobenen Da” ten 19 ermöglichen. 2. Ein wahrscheinlichkeitstheoretisches Modell. Die Annahmen (i) und (ii) können in folgender mathematischer Struktur (ΩN , FN , PN,p ) zusammengefaßt werden: • ΩN = {0, 1}N = (ω1 , ω2 , . . . , ωN ) : ωk ∈ {0, 1}, k = 1, . . . , N beschreibt die Menge der möglichen Stichproben. ωk = 1, bzw. ωk = 0, bedeutet, daß das k-te Produktionsstück 20 defekt, bzw. nicht defekt ist. ΩN wird Stichprobenraum genannt. • Die Menge FN = {A : A ⊆ ΩN } der Teilmengen von ΩN 21 beschreibt die Menge aller Ereignisse. Beispielsweise sind N X ωi = r , r = 0, . . . , N, (1) Ar = ω ∈ ΩN : i=1 die Ereignisse, daß jeweils r der getesteten Produktionsstücke defekt sind 22. • Jedem Ereignis A ∈ FN wird durch PN,p [A] ∈ [0, 1] seine Wahrscheinlichkeit zugeordnet 23. In Übereinstimmung mit der Modellannahme (i) wird beispielsweise (2) PN,p {ω ∈ ΩN : ωi = 1} = p, PN,p {ω ∈ ΩN : ωi = 0} = 1 − p, i = 1, . . . , N, festgesetzt. Weiterhin ist PN,p [Ar ] = PN,p " [ ω∈Ar # {ω} = 24 X PN,p [{ω}], (3) ω∈Ar 16In jenen Überlegungen nimmt die Fehlerwahrscheinlichkeit p einen fest vorgegebenen Wert an. 17Genaugenommen ist hier die mathematische, induktive oder schließende Statistik gemeint. Im Gegensatz dazu werden in der deskriptiven, beschreibenden oder empirischen Statistik die Prüfungsdaten nur geeignet zusammengefaßt, beispielsweise in graphischen Darstellungen oder Kennzahlen. 18Hiermit ist dasjenige p gemeint, das dem speziellen Produktionsprozeß, für den die Prüfungen durchgeführt werden, zugeordnet ist. 19 D.h. aus den Prüfungsergebnissen für N ausgewählte Produktionsstücke. 20Hier wird implizit angenommen, daß die Produktionsstücke durchnummeriert werden. 21Damit wird F N = Pot(ΩN ) gesetzt, wobei Pot(S) die Potenzmenge einer Menge S bezeichnet. 22In einer anderen Sprechweise ist A das Ereignis, daß die gezogene Stichprobe genau r r ” defekte Produktionsstücke umfaßt“. 23Bei einem festen N hängt die Wahrscheinlichkeit eines Ereignisses von dem innerhalb dieses wahrscheinlichkeitstheoretischen Modells als zwar fest, aber beliebig betrachteten Parameter p ab. ΩN und FN hingegen sind von p unabhängig. 24. Oktober 2007 4 wobei PN,p [{ω}] = 25 N Y i=1 = p pωi (1 − p)1−ωi | {z } ( p, falls ωi = 1, = 1 − p, falls ωi = 0. PN i=1 ωi (1 − p)N − = pr (1 − p)N −r , PN i=1 (4) ωi ω ∈ Ar . Es gibt Nr Möglichkeiten für die Einordnung“ von r defekten Produkti ” onsstücken in die Folge aller N Produktionsstücke, d.h. |Ar | = Nr 26. Mit (3) und (4) folgt daher N r PN,p [Ar ] = p (1 − p)N −r , r = 0, . . . , N. (5) r Somit ist die Anzahl der defekten Produktionsstücke binomialverteilt mit den Parametern N und p 27. Die nun konstruierte Struktur (ΩN , FN , PN,p ) ist ein einfaches Beispiel eines Wahrscheinlichkeitsraums. Mit ihm liegt ein wahrscheinlichkeitstheoretisches Modell für die hier behandelte Qualitätsprüfung von Produktionsstücken vor 28. Mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) sind auch Zufallsvariable, d.h. gewisse reellwertige Funktionen auf ΩN , gegeben 29, wie z.B.: • Yi : ΩN → R, i = 1, . . . , N , mit Yi (ω) = ωi , ω ∈ ΩN , i = 1, . . . , N. (6) 24Die Wahrscheinlichkeiten disjunkter Mengen addieren sich, d.h., wenn Ereignisse A und B aufgrund von A ∩ B = ∅ sich gegenseitig ausschließen, gilt PN,p [A oder B] = PN,p [A ∪ B] = PN,p [A] + PN,p [B]. Somit addieren sich in diesem Fall die¯Einzelwahrscheinlichkeiten. Offensichtlich besteht Ar aus ˘ den disjunkten Mengen {ω} : ω ∈ Ar . 25Da nach der Modellannahme (ii) die Produktionsstücke unabhängig sind, gilt z.B. PN,p [1. Produktionsstück defekt, 2. Produktionsstück nicht defekt] = PN,p [{ω ∈ ΩN : ω1 = 1, ω2 = 0}] = PN,p [{ω ∈ ΩN : ω1 = 1} ∩ {ω ∈ ΩN : ω2 = 0}] = p(1 − p). Wenn allgemein zwei Ereignisse A und B unabhängig sind, gilt die Beziehung PN,p [A und B] = PN,p [A ∩ B] = PN,p [A]PN,p [B], d.h. die Einzelwahrscheinlichkeiten werden multipliziert. 26Mit |M | wird die Mächtigkeit einer endlichen Menge M bezeichnet. 27Die Binomialverteilung ist eine der klassischen Wahrscheinlichlichkeitsmaße oder -verteilungen, die in der Stochastik häufig betrachtet werden. 28Nach der axiomatischen Begründung der Wahrscheinlichkeitstheorie u.a. durch A.N. Kolmogorov liegt jedem wahrscheinlichkeitstheoretischen Modell ein Wahrscheinlichkeitsraum zugrunde. Für einen allgemeinen Wahrscheinlichkeitsraum (Ω, F, P) ist Ω eine Menge, F eine σ-Algebra bestehend aus einer Menge von Ereignissen, d.h. einer geeigneten Menge von Teilmengen von Ω, und P ein Wahrscheinlichkeitsmaß, das jedem A ∈ F eine Wahrscheinlichkeit P[A] ∈ [0, 1] zuweist. Ein Wahrscheinlichkeitsraum kann auch betrachtet werden als ein meßbarer Raum (Ω, F), der durch ein Wahrscheinlichkeitsmaß eine Gewichtung der meßbaren Mengen F erfährt. Im allgemeinen ist F 6= Pot(Ω), da andernfalls eine vernünftige Definition von P nicht möglich zu sein braucht, vgl. [1], Satz (1.5). 29Allgemein müssen diese Funktionen meßbar sein und damit eine in der Stochastik übliche Minimalforderung für Funktionen erfüllen. Da im vorliegenden Fall die σ-Algebra FN alle Teilmengen von ΩN umfaßt, sind automatisch alle reellwertigen Funktionen auf ΩN meßbar. 24. Oktober 2007 5 Yi gibt das Testergebnis für das i-te Produktionsstück an • ZN : ΩN → R mit ZN (ω) = N 1 X ω i , ω ∈ ΩN , N i=1 d.h. ZN = 30 N 1 X Yi . N i=1 . (7) ZN gibt die relative Anzahl defekter Produktionsstücke an. • TN : ΩN → R mit ( PN inf i ∈ {1, ..., N } : ωi = 1 , falls i=1 ωi > 0, TN (ω) = ω ∈ ΩN . N + 1, sonst, TN modelliert den Zeitpunkt 31 der ersten Beobachtung eines defekten Produktionsstücks. Solche Zufallsvariablen können als Darstellungen von Verfahren zur Erhebung von Daten betrachtet werden 32. Vor allem auch durch das Studium von Zufallsvariablen kann das durch (ΩN , FN , PN,p ) gegebene stochastische Modell genauer untersucht werden 33. 3. Untersuchung des in Abschnitt 2 eingeführten wahrscheinlichkeitstheoretischen Modells. In der Wahrscheinlichkeitstheorie werden primär gegebene Modelle 34 mathematisch studiert 35. Detaillierte Überlegungen, die reale Meßwerte einschließen, treten in den Hintergrund. Für das in Abschnitt 2 beschriebene Modell werden in der Wahrscheinlichkeitstheorie beispielsweise Kenngrößen wie Erwartungswerte oder Varianzen berechnet oder Sätze bewiesen, die das asymptotische Verhalten bei N → ∞ oder p → 0 charakterisieren. Auf erhobenen konkreten Daten basierende Überlegungen insbesondere zur Bestimmung des Parameters p = pw , der ein spezielles Produktionsverfahren charakterisiert, werden in der Statistik vorgenommen 36. Am Anfang einer wahrscheinlichkeitstheoretischen Untersuchung der Zufallsvariablen 37 ZN ergibt sich beispielsweise: • Erwartungswert von Z N . N hn X k k oi EN,p [ZN ] = 38 PN,p ω ∈ ΩN : ZN (ω) = (8) N| N } {z k=0 = 39 PN,p [ZN = k/N ] 30Wenn man die Zufallsvariablen Y , i = 1, . . . , N , als eine Gesamtheit (Y ) i i i=1,...,N betrachtet, erhält man ein einfaches Beispiel eines stochastischen Prozesses. Im allgemeinen sind stochastische Prozesse (Yt )t∈T Familien Yt , t ∈ T, von Zufallsvariablen, die durch eine Menge T ⊆ R indiziert sind, welche als ein Bereich von Zeitpunkten betrachtet werden kann. Stochastische Prozesse dienen u.a. der Modellierung dynamischer, vom Zufall beeinflußter Vorgänge. 31Es sei angenommen, daß die Tests in aufeinanderfolgenden Zeitpunkten durchgeführt werden. Aufgrund von (6) ist in diesem Zusammenhang die Identifizierung der Folge der Zufallsvariablen Yi , i = 1, . . . , N , mit dem stochastischen Prozeß (Yi )i=1,...,N naheliegend, vgl. Fußnote 30. 32 Für jede mögliche Stichprobe ω ∈ ΩN ist z.B. mit ZN (ω) die relative Anzahl der defekten Produktionsstücke gegeben. 33Aus diesem Grund ist es auch sinnvoll, alle oder zumindest eine als wichtig erachtete Familie von Zufallsvariablen zusammen mit dem Wahrscheinlichkeitsraum (ΩN , FN , PN,p ) als wahrscheinlichkeitstheoretisches Modell zu bezeichnen. 34 Insbesondere werden i. allg. sämtliche Parameter, wie hier z.B. p, als zwar beliebig, aber fest vorgegeben betrachtet. 35 Beispielsweise werden Sätze bewiesen, Verbesserungen und Verallgemeinerungen gesucht oder Verbindungen zu anderen Teilgebieten der Mathematik hergestellt. 36Allgemein ist die mathematisch fundierte Entwicklung geeigneter Methoden zur Datenauswertung eine Aufgabe der Statistik. 37Vgl. (7). 24. Oktober 2007 6 N 1 X kPN,p [Ak ] N k=0 N X N 41 1 = pk (1 − p)N −k k N k k=1 | {z } N! N −1 =k =N k!(N − k)! k−1 N X N − 1 k−1 =p p (1 − p)N −1−(k−1) k−1 k=1 {z } | N −1 X N −1 = pl (1−p)N −1−l = (p + (1−p))N −1 = 1 l = 40 = 42 l=0 p. • Varianz von Z N . VarN,p (ZN ) = = 43 EN,p (ZN − EN,p [ZN ])2 N X k=0 = ... = 44 (9) 2 k − p PN,p [ZN = k/N ] N 1 p(1 − p). N 38Der Erwartungswert E[X] einer Zufallsvariablen X ist charakterisiert als ein gewichtetes Mittel über den Wertebereich von X. Die Gewichte sind hierbei gegeben durch die Wahrscheinlichkeiten, mit der die jeweiligen Werte von X angenommen werden, d.h. durch die Verteilung von X. Der Erwartungswert existiert, wenn jenes gewichtete Mittel wohldefiniert ist. Das ist z.B. für integrable, bzw. für nicht-negative Zufallsvariable der Fall. Um die zugrunde liegenden Parameter N und p, d.h. den Bezug zum Wahrscheinlichkeitsmaß PN,p hervorzuheben, wird hier die Notation EN,p [. . . ] benutzt. 39 Dies ist eine abkürzende Schreibweise. 40 Vgl. (1). Insbesondere ist {ω ∈ ΩN : ZN (ω) = k/N } = Ak , k = 1, . . . , N . 41 Vgl. (5). 42 Eine einfachere Begründung von (8) wäre folgende: (a) Die Zuordnung X → E[X], die jeder Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P), die einen Erwartungswert besitzt, diesen Erwartungswert E[X] zuordnet, ist ein linearer Operator, d.h. es gilt E[αX + βY ] = αE[X] + βE[Y ], X, Y Zufallsvariable, α, β ∈ R. (b) Bei Berücksichtigung von (7) folgt somit EN,p [ZN ] = N 1 X EN,p [Yi ], N i=1 wobei die Zufallsvariablen Yi , i = 1, . . . , N , in (6) eingeführt wurden. (c) Aufgrund von (2) ist EN,p [Yi ] = PN,p [Yi = 1] · 1 + PN,p [Yi = 0] · 0 = p, i = 1, . . . , N. (d) Zusammenfassend folgt nun EN,p [ZN ] = N 1 X p = p. N i=1 Durch wenige simple Berechnungen wie in (c) und (d) und ein allgemeines Resultat der Stochastik, genauer der Maßtheorie, wie in (a) erübrigen sich somit aufwendigere, langweilige Berechnungen wie bei der obigen Herleitung von (8). 24. Oktober 2007 7 • Asymptotik von Z N 45. Die Beziehungen (8) und (9) besagen, daß die Schwankungen der Zufallsvariablen ZN um ihren Erwartungswert p mit wachsendem N immer kleiner werden. Mit Hilfe eines allgemeinen Resultats aus der Wahrscheinlichkeitstheorie, der Čebyšev’schen Ungleichung 46 1 P |X − E[X]| ≥ ǫ ≤ 2 Var(X), X Zufallsvariable, ǫ > 0, (10) ǫ läßt sich diese Aussage genauer fassen. Es ergibt sich die Konvergenz von ZN gegen p bei N → ∞ in der Form 1 (11) PN,p |ZN − p| ≥ ǫ ≤ 2 VarN,p (ZN ) ǫ 1 N →∞ = 2 p(1 − p) −−−−→ 0, ǫ > 0. ǫ N Das in (11) beschriebene Konvergenzresultat ist auch als schwaches Gesetz der großen Zahlen bekannt 47 48. 43Die Varianz Var(X) einer Zufallsvariablen X ist definiert als der Erwartungswert der quadratischen Abweichung von X von ihrem Erwartungswert E[X]. Sie charakterisiert die Größe der Schwankungen von X um E[X]. Nicht für alle Zufallsvariablen X ist Var(X) < ∞. 44 Zur Begründung von (9) könnte man detaillierte Berechnungen wie bei der obigen Herleitung von (8) durchführen. Andererseits könnte mit Hilfe allgemeiner Zusammenhänge der Wahrscheinlichkeitstheorie auch wie folgt argumentiert werden. P (a) Gemäß (7) ist ZN = (1/N ) N i=1 Yi eine gewichtete Summe der Zufallsvariablen Yi , i = 1, . . . , N . In Übereinstimmung mit der Modellannahme (ii) in Abschnitt 1 sind diese Zufallsvariablen (stochastisch) unabhängig. (b) Für unabhängige Zufallsvariable X und Y auf einem Wahrscheinlichkeitsraum (Ω, F, P) und α, β ∈ R gilt allgemein die Beziehung: Var(αX + βY ) = α2 Var(X) + β 2 Var(Y ). (c) Wegen (2), weil EN,p [Yi ] = p, i = 1, . . . , N , vgl. Fußnote 42(c), und wegen der Linearität des Operators EN,p [.], vgl. Fußnote 42(a), ergibt sich: VarN,p (Yi ) = EN,p [(Yi − p)2 ] = EN,p [Yi2 ] − 2EN,p [Yi ]p + p2 = p − p2 = p(1 − p), i = 1, . . . , N. (d) Zusammenfassend folgt (9), d.h. VarN,p (ZN ) = N N 1 X 1 X 1 Var (Y ) = p(1 − p) = p(1 − p). i N,p N 2 i=1 N 2 i=1 N 45Im Rest dieses Abschnitts 3 ist N nicht mehr fest, sondern kann beliebige Werte in N an- nehmen. Um insbesondere große N zu behandeln, wird der Grenzübergang N → ∞ diskutiert. 46In (10) sollte Var(X) < ∞ vorausgesetzt werden. Die Čebyšev’sche Ungleichung ist eine der vielen Ungleichungen, die in den mathematischen Untersuchungen in der Stochastik unverzichtbar sind. 47Es gibt auch ein starkes Gesetz der großen Zahlen für Z , N ∈ N. Die beiden Varianten des N Gesetzes der großen Zahlen unterscheiden sich durch den jeweils zur Feststellung der Konvergenz von ZN gegen p verwendeten Konvergenzbegriff. Während bei der Formulierung des schwachen Gesetzes der großen Zahlen wie in (11) die stochastische Konvergenz benutzt wird, findet beim starken Gesetz der großen Zahlen die fast-sichere Konvergenz Verwendung. Die hier genannten und auch andere Konvergenzbegriffe werden in der Maßtheorie genauer untersucht. U.a. werden dort die Beziehungen zwischen den unterschiedlichen Konvergenzkonzepten verdeutlicht. So folgt beispielsweise die stochastische Konvergenz aus der fast-sicheren. Daher impliziert das starke Gesetz der großen Zahlen das schwache, wodurch insbesondere die gewählte Namensgebung gerechtfertigt wird. 48 In einer allgemeineren Form wird beim Gesetz der großen Zahlen die Konvergenz N 1 X N→∞ Xk −−−−→ E[X1 ] N k=1 für unabhängige, identisch verteilte, integrable Zufallsvariablen X1 , X2 , . . . nachgewiesen. 24. Oktober 2007 8 • Fluktuationen von Z N bei N → ∞. Eine Präzisierung der durch (11) beschriebenen Konvergenz von ZN wird durch den Zentralen Grenzwertsatz gegeben. Während das Gesetz der großen Zahlen ohne Angabe einer N →∞ Konvergenzgeschwindigkeit nur besagt, daß ZN − p −−−−→ 0 bzgl. eines geeigneten Konvergenzbegriffs, identifiziert √ der Zentrale Grenzwertsatz diese Konvergenzgeschwindigkeit als ∼ 1/ N . In einer genauen Formulierung √ wird festgestellt, daß die mit N skalierten Fluktuationen von ZN um den Erwartungswert p für N → ∞ normalverteilt sind, d.h. 49 50 51 52 p (12) lim PN,p N/p(1 − p)(ZN − p) ∈ [a, b] N →∞ Z b 1 dx exp(−x2 /2), a, b ∈ R, a < b. = √ 2π a 4. Ein statistisches Modell. Entsprechend der Aufgabe, die Qualität des Produktionsverfahrens zu prüfen, sei jetzt angenommen, daß • diesem Produktionsprozeß eine wahre“, allerdings unbekannte Fehlerwahr” scheinlichkeit pw zugeordnet ist, und daß somit • aufgrund von Qualitätskontrollen vorliegende Prüfungsergebnisse y1 , . . . , yN mit ( 1, falls das i-te Produktionsstück fehlerhaft ist, yi = i = 1, ..., N, 0, sonst, Realisierungen 53 der Zufallsvariablen Yi , i = 1, . . . , N , auf dem Wahrscheinlichkeitsraum (ΩN , FN , PN,pw ) sind. Die Aufgabe besteht nun darin, pw zu schätzen, wobei nur die empirisch bestimmten Daten y1 , . . . , yN der Schätzung zugrundegelegt werden können. Bei der Lösung der Aufgabe findet sich ein Statistiker in folgender Situation 54: 49Die Normalverteilung N(µ, σ2 ) mit Erwartungswert µ und Varianz σ2 ist ein Wahrscheinlichkeitsmaß auf R, das einem Intervall [a, b], −∞ ≤ a < b ≤ ∞, jeweils die Wahrscheinlichkeit R (2πσ2 )−1/2 ab dx exp(−(x − µ)2 /2σ2 ) zuordnet. Die Verteilung N(0, 1), die auf der rechten Seite von (12) auftaucht, wird als standard Normalverteilung bezeichnet. 50 Mit (12) wird ein weiterer, in der Stochastik üblicher Konvergenzbegriff vorgestellt, nämlich die sog. Konvergenz in Verteilung. Diese Namensgebung wird verständlich, wenn bedacht wird, daß ˆ ˜ die Größen P X ∈ [a, b] , a, b ∈ R, a < b, die Verteilung einer Zufallsvariablen X kennzeichnen. p Durch (12) wird festgehalten, daß bei N → ∞ die Verteilung der Zufallsvariablen N/p(1 − p) (ZN − p) gegen die standard Normalverteilung N(0, 1), vgl. Fußnote 49, konvergiert. 51 In einer allgemeineren Form besagt der Zentrale Grenzwertsatz, daß für unabhängige, identisch verteilte, quadratintegrable Zufallsvariablen X1 , X2 , . . . mit Varianz σ2 die Verteilung der Zufallsvariablen ! r N 1 X N ηN = X − E[X ] , N = 1, 2, . . . , 1 k σ2 N k=1 bei N → ∞ gegen die standard Normalverteilung N(0, 1) konvergiert. 52 Als Präzisierung des Gesetzes der großen Zahlen (11) besagt der Zentrale Grenzwertsatz (12) p N→∞ zumindest formal, daß ZN ∼ p + p(1 − p)/N Z, wobei Z eine normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 1 ist. 53Eine Realisierung einer Zufallsvariablen X auf einem Wahrscheinlichkeitsraum (Ω, F, P) ergibt sich als X(ω) nach Auswahl eines zufälligen, dann aber als fest betrachteten ω ∈ Ω. 54Der Statistiker sei aufgrund der Auskünfte der am Produktionsprozeß beteiligten Personen mit den Modellannahmen (i) und (ii) in Abschnitt 1 einverstanden. Weiterhin akzeptiere er aufgrund seiner fachlichen Kompetenz das in Abschnitt 2 eingeführte und in Abschnitt 3 untersuchte wahrscheinlichkeitstheoretische Modell der Gesamtheit der möglichen Prüfungsdaten für die einzelnen Produktionsstücke. Letztendlich sei er aufgrund seiner fachlichen Erfahrung der Auffassung, daß nach der Prüfung einer festen Anzahl N von Produktionsstücken zur Einschätzung der Verarbeitungsqualität, d.h. zu einer vernünftigen Schätzung pc w von pw , nur die Kenntnis der Anzahl 24. Oktober 2007 9 • Es gibt eine Menge XN = {0, 1, 2, . . . , N }, die die möglichen Werte für die Anzahl der fehlerhaften Produktionsstücke umfaßt. XN wird Stichprobenraum genannt 55. • Die σ-Algebra GN = Pot(XN ) der Teilmengen von XN beschreibt die Ereignisse, auf denen der Statistiker seine Entscheidungen aufbaut. • Auf dem meßbaren Raum (XN , GN ) gibt es mit (QN,p )p∈[0,1] eine Familie von Wahrscheinlichkeitsmaßen. Für eine zugrundeliegende Fehlerwahrscheinlichkeit p beschreibt QN,p die zugehörige Wahrscheinlichkeitsverteilung der Anzahl fehlerhafter Produktionsstücke bei N Stichproben. Aufgrund von (5) gilt QN,p = B(N, p), p ∈ [0, 1], (13) wobei B(N, p) die Binomialverteilung mit den Parametern N und p ist. Die Struktur (XN , GN , (QN,p )p∈[0,1] ) ist ein Beispiel eines statistischen Modells 56. In jeder Anwendungssituation ist die Bestimmung eines derartigen Modells die erste Aufgabe eines Statistikers. Seine mathematischen Überlegungen kann er dann im Rahmen dieses Modells ausführen. 5. Statistische Untersuchungen auf der Basis des in Abschnitt 4 bestimmten Modells. 57 In der Realität sind die Ziele und die Methoden statistischer Überlegungen stark von der konkreten Anwendungssituation abhängig. Für den vorliegenden Fall der Prüfung der Verarbeitungsqualität sollen drei typische Fragestellungen und ihre jeweilige Lösung durch Methoden der Statistik vorgestellt werden. • Schätzung der Fehlerwahrscheinlichkeit pw . Ein Verfahren zur Bestimmung eines Schätzers pc w basiert auf dem sog. Maximum-LikelihoodPrinzip: Für eine beobachtete Anzahl x fehlerhafter Produktionsstücke wird pc w dadurch charakterisiert, daß unter der zugehörigen Verteilung, d.h. unter 58 der Binomialverteilung QN,b c , jener Wert x die maximale w) pw = B(N, p 59 60 Wahrscheinlichkeit hat . pc w löst somit N x N x N −x p (1 − p)N −x . (14) c = sup pc w) w (1 − p x x p∈[0,1] fehlerhafter Produktionsstücke aber keiner weiteren Details wie der genauen Reihenfolge ihres Auftretens, notwendig ist. 55In der hier betrachteten speziellen Situation, in der nicht das detaillierte Ergebnis der Prüfung von N Produktionsstücken, sondern nur die Anzahl der fehlerhaften Teile von Interesse ist, wird es sinnvoll, mit XN einen Stichprobenraum zu wählen, der übersichtlicher“ ist als der in den ” Abschnitten 2 und 3 benutzte Stichprobenraum ΩN . 56Genaugenommen liegt hier ein parametrisches Modell mit dem Parameterbereich Θ = [0, 1] vor. Θ kennzeichnet die unterschiedlichen Wahrscheinlichkeitsverteilungen QN,p , p ∈ [0, 1], die als mögliche Kandidaten für die real zugrundeliegende Wahrscheinlichkeitsverteilung QN,pw der Daten in Frage kommen. 57 In diesem Abschnitt sei die Anzahl N der geprüften Produktionsstücke fest. 58Vgl. (13). 59Unter allen möglichen p ist also der beobachtete Wert x für jenes pc am wahrscheinlichsten“. w 60In einer etwas allgemeineren Formulierung mit einem statistischen ”Modell (X, G, (Q ) p p∈Θ ), wobei X höchstens abzählbar und G = Pot(X) sei, ist bei einer Anwendung des MaximumLikelihood-Prinzips zu x ∈ X eine Lösung pb = pb(x) von Qpb[{x}] = sup Qp [{x}] p∈Θ zu suchen. Für ein festes x ∈ X bezeichnet man übrigens die Funktion Θ ∋ p → Qp [{x}] ∈ [0, 1] als Likelihood-Funktion zum Beobachtungswert x. 24. Oktober 2007 10 Als Maximum-Likelihood-Schätzer, d.h., als Lösung von (14), ergibt sich mit 61 x pc (15) w = N die relative Anzahl der defekten Produktionsstücke in der auszuwertenden Stichprobe vom Umfang N . Der Schätzer pc w ist insofern zunächst unbefriedigend, als mit ihm keine Angabe über seine Zuverlässigkeit verbunden ist. • Konfidenzbereich für pw 62. Eine Schätzung für pw gewinnt an Vertrauenswürdigkeit durch die Angabe eines möglichst kleinen sog. Konfidenzbereichs, innerhalb dessen mit einer hinreichend großen Sicherheit“ 63 dieses ” pw erwartet werden kann. Eine sinnvolle Vorgehensweise besteht darin, – zunächst ein Irrtumsniveau s ∈ (0, 1) 64 zu wählen und dann – eine Zuordnung XN ∋ x → C(x) = [pu (x), po (x)] ⊆ [0, 1] zu bestimmen, so daß für alle x das jeweilige Intervall C(x) möglichst klein ist und – für jedes mögliche pw ∈ [0, 1] bzgl. des zugehörigen Wahrscheinlichkeitsmaßes QN,pw höchstens mit Wahrscheinlichkeit s solche x beobachtet werden, für die C(x) 6∋ pw gilt 65. Wegen (13) sollte daher X N sup px (1 − p)N −x ≤ s (16) x p∈[0,1] x=0,1,...,N C(x)6∋p gelten 66 . 61Zur Lösung von (14) ist das Maximum der Likelihood-Funktion p → `N ´px (1 − p)N−x , bzw. x in einer äquivalenten Formulierung das Maximum der Log-Likelihood-Funktion `` ´ x ´ ` ´ p → log N p (1 − p)N−x = log N + x log(p) + (N − x) log(1 − p) = Fx (p) x x zu suchen. (15) ergibt sich nun aus N −x x x − = 0 ⇐⇒ p = , p 1−p N x N −x Fx′′ (p) = − 2 − < 0, p ∈ (0, 1), p (1 − p)2 Fx′ (p) = und lim Fx (p) = lim Fx (p) = −∞. pց0 pր1 62In den folgenden Überlegungen wird auf die Frage des Herstellers nach einer möglichst zuverlässigen und objektiven Einschätzung der Verarbeitungsqualität seines Produkts eingegangen. 63Eine derartige Phrase muß natürlich mathematisch gefaßt werden. 64Man könnte auch von einem Sicherheitsniveau 1 − s sprechen. 65Damit wären die Aussagen p 6∈ C(x) für höchstens s · 100 % aller Beobachtungen x“ und ” w pw ∈ C(x) für mindestens (1 − s) · 100 % aller Beobachtungen x“ zutreffend. Diese Aussagen sind ” dann unabhängig vom genauen Wert von pw korrekt. 66In einer allgemeineren, im Rahmen eines statistischen Modells (X, G, (Q ) p p∈Θ ) gewählten Formulierung sollte die Zuordnung X ∋ x → C(x) ⊆ Θ so bestimmt werden, daß ˆ ˜ sup Qp {x ∈ X : C(x) 6∋ p} ≤ s. p∈Θ 24. Oktober 2007 11 Für einen festen Beobachtungswert x und nach der Bestimmung von C(x) kann nun der Statistiker sein Ergebnis in der folgenden Form präsentieren: Mit einer Sicherheit von mindestens (1 − s) · 100 % liegt pw in dem ” Intervall C(x)“ 67. Auf die konkrete Bestimmung eines Konfidenzintervalls C(.) wird in Anhang . . . eingegangen. • Testen einer Hypothese 68. Die Gefahr, eine vereinbarte maximale Fehlerwahrscheinlichkeit p1 unbemerkt zu überschreiten, soll unter einem vorgegebenen, gerade noch akzeptablen Niveau bleiben. In einem systematischen statistischen Verfahren besteht – ein erster Schritt darin, ein Irrtumsniveau t ∈ (0, 1) festzulegen. – Für das noch genauer zu bestimmende Entscheidungsschema, einen sog. Test φ, mit 69 ( 0, falls p ≥ p1 angenommen wird 70, XN ∋ x → φ(x) = (17) 1, falls p < p1 vermutet wird 71, sollte dann einerseits die maximale Irrtumswahrscheinlichkeit bei einer zu großen Fehlerquote nicht größer als t sein 72, d.h. 73 74 X N x p (1 − p)N −x ≤ t, (18) sup x p∈Θ0 {x∈XN :φ(x)=1} wobei Θ0 = {p ∈ [0, 1] : p ≥ p1 } als Nullhypothese 75 bezeichnet wird. (19) 67Die häufig umgangssprachlich verwendete Aussage Mit einer Wahrscheinlichkeit von (1 − ” s) · 100 % liegt pw in dem Intervall C(x)“ ist unpräzise und irreführend, da sie suggeriert, daß pw zufällig ist, was nicht der Fall ist. 68Eine Problemstellung wie die nun diskutierte kann für den Hersteller dann relevant werden, wenn er zur Vermeidung von Regreßforderungen der Kunden beim Unterschreiten einer vorgegebenen Qualitätsgrenze, bzw. beim Überschreiten einer festen Fehlerwahrscheinlichkeit, informiert werden will. 69Bei der genauen Bestimmung von φ(.) werden die Mengen A = {x ∈ X : φ(x) = 0} und 0 N A1 = {x ∈ XN : φ(x) = 1} = XN \ A0 spezifiziert. 70Der Statistiker, der die Datenauswertung vornimmt, kommt zum Ergebnis, daß die Fehlerwahrscheinlichkeit p1 überschritten wird. Er schlägt nun dem Betrieb vor, Verbesserungen im Produktionsprozeß vorzunehmen. 71 Der Statistiker kommt zum Schluß, daß die Fehlerwahrscheinlichkeit p1 nicht erreicht wird. Der Produktionsprozeß könnte dann beibehalten werden. 72Die maximale Wahrscheinlichkeit für einen sog. Fehler 1. Art sollte das Niveau t nicht überschreiten. 73 In einem allgemeineren, im Rahmen eines statistischen Modells (X, G, (Qp )p∈Θ ) formulierten Problem sollte für eine gegebene Nullhypothese Θ0 ⊆ Θ der Test φ : X → {0, 1} so bestimmt werden, daß sup Qp [{x ∈ X : φ(x) = 1}] ≤ t p∈Θ0 gilt. Analog zu (17) hat auch hier φ die Bedeutung ( 0, falls Θ0 akzeptiert wird, φ(x) = 1, falls Θ0 abgelehnt wird, 74 x ∈ X. Ein Statistiker könnte für (18) folgende Formulierungen wählen: Die Nullhypothese Θ0 wird ” in höchstens t·100 % aller Fälle übersehen“ oder auch die Nullhypothese wird mit einer Sicherheit ” von mindestens (1−t)·100 % erkannt“. Eine Verwendung des Wortes Wahrscheinlichkeit“ anstelle ” von Sicherheit“ wäre unpräzise, da sie eine nicht vorhandene Zufälligkeit von p suggerieren würde. ” 75 Die Gültigkeit der Nullhypothese Θ0 sollte nur auf einem geringen Irrtumsniveau unentdeckt bleiben, da ihr Übersehen mit hohen Kosten verbunden sein kann. 24. Oktober 2007 12 – Andererseits sollte auch im Fall einer eigentlich akzeptablen Fehlerquote p < p1 die entsprechende Irrtumswahrscheinlichkeit möglichst klein sein 76, d.h. 77 X N x p (1 − p)N −x (20) x {x∈XN :φ(x)=0} !! = minimal für den zu suchenden Test φ, falls p < p1 . Die konkrete Bestimmung des Tests φ wird in Anhang . . . vorgenommen. 6. Zusammenfassung. In der Stochastik werden Gesetzmäßigkeiten in zufälligen Vorgängen mathematisch beschrieben. Hierbei wird mit mathematischen Modellen gearbeitet. Im Teilgebiet der Wahrscheinlichkeitstheorie werden die Eigenschaften fest vorgegebener wahrscheinlichkeitstheoretischer Modelle studiert. Im Teilgebiet der Statistik werden im Rahmen statistischer Modelle reale Beobachtungsdaten interpretiert. Während der vorangegangenen Überlegungen wurden u.a. folgende Begriffe, Konzepte und Resultate der Stochastik vorgestellt: • Wahrscheinlichkeitsraum (Stichprobenraum, σ-Algebra der Ereignisse, Wahrscheinlichkeitsmaß) • Zufallsvariable • Stochastischer Prozeß • Unabhängigkeit • Erwartungswert, Varianz • (schwaches bzw. starkes) Gesetz der großen Zahlen • Zentraler Grenzwertsatz • Čebyšev’sche Ungleichung • stochastische bzw. fast-sichere Konvergenz, Konvergenz in Verteilung • Binomialverteilung, Normalverteilung • deskriptive und mathematische Statistik • (parametrisches) statistisches Modell • Maximum-Likelihood-Prinzip, Schätzer • Konfidenzbereich • Testen einer Hypothese • Maß- und Integrationstheorie • ... Diese Begriffe sind von einer Einführung zur Stochastik nicht wegzudenken und werden später immer wieder auftauchen 78. Literatur [1] H.-O. Georgii. Stochastik. De Gruyter, 2002. 76Durch diese Forderung soll der sog. Fehler 2. Art möglichst unwahrscheinlich werden. Die Gefahr eines falschen Alarms soll möglichst klein werden. Damit soll eine evtl. kostenintensive, aber überflüssige Änderung des Produktionsprozesses vermieden werden. 77Für alle p < p soll in der Klasse aller Tests, die (18) erfüllen, das Minimum der linken Seite 1 von (20) durch den zu suchenden Test φ angenommen werden. 78Allerdings ist einzuschränken, daß Begriffe der Statistik wie z.B. Maximum-LikelihoodPrinzip, Schätzer oder Konfidenzbereich durch die Betonung der Wahrscheinlichkeitstheorie etwas in den Hintergrund treten werden. 24. Oktober 2007