Inhaltsverzeichnis 9 Wahrscheinlichkeitstheorie 9.1 Empirische und mathematische Wahrscheinlichkeit – W-Maße . . . . . . . . . 9.1.1 Relative Häufigkeit und Wahrscheinlichkeit . . . . . . . . . . . . . . . 9.1.2 Bedingte Wahrscheinlichkeit und Ereignisgraphen . . . . . . . . . . . . 9.1.3 Totale Wahrscheinlichkeit, Formel von Bayes . . . . . . . . . . . . . . 9.1.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . 9.2 Zufallsvariable und Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Histogramm und Verteilung einer Zufallsvariablen . . . . . . . . . . . 9.2.3 Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V und Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . 9.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2 9.2.6 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen . . . . 9.3 Approximation mathematischer durch empirische Wahrscheinlichkeit . . . . . 9.3.1 Ungleichung von Tschebischeff und das Bernoulliexperiment . . . . . . 9.3.2 Gesetz der großen Zahlen, Zentraler Grenzwertsatz . . . . . . . . . . . 213 213 213 222 224 226 227 227 229 10 Statistik 10.1 Grundlagen und Kurzbeschreibung 10.1.1 Aufgaben der Statistik . . . 10.1.2 Hauptsatz der Statistik . . 10.2 Schätz- und Testverfahren . . . . . 10.2.1 Parameterschätzung . . . . 10.2.2 Intervallschätzung . . . . . 10.2.3 Statistische Testverfahren . 10.3 Kovarianz und lineare Regression . 267 267 267 269 270 270 275 283 289 . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 245 246 248 256 256 262 212 Inhaltsverzeichnis Kapitel 9 Wahrscheinlichkeitstheorie 9.1 9.1.1 Empirische und mathematische Wahrscheinlichkeit – WMaße Relative Häufigkeit und Wahrscheinlichkeit Zunächst beschreiben wir in Definition 2 relative Häufigkeit, auch empirische Wahrscheinlichkeit genannt. Im Zuge der Diskussion des Einführungsbeispiels Beispiel 1 werden jene Annahmen angedeutet, welche zum Begriff Wahrscheinlichkeit führen, und danach die Begriffe endlicher Wahrscheinlichkeitsraum (Definition 4) und Laplace-Wahrscheinlichkeitsraum (Definition 5) eingeführt. Schließlich folgt die axiomatische Beschreibung des Begriffes Wahrscheinlichkeitsraum in Definition 9. Beispiel 1 In einer Versuchsreihe wurde die Häufigkeitsverteilung der Augenzahl x eines Würfels bei mehrmaligem Werfen (x ∈ Ω := {1, 2, 3, 4, 5, 6}) ermittelt. Es wurden die Häufigkeiten für die Augenzahlen in eine Tabelle in Prozenten eingetragen: Augenzahl Prozentsatz 1 16.8% 2 17.3% 3 16.4% 4 16.7% 5 16.2% 6 16.6% Fragen: 1. Wie oft wurde mindestens gewürfelt, wenn man annimmt, daß keine der Prozentzahlen gerundet oder abgeschnitten wurde? 2. Kann die Tabelle stimmen? 3. Mit welcher Häufigkeit wurde eine gerade Augenzahl x geworfen? 4. . . . eine ungerade Augenzahl geworfen? 5. . . . eine ungerade Augenzahl oder 4 geworfen? 6. . . . weder eine 3, noch eine 4 aber eine 5 geworfen? 213 214 Wahrscheinlichkeitstheorie 7. Kann man eine Aussage über die Prozentsätze unter der Annahme, daß man mit n → ∞ geht, machen. Darf man erwarten, daß sie alle gegen 100 6 % streben? Auch wenn im Beispiel ziemlich klar ist, was Häufigkeit in Prozenten“ bedeutet, bedarf ” es einer formalen Definition. Definition 2 Es sei Ω eine Menge, sowie A eine Teilmenge, n eine positive ganze Zahl. und (ω1 , . . . , ωn ) eine n-stellige Folge von Elementen in Ω. Dann wird der Quotient hn (A) := Anzahl der i mit ωi in A n als relative Häufigkeit bezeichnet. Die relativen Häufigkeiten in Beispiel 1 sind demnach A hn (A) {1} 0.168 {2} 0.173 {3} 0.164 {4} 0.167 {5} 0.162 {6} 0.166 weil man durch 100 dividieren muß. Bitte auch zu beachten, daß die Augenzahl jetzt als einelementige Menge angeschrieben ist und daß wir n nicht kennen1 ! Geht man davon aus, daß weder Würfel noch Unterlage manipuliert“ sind, so kann man ” beim einmaligen Werfen kaum eine Aussage über den Ausgang des Wurfes machen. Ein weiterer Aspekt, der in den Fragen 3. 4. und 5. im Beispiel 1 auftritt, ist der, daß man sich dafür interessiert, ob nach dem Wurf die Augenzahl x in einer Teilmenge A von Ω liegt. Anmerkung 3 Die Auswahl eines Elements ω in einer Menge Ω bezeichnet man als Experiment. Man bezeichnet es als zufällig, wenn man davon ausgeht, den Ausgang des Experiments nicht grundsätzlich vorherbestimmen zu können. Jede Teilmenge A von Ω nennt man zufälliges Ereignis. In Beispiel 1 ist Ω = {1, 2, 3, 4, 5, 6}, jeder Wurf in diesem Sinne ein zufälliges Experiment und das Ereignis die Augenzahl ist ungerade“ drückt sich durch das zufällige Experiment ” ” zur Ermittlung von x ∈ Ω hat x ∈ A = {1, 3, 5} ergeben“ aus. In Beispiel 1 ist es klar, daß die relative Häufigkeit dafür, daß x sich in A befindet, die Summe der relativen Häufigkeiten der einelementigen Teilmengen ist, weil man ja einfach Prozente addiert“. Z.B. ist hn ({1, 3, 5}) = ” 16.8+16.4+16.2 = 0.168 + 0.164 + 0.162 = 0.494. Auf diese Art ist Frage 2 beantwortet und man 100 kann es mit Fragen 4–6 genauso machen – werden jedoch in Beispiel 7 etwas mehr Geschick walten lassen. 1 Siehe jedoch Beispiel ?? und dort die Antwort auf Frage 1 9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 215 Definition 4 Ein endlicher Wahrscheinlichkeitsraum (Ω, P ) besteht aus einer endlichen Menge Ω, und, für jedes ω ∈ Ω, einem vorgegebenen Wert 0 ≤ f (ω) ≤ 1, derart, daß die die Gesamtsumme fürP alle ω dieser Werte genau 1 ergibt. Danach ist für jede Teilmenge A von Ω durch P (A) := x∈A f (x) ihr Wahrscheinlichkeitsmaß, kurz W-Maß, gegeben. In diesem Sinne ist Ω = {1, 2, 3, 4, 5, 6} mit f (i) := hn ({i}) aus der obigen Tabelle ein endlicher Wahrscheinlichkeitsraum und die relative Häufigkeit hn (A) ist das W-Maß von A. Definition 5 Ein endlicher Wahrscheinlichkeitsraum, in welchem P ({ω}) = Elementarereignis ω ∈ Ω gilt, heißt Laplace-Wahrscheinlichkeitsraum. Wir vermerken, daß dann stets P (A) = |A| |Ω| . 1 |Ω| für jedes Beispiel 6 Es sei Ω = {1, 2, 3, 4, 5, 6}, wie in Beispiel 1. Danach legt man für jedes Elementarereignis Es wird durch Würfeln der Wert x ∈ {1, 2, 3, 4, 5, 6} ermittelt und er ist i“ mit ” P ({i}) := 61 fest. Dann ist für jede Teilmenge A von Ω das W-Maß durch |A| |6| gegeben. Die Antwort auf Frage 7 wird durch den in Anmerkung 49, dem Satz von Gliwenko-Cantelli gegeben werden. Dieser Satz ist eine wahrscheinlichkeitstheoretische Formulierung dafür, in welchem Sinn bei oftmaligem Wiederholen des gleichen Experiments die empirische Wahrscheinlichkeit gegen die mathematische konvergiert. Das noch zu besprechende Bernoulliexperiment (Beispiel 46) und der zentrale Grenzwertsatz (Anmerkung 48) bilden die Grundlage hiefür. Vom praktischen Standpunkt aus ergeben sich aus dem zitierten Satz statistische Testverfahren in Beispiel 60 1, die bestenfalls einen Sicherheitsfaktor“ für das tatsächliche ” Eintreten eines Ereignisses bestimmen. Die absolute Gewißheit ist jedenfalls auf wahrscheinlichkeitstheoretischem Weg nicht nachweisbar. Rechtfertigung (etwa zur Einführung eines neuen Medikaments) kann bestenfalls durch (weitere) Testverfahren in W-theoretischem Sinn untermauert bzw. widerlegt werden. Wenn es wissenschaftliche Methoden ermöglichen, sollten statistische Ergebnisse ( eine signifikant große Zahl Patienten, die das Mittel A eingenom” men haben, melden gewisse Nebenwirkungen“) entsprechende fachspezifische (analytische) Untersuchungen (Medizin, Chemie, etc) nach ziehen. In diesem Sinne sind die Ausführungen in Beispiel 6 eine mathematische Orientierungshilfe zur Beurteilung der Tabelle in Beispiel 1. Würde z.B. die relative Häufigkeit für das Werfen einer 3“ stark von 16 abweichen, so könnte man das als Hinweis auf manipulierte ” ” Würfel oder Unterlage“ auffassen – eine Entscheidung, die, soferne der Würfel einer technischen Untersuchung nicht zugänglich ist (oder die Untersuchung viel zu teuer ist) gelegentlich mittels statistischer Testverfahren (Unterabschnitt 10.1.1) entschieden wird. Bei der Beantwortung der Fragen 3–6 aus Beispiel 1 zeigt es sich, daß man vorteilhaft mittels Mengenoperationen, wie Durchschnitt, Vereiningung und Komplement Rechnen“ kann: ” Beispiel 7 2. Die Prozentzahlen müssen zusammen 100% ergeben. Das tun sie. Wenn man mit relativen Häufigkeiten rechnet, heißt es, daß sie, zusammengezählt, 1 ergeben. 3. Es sind die geraden Zahlen das Komplement der ungeraden Zahlen. Wir haben in der kleinen Rechnung vor Definition 4 hn ({1, 3, 5}) = 0.494 gefunden, also ergibt sich hn ({2, 4, 6} = 216 Wahrscheinlichkeitstheorie 1 − 0.494 = 0.506. Dabei hat man (implizit) die in endlichen W-Räumen (siehe Definition 4) gültige Formel P (A0 ) = 1 − P (A) benützt. 5. Es ist {1, 3, 5, 4} disjunkte Vereinigung von {1, 3, 5} und {4}. Dann addieren sich die Prozentsätze und somit die relativen Häufigkeiten. Also hat man P ({1, 3, 5, 4}) = P ({1, 3, 5}) + 16.7 66.1 P ({4}) = 49.4 100 + 100 = 100 . Hiebei benützt man (implizit) die in diskreten W-Räumen gültige Formel P (A ∪ B) = P (A) + P (B), falls A ∩ B = ∅. 6. Man kann das de Morgansche Mengengesetz A0 ∩ B 0 = (A ∪ B)0 für die Mengen A := {3} und B := {4} und {5} ∪ {3}0 ∩ {4}0 verwenden. Dann ist {5} ∪ ({3}0 ∩ {4}0 ) = {3, 4}0 , sodaß sich P ({5} ∪ ({3}0 ∩ {4}0 )) = 1 − P ({3, 4}) = 1 − 0.164 − 0.167 = 0.669 ergibt. Zugegeben, kaum ein Rechenvorteil! Bisher hatten wir nur endliche W-Räume. Das nächste Beispiel soll motivieren helfen, auch unendliche W-Räume zu formulieren. Beispiel 8 Ein Sandkorn wirbelt, konvektionsbedingt, über einem quadratischen Mikrochip und bleibt danach zufällig“ darauf liegen. Es soll im folgenden die Ausdehnung des Sandkorns ” als vernachlässigbar angesehen werden, es somit als Punkt“ angesehen werden. Wir stellen ” folgende Fragen, deren Präzisierung und Antwort in Beispiel 12 erfolgen soll. 1. Wie groß ist die Wahrscheinlichkeit dafür, daß das Sandkorn genau im Mittelpunkt des Chips liegt? 2. . . . in einer der vier Ecken liegt? 3. . . . in einem fest vorgegebenen Teilquadrat mit halber Seitenlänge liegt? 4. . . . in einer Teilfläche, die wie folgt konstruiert wird liegt: Über dem unteren linken Viertelquadrat wird ein Achtelquadrat, darüber ein Sechzehntelquadrat (jeweils Faktor 1 4 ) errichtet, usw. Zur (Er)klärung mathematischer Begriffe. Sei Ω das Einheitsquadrat (man denke sich die Längeneinheit entsprechend gewählt), so besteht jedes Elementarereignis darin, daß ein Punkt X(x, y) aus Ω gewählt wird. Es sei nun A eine Teilfläche2 von Ω und A(n) die Anzahl der Fälle, in denen bei n-maliger Ausführung des Experiments das Korn in A zu liegen kommt. Man erwartet nun, daß für eine Fläche A die relative Häufigkeit, die gemäß Definition 2 sich zu A(n) hn ({X(x, y) ∈ A}) = n ergibt, nahe am Flächeninhalt liegt (ähnlich wie man in Beispiel 6 die empirische W. approximativ gleich der mathematischen erhofft). Somit erscheint es sinnvoll, hier die mathematische Wahrscheinlichkeit eines Ereignisses A durch den Flächeninhalt zu definieren. Man setzt somit P (X(x, y) ∈ A) = P (A) :=Fläche 2 genauer, eine solche mit wohldefiniertem Flächeninhalt – d.h. Jordanmeßbar bzw. Lebesguemeßbar 9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 217 von A und nennt P (A) (mathematische) Wahrscheinlichkeit für das Eintreten des Ereignisses X(x, y) kommt zufällig in A zu liegen“. ” Somit ergibt sich als Antwort zu Frage 1 und 2 jeweils der Wert Null. In Frage 3 bekommt man 41 . In Frage 4 ergibt sich wegen der Disjunktheit der Quadrate unter Benützung der Bezeichnung Q(a) für ein Quadrat der Seitenlänge a P (A) = ∞ X i=1 X ∞ 1 1 1 = = . P Q i i 2 4 3 i=1 Um die Zufälligkeit“ von Ereignissen mathematisch zu behandeln, konstruiert man (ein men” gentheoretisches Modell), d.i. einen Wahrscheinlichkeitsraum Ω, der alle Elementarereignisse beschreibt, sowie ein Wahrscheinlichkeitsmaß P , das für eine brauchbar große Klasse Σ (sogenannter meßbarer Ereignisse) von aus (durchaus unendlich vielen) Elementarereignissen zusammengesetzten Ereignissen eine mathematische Wahrscheinlichkeit angibt. Bei oftmaliger Wiederholung ein und des selben Experiments erwartet man eine Annäherung der relativen Häufigkeit jedes meßbaren Ereignisses an die mathematische Wahrscheinlichkeit, wie wir bei der Diskussion des Bernoulliexperiments in Beispiel 46 deutlich zu machen beabsichtigen. Hier die Forderungen an so ein Tripel (Ω, Σ, P ): Definition 9 Ein Wahrscheinlichkeitsraum (Ω, Σ, P ), kurz W-Raum besteht aus folgenden Daten: 1. Einer Menge Ω der Elementarereignisse. Jede Teilmenge von Ω heißt Ereignis. Ein zufälliger Versuch“ besteht in der Auswahl eines Elementes x ∈ Ω. ” 2. Einer Menge Σ von Teilmengen von Ω, genannt Menge der meßbaren Ereignisse. Jede Menge A ∈ Σ steht für das Ereignis in zufälliger Weise wird ein x ∈ Ω bestimmt, und ” dieses x liegt dann in A“. Die Menge Σ sei eine Σ-Algebra, d.h.: (a) Ω gehört zu Σ. (b) Wenn die Teilmenge A zu Σ gehört, so auch das Komplement A0 := Ω \ A (A0 heißt das zu A komplementäre Ereignis). (c) Wenn A1 , A2 , . . . eine unendliche Folge von Elementen in Σ ist, so auch die abzählbare Vereinigung ∞ [ Ak = {x | ∃k mit x ∈ Ak }. k=1 3. Einer Funktion P : Σ → [0, 1], welche die nachstehenden Eigenschaften erfüllt: (a) Es ist P (Ω) = 1. (b) Für jedes meßbare Ereignis A gilt P (A0 ) = 1 − P (A). 218 Wahrscheinlichkeitstheorie (c) Falls A1 , A2 , . . . eine Folge meßbarer Ereignisse ist, und weiters je zwei Mengen Ai , Aj disjunkt sind (d.h. Ai ∩ Aj = ∅), so gilt: P( ∞ [ k=1 Ak ) = ∞ X P (Ak ). k=1 Man sagt, P ist sigmaadditiv. Insbesondere (als Spezialfall) gilt für disjunkte Mengen A und B die Additivität, d.h. P (A ∪ B) = P (A) + P (B). Man nennt P auch (mathematische) Wahrscheinlichkeitsfunktion (P wie Probability“ ” bzw. Probabilität“) und P (A) die (mathematische)Wahrscheinlichkeit für das Eintre” ten des Ereignisses A. Falls Σ = P(Ω) (es ist P(M ) stets die Potenzmenge im Sinne von Definition ??) und es eine abzählbare Teilmenge A von Ω mit P (A) = 1 gibt, heißt das Maß diskret. S Die Mengenoperationen ∪, ∞ k=1 , ∩ und Komplementbildung werden im Sinne von logischen Operationen mit den Ereignissen beschreibenden Klausen interpretiert: Anmerkung 10 1. das Ereignis A als x wird zufällig in Ω gezogen und befindet sich ” in A“. Dann ist P (A) als Wahrscheinlichkeit für das Eintreffen des Ereignisses A zu interpretieren. 2. A0 = {x ∈ Ω | x 6∈ A} als das Ereignis A tritt nicht ein“. ” 3. A ∩ B = {x ∈ Ω | (x ∈ A) ∧ (x ∈ B)}, somit als zufälliges Ereignis Es tritt sowohl ” A als auch B ein“. Ist A ∩ B = ∅, so sagt man Die Ereignisse A und B schließen einander aus.“ oder ” auch daß sie unvereinbar“ sind. ” 4. A ∪ B = {x ∈ Ω | (x ∈ A) ∨ (x ∈ B)}, somit als zufälliges Ereignis Es tritt ” wenigstens A oder B ein“. S 5. ∞ k=1 Ak = {x ∈ Ω | ∃k x ∈ Ak } als ”Wenigstens eines der Ereignisse Ak tritt ein“. Es kann folgendes gezeigt werden: Anmerkung 11 In einem diskreten W-Raum mit der abzählbarenSTeilmenge A, welche P (A) = 1 erfüllt, muß offenbar P (A0 ) P = 0 sein. Da außerdem A = a∈A {a} eine abzählbare Partition von A ist, gilt P (A) = a∈A P ({a}). Deshalb darf man von A annehmen, daß jeder Punkt a ∈ A positives Maß hat. 9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 219 Ist (Ω, f, P ) ein diskreter Wahrscheinlichkeitsraum im Sinne Definition 4, und Σ die Menge aller Teilmengen von Ω, so ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum im Sinne von Definition 9. Beispiel 12 Es sollen Antworten zu den in Beispiel 8 gestellten Fragen gegeben werden. Als Ω wählt man das Einheitsquadrat also Q := {(x, y) ∈ R × R | 0 ≤ x, y ≤ 1}. Dieser Wahrscheinlichkeitsraum ist nicht endlich. Die Σ-Algebra Σ sollte aus berechenbaren Flächen“ ” bestehen. Die einfachsten solchen Flächen sind natürlich Rechtecke innerhalb von Q. Nun wird im Rahmen der Maßtheorie (siehe z.B. [8]) gezeigt, daß diese Rechtecke durch iteriertes Bilden von Komplement, abzählbaren Vereinigungen und endlich oftmaligem Schneiden auf eine Σ-Algebra (nämlich der Menge der in Q enthaltenen Borelmengen) von Teilmengen des Quadrats führen, die ausreichend groß ist, um dort unsere einfach gebildeten Mengen der Aufgabe wiederzufinden. Im Zuge der Aufgabe ist es wichtig zu wissen, daß unter den getroffenen Annahmen der für solche Mengen definierte Flächeninhalt folgende Eigenschaften hat: 1. Punkte und, allgemeiner, abzählbare Mengen haben Maß Null. 2. Geradenstücke haben Maß Null. 3. Dreht oder verschiebt man A, und sind Anfangs- und Ausgangslage Flächen innerhalb Q, so bleibt der Flächeninhalt erhalten. 4. Ist A eine Teilmenge von Q, deren charakteristische Funktion, definiert durch ξA (x, y) = 1 falls (x, y) ∈ A und Null andernfalls, (uneigentlich) Riemannintegrierbar ist (eine solche Menge heißt Jordanmeßbar), so gehört A zu Σ. Mit diesem Wissen ausgestattet, ist P ({( 21 , 12 )}) = 0 und das gilt auch für alle vier Eckpunkte, z.B. P ({(0, 0)}) = 0. Nun zur Vereinigung der aufeinandergestellten Quadrate. Zunächst sollte man prüfen, ob die gesamte Figur in Q Platz hat. Dazu darf die Summe aller Seitenlängen 1 1 1 1 + + ... = 2 4 21− 1 2 =1 nicht größer als 1 sein, was offenkundig der Fall ist. Nun kommt noch eine Spitzfindigkeit: Die Quadrate haben keinen paarweise leeren Schnitt, sondern scheiden einander in einem Geradenstück. Dieses hat Maß Null. Entfernen wir alle solchen Schnitte (bestehend aus abzählbar vielen Geradenstücken, also insgesamt einer Menge vom Maß Null), so bekommen wir eine Vereinigung randloser“ Quadrate, deren paarweise ” 1 1 Schnitte leer sind, und deren Inhalte eine geometrische Folge { 41 , 16 , 64 , . . .} bilden, sodaß die Sigmaadditivität und die geometrische Summenformel auf P (A) = 14 1−1 1 = 13 führen. 4 220 Wahrscheinlichkeitstheorie Laplaceraum Kodieren Ω1 := {A, B}, Ω2 := {0, 1}, 1 für OKAY Ausfall, wenn mindestens eine Sicherung fliegt. Als Ereignisraum kann man Paare (A± , B ± ) versuchen, wobei ‘−’ kaputte Sicherung bedeute. Zunächst hat man für Urne U1 den W-Raum Ω1 := {A ⊂ {w1 , w2 , s1 , s2 , s3 } | |A| = 2} und für U2 hat man Ω2 := {A ⊂ {w, b1 , b2 , b3 , b4 , b5 } | |A| = 2}. Danach bildet man die disjunkte Vereinigung Ω := Ω1 ∪ Ω2 , wobei die Wahrscheinlichkeit von Elementarereignisses, die von U1 stammen, 1 × “15” bzw. für U2 12 × “16” sein 2 Werfen von 3 gleichen Münzen. Wahrscheinlichkeit, daß wenigstens einmal Zahl erscheint. Maschine A hat 3% Ausschuß und produziert 70%, B 1% und produziert den Rest. Wahrscheinlichkeit für Ausschuß der Gesamtproduktion? Sicherungen A und B fallen mit 3 bzw. 1 Prozent aus. Wahrscheinlichkeit für Stromausfall? Urnen 1,2. In U1 sind 2w und 3 s Kugeln, in U2 sind es 1 w und 5 s Kugeln. Wahrscheinlichkeit dafür, bei zufälliger Wahl von U1 oder U2 und danach Auswahl von 2 Kugeln 1w und 1s Kugel in Händen zu haben. 2 — Würfeln mit 2 Würfeln. Augensumme=9 2 Laplaceraum Würfeln mit Würfel. Wahrscheinlichkeit für Werfen von Primzahl muß. Anmerkung Text P(Ω) {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} {K, Z}×{K, Z}× {K, Z} {(A+ , B − ), (A− , B + ), (A− , B − )} {{wi , sj } | i = 1, 2 ∧ j = 1, 2, 3} ∪ {{w, bj } | j = 1, 2, 3, 4, 5} P(Ω) P(Ω) P(Ω) {(A+ , B + ), (A+ , B − ), (A− , B + ), (A− , B − )} siehe links {(3, 6),(4, 5), (5, 4), (6, 3)} {Z} × {K, Z} × {K, Z} ∪ {K} × {Z} × {K, Z} ∪ {K} × {K} × {Z} {(A, 0), (B, 0)} A {2, 3, 5} Ω1 × Ω2 P(Ω) Σ P(Ω) Ω {1, 2, 3, 4, 5, 6} + 2 8 = + 1 9 1 8 = 7 8 1 6 1 5 2 × (5) + 2 × (6) = 2 2 · · · = 19 ≈ 0.317 60 97 P (A) = 1 − 100 × 99 = · · · = 100 0.0397, d.h. 3.97% 0.7 × 0.03 + 0.3 × 0.01 = 0.024 4 8 4 36 1 2 P (A) 9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 221 222 9.1.2 Wahrscheinlichkeitstheorie Bedingte Wahrscheinlichkeit und Ereignisgraphen Bei der bedingten Wahrscheinlichkeit geht es kurz gesagt darum, daß man in einem W-Raum (Ω, Σ, P ) zwei Ereignisse A und B betrachtet, derart, daß P (A) 6= 0 ist. Nun fragt man, mit welcher Wahrscheinlichkeit das Ereignis B in jenen Situationen eintritt, wo A eingetreten ist. Z.B. kann A das Ereignis ein zufällig aus dem Stall Ω gegriffenes Kaninchen hat weiße ” Ohren“ und B das Ereignis ein aus dem gleichen Stall zufällig gegriffenes Kaninchen hat ” rote Augen“. Die bedingte Wahrscheinlichkeit P (B|A) gibt die Wahrscheinlichkeit dafür an, unter den Kaninchen mit weißen Ohren eines mit roten Augen zu finden. Sind z.B. 100 Hasen im Stall, also Ω = {1, . . . , 100} so könnte man sich eine Situation wie die folgende vorstellen: rote Augen keine r. A. weiße Ohren 10 30 40 keine w.O. 5 55 60 15 85 100 Also 10 Hasen haben weiße Ohren und rote Augen, etc. Somit ist die Wahrscheinlichkeit 10 P (B|A) = 40 , weil es 40 weiße Hasen und darunter 10 mit roten Augen gibt. Wären die obigen 15 60 Zahlen Prozent- statt Absolutzahlen gewesen, so hätte man P (A ∩ B) = 100 , P (A) = 100 1 und es wäre P (B|A) mit der gleichen Motivation der Wert 4 entstanden. So kommt man zur üblichen Definition der bedingten Wahrscheinlichkeit: Definition 13 Es sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum (siehe Definition 9) und A, B meßbare Ereignisse mit P (A) 6= 0. Die reelle Zahl P (B|A) := P (A ∩ B) P (A) heißt bedingte Wahrscheinlichkeit für das Auftreten des Ereignisses B unter der Annahme, daß A tatsächlich eingetreten ist. Es kann folgender Sachverhalt gezeigt werden, der die Bezeichnung bedingte Wahrscheinlichkeit rechtfertigt: Anmerkung 14 Ist (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und A ein meßbares Ereignis mit P (A) 6= 0, so wird durch B 7→ P (B|A) = P P(A∩B) ein Wahrscheinlichkeitsmaß (A) definiert. Die häufigste unmittelbare Anwendung besteht darin, festzustellen, ob ein Ereignis A das Ereignis B bedingt. Etwa, wenn A in der Verabreichung einer Impfung und B die Heilung einer bestimmten Erkrankung bedeutet. Dazu wählt der Mediziner aus einer Menge Erkrankter, die er behandelt, eine Gruppe, die ein Placebo, und einen anderen Teil, dem er A verabreicht. Danach errechnet er P (B|A), bzw. P (B 0 |A) mittels Prozentzahlen. Die Mediziner müssen eine Norm festlegen, inwieweit P (B|A) > P (B 0 |A) die Wirksamkeit des Medikaments plausibel erscheinen läßt. 9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße P (s|A)= 61 P (A)= 12hhh4A hh hhhh h h A 123 h ¿ VV 1 B 202 VVVPVV(B)= VVVV2 V* 0 223 1 12 P (w, A) = 16 P (r, A) = 14 s 023 P (s, A) = P (w|A)= 62 ```````````0 w 113 123 ````````` P (r|A)= 36 0 r 122 1 1 P (s|B)= 2 0 s 120 P (s, B) = 4 aaaaaaaaaaaaaaaa a a a a B 220 P (r|B)= 21 1 / r 210 P (r, B) = 4 Abbildung 9.1: Ereignisgraph zu Beispiel 15 Im nächsten Beispiel sollen bedingte Wahrscheinlichkeiten in einem Experiment mit Kugeln, die aus Urnen gezogen werden, ein Experiment, wie es auch Laplace, Bernoulli und andere betrachtet haben, behandelt werden. Die bei der Lösung des Beispiels verwendete graphische Darstellung wird gelegentlich als Ereignisgraph“ bezeichnet und verdeutlicht die ” Konstruktion von Ω aus vorgegebenen W-Räumen. Er veranschaulicht die Rolle der bedingten Wahrscheinlichkeit. Beispiel 15 Auf einem Tisch stehen die Urnen A und B. Die Urne A enthält 1 s(chwarze), 2 w(eisse) und 3 r(ote) Kugeln. Urne B enthält ebensolche Kugeln, allerdings 2 s und 2 w. Es soll nun zufällig eine Urne gewählt, und danach aus dieser Urne zufällig eine Kugel gezogen werden. Wie hoch ist die Wahrscheinlichkeit dafür, daß diese Kugel s ist? Naiv betrachtet, könnte jemand sagen, Alles in allem, das Verhältnis von s zu allen wähl” 3 baren Kugeln ist wie 3 zu 10, also sollte diese Wahrscheinlichkeit 10 = 0.3 sein.“ Das ist nicht einsichtig, weil ja die Chance, bei Wahl von Urne A im ersten Durchgang eine schwarze Kugel zu erwischen lediglich 61 ist. Im zweiten Fall ist sie 12 . Es liegt viel näher, 12 16 + 12 12 = 13 ≈ 0.33 zu nehmen. Um das besser zu verstehen, verwenden wir die Zeichnung Fig. 9.1. Dort sieht man zunächst die Wahl von A oder B und danach die möglichen Wahlen von Kugeln. Die rechte Spalte enthält, richtig gelesen, eine Kodierung von Ω, nämlich Ω = ({A, B} × {s, w, r}) \ {(B, r)}. Die Beschriftung der rechten Pfeile (es wurde absichtlich nicht gekürzt!) sind bedingte Wahrscheinlichkeiten der Form P(Elementarereignis in {r, s, w}|A) bzw. B. Deshalb sind die äußerst rechts stehenden Wahrscheinlichkeitswerte jene der Elementarereignisse in Ω – das ist im Einklang damit, Ω als Laplace-Wahrscheinlichkeitsraum aufzufassen und abzuzählen“. Insbe” sondere ist die in Definition 13 gegebene Formel für bedingte Wahrscheinlichkeit zu erkennen, wenn man die Wahrscheinlichkeiten jeweils hintereinanderliegender Pfeile multipliziert. 224 Wahrscheinlichkeitstheorie 9.1.3 Totale Wahrscheinlichkeit, Formel von Bayes Anmerkung 16 Es sollen {Ai | i ∈ I} und B Ereignisse in eiem W-Raum sein, derart daß die Ereignisse Ai ∩ B einander ausschließen3 , d.h. daß Ai ∩ Aj ∩ B = ∅ für i 6= j gilt, S und B = i∈I Ai ∩B ist, also {Ai ∩B | i ∈ I} eine Partition von B im Sinn von Definition ??. Weiters soll P (Ai ) > 0 für alle i ∈ I sein. Dann gelten die folgenden Aussagen: Satz von der totalen Wahrscheinlichkeit: X X P (B) = P (Ai ∩ B) = P (B|Ai )P (Ai ), i∈I i∈I wobei der Mittelteil der Herleitung als Folgerung der Sigmaadditivität (Definition 9) und Benützen von Definition 13 dient. Reziprozität: Ist P (B) > 0, so ist wegen Definition 13 stets P (Ai |B)P (B) = P (B|Ai )P (Ai ). Formel von Bayes: Es ist P (Ai |B) = P (Ai )P (B|Ai ) P (Ai )P (B|Ai ) , =P P (B) i∈I P (B|Ai )P (Ai ) wobei der mittlere Teil lediglich der Herleitung der Formel aus der Reziprozität und danach Einsetzen in die Formel von der totalen Wahrscheinlichkeit für P (B) dient. Beispiel 17 • Wer mag, kann die Formeln anhand von Beispiel 15 nachvollziehen. Sind z.B. A := Es wird eine Kugel in A gezogen“, B := Es wird eine Kugel in B gezogen“ ” ” und s := Es wird eine schwarze Kugel gezogen“, so findet man P (A) = 12 = P (B) und ” 1 P (s) = 12 + 14 = 13 . Nun findet man, den Ereignisgraphen verwendend, 1 11 11 = P (s) = P (s|A)P (A) + P (s|B)P (B) = + . 3 62 22 Wie groß ist P (A|s) lt. Definition 13, danach gemäß Bayesscher Formel, und wie interpretiert man das? 1/12 1 Antwort: Es ergibt sich P (A|s) = P P(A∩s) (s) = 1/12+1/4 = 4 . Interpretation: ”Man geht davon aus, daß die gezogene Kugel s ist und fragt nach der Wahrscheinlichkeit dafür, daß sie aus Urne A stammt.“ Die Bayessche Formel ergibt im Einklang: P (A|s) = 3 P (s|A)P (A) = P (s|A)P (A) + P (s|B)P (B) 11 62 11 62 + 11 22 1 = . 4 In der Literatur findet man gelegentlich die stärkere Bedingung Ai ∩ Aj = ∅ falls i 6= j. 9.1. Empirische und mathematische Wahrscheinlichkeit – W-Maße 225 • Maschinen X,Y und Z erzeugen die gleiche Art elektronischer Bauteile mit unterschiedlicher Fehleranfälligkeit und Anteil an der Gesamtproduktion. Wie groß ist die Wahrscheinlichkeit für das Eintreten des jeweils aufgelisteten Ereignisses: X Y Z 1. Ein Teil wird zufällig entnommen % Anteil Gesamt- 30 50 20 und wurde von X produziert? produktion 2. Ein Teil wird zufällig entnommen % Ausschuß 2 4 1 und das Teil ist fehlerhaft? der jeweiligen 3. Ein Teil aus den fehlerhaften wird Produktion zufällig entnommen und wurde von X produziert? Antwort: Es sollen X, Y, Z dafür stehen, daß das Teil von jeweils einer dieser Maschinen produziert worden ist. F soll heißen fehlerhaft“. ” 30 = 0.3. 1. Aus der Tabelle entnimmt man P (X) = 100 2. Es ist F = (X ∩ F ) ∪ (Y ∩ F ) ∪ (Z ∩ F ) eine Partititon von F , also ist P (F ) = P (X ∩ F ) + P (Y ∩ F ) + P (Z ∩ F ). Allerdings kennt man z.B. P (X ∩ F ) nicht. Die zweite Zeile der Tabelle ist im Sinne bedingter Wahrscheinlichkeiten interpretierbar, 2 = 0.02. Etwas formaler: P (F |X) = 0.02. z.B. P( Teil ist F und stammt von X“)= 100 ” Deshalb kann man P (X ∩F ) = P (F |X)P (X) = 0.3×0.02 ermitteln. Ähnlich entnimmt man der Tabelle die anderen Werte und es ergibt sich P (F ) = 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 = 0.028, also nicht ganz 3 v.T. Teilen sind im Schnitt als fehlerhaft zu erwarten.“ ” 3. Hier wird nach P (X|F ) gefragt, weil man von Haus aus“ annimmmt, ein fehlerhaftes ” Bauteil herauszugreifen und Schuldige sucht. Beim Anwenden von Definition 13 hätte ) man P (X|F ) = P (X∩F P (F ) , jedoch kennt man den Wert von P (X ∩ F ) nicht. Verwenden der Reziprozität und die Kenntnis von P (F ) = 0.28 aus 2. ergibt sofort P (X|F ) = P (F |X)P (X) 0.3 × 0.02 3 = = ≈ 0.214. P (F ) 0.28 14 Wäre P (F ) noch nicht bekannt, und lediglich P (X|F ) gefragt, so benützte man die Bayessche Formel: P (X|F ) = = P (F |X)P (X) P (F |X)P (X) + P (F |Y )P (Y ) + P (F |Z)P (Z) 0.3 × 0.02 0.006 = ≈ 0.214. 0.3 × 0.02 + 0.5 × 0.04 + 0.2 × 0.01 0.028 226 Wahrscheinlichkeitstheorie 9.1.4 Unabhängigkeit von Ereignissen Wenn zwei Ereignisse A und B vorliegen, P (A) 6= 0 ist, und P (B|A) = P (B) gilt, so bedeutet es, daß offenbar das Ereignis B unter jenen Fällen, wo A eintritt, gleichwahrscheinlich ist, wie in der Gesamtheit Ω aller Ereignisse. Wenn sich etwa in Anmerkung 14 herausstellt, daß der Prozentsatz an Heilungen unter den geimpften Patienten gleich jenem der Heilungen unter allen Probanden (also einschließlich der nicht geimpften) ist, so sagt man, daß die Ereignisse A und B einander nicht bedingen bzw., daß sie unabhängig sind. Für P (A) 6= 0 sind P (B|A) = P (B) und P (A ∩ B) = P (A)P (B) gleichwertig, wie man aus Definition 13 sofort erkennt. Ist jedoch P (A) = 0, so ergibt die letztere Charakterisierung immer noch einen Sinn. Deshalb ist folgende Definition üblich: Definition 18 Zwei meßbare Ereignisse A, B eines Wahrscheinlichkeitsraumes heißen unabhängig, falls P (A ∩ B) = P (A)P (B) gilt. T Eine endliche Folge (A | i ∈ I) von Ereignissen heißt unabhängig, falls P ( i i∈J Ai ) = Q i∈J P (Ai ) für jede Teilmenge J von I gilt. Anmerkung 19 Sind A und B meßbare Ereignisse und ist P (A)P (B) > 0 so sind folgende Aussagen gleichwertig: • A und B sind unabhängig, • P (A|B) = P (A). • P (B|A) = P (B) • P (A ∩ B) = P (A)P (B). • A0 und B sind unabhängig. • A0 und B 0 sind unabhängig. Insbesondere ist die Relation A und B sind unabhängig“ symmetrisch. ” Anmerkung 20 • Im Beispiel mit den Hasen war A weißohrig“ und B rotäugig“. Die ” ” Wahrscheinlichkeit dafür, unter den weißohrigen Hasen einen rotäugigen zu finden, war 40 15 40×15 3 P (B|A) = 41 , P (A) = 100 , P (B) = 100 . Somit ist P (A) × P (B) = 100×100 = 20 < 14 . A und B sind nicht unabhängig. Dies wird in der Praxis als Indiz dafür gewertet, daß weißohrige Hasen eher zu Rotäugigkeit neigen“. ” Es ist stets P (B|A) ≥ P (A)P (B), je deutlicher die Differenz ausfällt, desto stärker wird es als Indiz gewertet. Danach würde man versuchen, mit anderen (etwa biologischen, medizinischen, etc) Methoden tieferen Zusammenhängen auf den Grund zu gehen. • Ein offenkundiges Beispiel für Unabhängigkeit von Ereignissen A und B beim Werfen von Würfeln W1 und W2, sind A = W1 zeigt eine 6“ bzw. B = W2 zeigt 1,3 ” ” 9.2. Zufallsvariable und Verteilungen 227 oder 5“. Dann ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {6} × {1, 2, 3, 4, 5, 6}, B = {1, 2, 3, 4, 5, 6} × {1, 3, 5} und A ∩ B = {6} × {1, 3, 5}. Jedes Elementarereignis (i, j) ist gleichwahrscheinlich, also liegt ein Laplaceraum im Sinne von Definition 5 vor. Hieraus ergibt sich durch Abzählen von A, B und A ∩ B und anschließender Division 3 1 = 12 . Die in Dedurch |Ω| = 36, daß P (A) = 16 , P (B) = 63 = 12 und P (A ∩ B) = 36 finition 13 geforderte Gleichung P (A ∩ B) = P (A)P (B) besteht. Die Intuition“, daß ” die beiden Würfelergebnisse unabhängig“ im Sinne von einander nicht beeinflussen“ ” ” sind, spiegelt sich in der Erfülltheit dieser Gleichung wieder. • Eine hinterhältige Variation des vorigen Beispiels: Würfeln mit 2 Würfeln und Ereignis A besteht darin, daß wenigstens 1 Würfel eine ungerade Zahl zeigt, das Ereignis B darin, daß wenigstens ein Würfel 6 zeigt. Es ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}, A = {1, 3, 5} × {1, 2, 3, 4, 5, 6} ∪ {2, 4, 6} × {1, 3, 5} und B = {1, 2, 3, 4, 5} × {6} ∪ {6} × {1, 2, 3, 4, 5, 6}. Weiters ist A ∩ B = {1, 3, 5} × {6} ∪ {6} × {1, 3, 5}. Aus diesen Daten 9 5 1 11 3 3 1 = 27 ergibt sich sofort P (A) = 36 + 36 36 , P (B) = 36 + 6 = 36 , und P (A∩B) = 36 + 36 = 6 11 1 11 Die famose Gleichung besteht nicht, weil P (A)P (B) = 27 36 36 = 48 > 6 = P (A ∩ B) ist, also sind die Ereignisse A und B nicht unabhängig. 9.2 9.2.1 Zufallsvariable und Verteilungen Zufallsvariable Die Idee der Zufallsvariablen ist die einer Zahl (eines Vektors), der auf einem W-Raum definiert ist, und der Wert durch ein zufälliges Experiment ermittelt wird. Ein einfaches Beispiel: Es ist Ω eine Personengruppe von 100 Leuten, man wählt eine Person zufällig aus und bestimmt die Schuhgröße (eine Zahl). Ein anderes Beispiel: Die 100 Personen beschließen, Darts auf eine Kreisscheibe zu werfen. Nun wird jeder Person der Zufallsvektor aus den beiden Koordinaten des Darts zugeordnet (ein Vektor also). Hier ist die formale Definition: Definition 21 Ist (Ω, Σ, P ) ein Maßraum, so nennt man eine Abbildung X : Ω → Rn eine zufällige Variable oder auch stochastische Variable mit Werten im Rn . Sie heißt diskret, wenn sie höchstens abzählbar viele Werte annehmen kann. Ist f : Rn → Rm , so ist f X eine stochastische Funktionder Zufallsvariablen X, die gelegentlich auch als f (X) geschrieben wird. Sie heißt meßbar, wenn jede Menge der Form X −1 (B) = {ω ∈ Ω | X(ω) ∈ B} für jede Borelmenge B in Σ ist. (Wenn Ω diskret ist, so ist jedes X meßbar.) Beispiel 22 Einige konkrete Beispiele mögen der Anschauung dienen: X / n R BB BB f B f X BB! ΩB Rm 228 Wahrscheinlichkeitstheorie 1. Es sei (Ω, Σ, P ) durch Ω := {1, 2, 3, 4, 5, 6}, Σ := P(Ω) und P (ω) := 61 gegeben (Werfen mit einem Würfel). Nun spielt Spieler S gegen die Bank B, indem für jedes Spiel von S ein Euro an B geht, und bei einem Wurf von 6 5 Euro von B an S gehen. Der Gewinn X von S kann nun durch X(ω) := −1 falls ω 6= 6 und X(6) := 5 definiert werden. Dieses X ist eine Zufallsvariable, ihr Wert wird durch das Zufallsexperiment des Würfelns festgelegt. Die Zufallsvariable ist diskret. 2. Es sei (Ω, Σ, P ) durch Ω := {(x, y) ∈ R2 | x2 + y 2 ≤ 502 }, Σ die Borelmengen innerhalb von Ω und P der übliche Flächeninhalt“. Man denke an das Werfen mit Darts (oh” ne jedoch eine weitere Unterteilung der Scheibe vorzunehmen). Nun kann vereinbart werden, daß Gewinn nach der Formel p x2 + y 2 < 10 10 falls X(x, y) := −1.5 sonst ausbezahlt wird, wobei (in der Formel schon berücksichtigt) einmal Werfen 1 Euro 50 Cent kostet. Auch dieses X darf als Zufallsvariable angesehen werden, denn ihr Wert wird durch das durchaus als Zufallsexperiment ansehbare Werfen eines Darts ermittelt (so genau weiß man ja doch nicht, wo der Dart hingeht!). Die Zufallsvariable ist diskret. 3. Aus sündteurem Material stellt jemand Würfelchen mit der Kantenlänge 1µm her, es gibt aber zufällige Schwankungen dieser Länge (und wir nehmen einfachheitshalber an, es werden keine Quaderchen, Parellelepipedchen oder sonst was erzeugt). Gemessen wird die tatsächliche Kantenlänge, sodaß man Ω = R und P das übliche Längenmaß wählt. Was den Hersteller eher interessieren dürfte ist nicht, wie die Kantenlänge schwankt, sondern, aus Kostengründen, schaut er sich die zufällige Variable X(x) := x3 an. Die Zufallsvariable ist nicht diskret. Sie kann als stochastische Funktion der Zufallsvarablen X(ω) = ω ∈ Ω := R angesehen werden, nämlich, für f (x) := x3 hat man f X(ω) = ω 3 . 4. Jemand möchte, um ein ähnliches Beispiel zu formulieren, die Gravitationskonstante unter der Annahme des Fallgesetzes s = g2 t2 ermitteln. Er mißt s und t und erzeugt annahmehalber für t ∈ [0, 10] (in Sekunden) eine Menge von Datenpunkten in [0, 10]×R. Nun interessiert ihn die Zufallsvariable X : [0, 10] × R → R, nämlich X(t, s) := 2s , t2 weil diese Größe der Gravitationskonstanten entspricht. Da es eine Meßreihe ist, darf man von zufälligen Ergebnissen ausgehen. X ist nicht diskret. Hier kann X als stochastische Funktion von ω := (s, t) ∈ [0, 10] × R = Ω angesehen werden, wobei f (s, t) = 2s ist. t2 9.2. Zufallsvariable und Verteilungen 229 5. Die Spannung an einem Gleichstromgenerator werde während eines festgewählten Zeitraums [0, T ] gemessen und als Kurve (die mit guter Näherung eine horizontale Gereade sein sollte) in einem (t, U )-Diagramm aufgezeichnet. Demnach bietet es sich an, Ω := [0, T ], Σ die Borelmengen, und schließlich das übliche Längenmaß b − a für ein Intervall [a, b] (auch wenn die physikalische Deutung Zeit“ ist) zu verwenden. ” Danach könnte man U : [0, T ] → R als Zufallsvariable ansehen, wenn man kleine Schwankungen nicht als systematische Fehler ansehen will. U ist nicht diskret. Nun könnte jemand bei bekanntem Widerstand R auf die Idee kommen I(U ) := U R als U (t) stochastische Funktion anzusehen. Korrekterweise ist das I ◦U (t) := R , und hier sieht x mit einer Zufallsvariablen U (t). man die Zusammensetzung der Funktion f (x) := R 6. Das einfachste Beispiel einer Zufallsvariablen liegt dann vor, wenn Ω ⊆ Rn ist, denn dann kann die identische Funktion X(ω) := ω als Funktion von Ω → Rn angesehen werden. Diese Art Zufallsvariablen findet man in Fülle: • Werfen mit einem Würfel. Es ist Ω = {1, 2, 3, 4, 5, 6} und X : Ω → R ist die geworfene Augenzahl. • Messen der Wandstärke. Es ist Ω = [m, M ] ⊂ R, wobei m und M ein vorgegebener Minimal- bzw. Maximalwert sind. X : Ω → R ist die gemessene Wandstärke. • Schießen auf eine Zielscheibe. Hier wird (durchaus zufallsbehaftet) als Ω eine Kreisscheibe und der Treffer als ω ∈ Ω interpretiert. X : Ω → R2 . Solches X ist genau dann diskret, wenn P diskretes Maß im Sinne von Definition 9 ist. 7. Schlußendlich kann in jedem W-Raum (Ω, Σ, P ) für eine beliebige Teilmenge A die Funktion 1 falls ω ∈ A X(ω) := 0 sonst betrachtet werden. Da diese Funktion ihren Wert (Null oder Eins) jedenfalls in R annimmt, ist sie eine Zufallsvariable. Diese Funktion wird als Indikatorfunktion von A bezeichnet. X ist diskret. 9.2.2 Histogramm und Verteilung einer Zufallsvariablen Histogramme trifft man sehr häufig (etwa in der medialen Berichterstattung) an. Angenommen bezüglich einer Erhebung über die Schuhgröße einer Gruppe von 100 Personen ergibt sich folgende Tabelle: Größe Zahl d Personen 36 2 37 3 38 5 39 10 40 25 41 30 42 20 43 4 44 1 230 Wahrscheinlichkeitstheorie Als grafische Darstellung findet man dann etwas von dieser Bauart, ein Histogramm 36 37 38 39 40 41 42 43 44 Die mathematische Idee besteht darin, auf der Menge Ω = {1, . . . , 100} von Personen eine diskrete reelle Zufallsvariable X : Ω → R zu definieren, die lediglich der Werte der gängigen Schuhgrößen fähig ist (deshalb ist sie auch diskret). Die Grafik zeigt nun, wie ” häufig“ die Variable X einen vorgegebenen Wert annimmmt. Genauer gesprochen werden auf der Abszisse die Werte von X und der Ordinate die Häufigkeit aufgetragen, mit der dieser Wert angenommen wird. Hier ist die entsprechende Definition: Anmerkung 23 Für eine im Sinne von Definition 21 diskrete Zufallsvariable X : Ω → Rn ist das Histogramm der Funktionsgraph der Funktion f (~x) := P ({ω ∈ Ω | X(ω) = ~x}. Beispiel 24 Es sollen weitere Beispiele folgen: 1. Ist Ω = {1, 2, 3, 4, 5, 6} ein W-Raum, welcher das Werfen einer Würfels beschreibt, und X(ω) := ω, so liegt ein Laplaceraum im Sinne von Definition 5 vor. Das Histogramm 1 · · · · · · 6 von X ist typisch für einen Laplaceraum. 2. In 1. von Beispiel 22 wurde für 1 Euro gewürfelt und im Falle einer 6 ein Euro ausbezahlt. Somit nimmt X genau die Werte −1 und 5 mit den Wahrscheinlichkeiten 56 und 16 an. De facto kann man das Histogramm zur Beschreibung eines neuen W-Raumes mit den Elementarereignissen Ω0 := {−1, 5} mit Wahrscheinlichkeiten P 0 ({−1}) = 65 und P 0 (5) = 61 auffassen. 1 2 3 4 5 6 5 6 1 6 · · X = −1 X=5 / 3. Im 2.ten Beispiel mit den Darts in Beispiel 22 ist es ähnlich. Es ist Ω0 = {−1.5, 10} 2 10 2 und P 0 ({−1.5}) = 1 − 50 und P 0 ({10}) = 10 50 , das Histogramm sieht dem vorigen sehr ähnlich. 9.2. Zufallsvariable und Verteilungen 231 4. Beim Werfen mit zwei unabhängigen Würfeln interessiert man sich lediglich für die Zufallsvariable X : {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} → R, definiert durch X(ω1 , ω2 ) := ω1 + ω2 , die Augenzahl. Man stelle sich z.B. vor, daß die Höhe des möglichen Gewinns das 10fache dieser Summe in Euro ist. Wie groß ist die Wahrscheinlichkeit dafür, daß jemand mindestens 70 Euro gewinnt? Statt eines Histogramms mit 36 Werten für die Häufigkeiten der Elementarereignisse reicht jetzt das nachstehende Histogramm, in welchem die Wahrscheinlichkeiten (in Zwölfteln) für P (X = ω1 + ω2 = i) aufgetragen wurden: • 6/36 • • 5/36 • • 4/36 • • 3/36 • • 2/36 • 1/36 • 2 3 4 5 6 7 8 9 10 11 12 · · · · · · · · · · · Wir sind lediglich an der Zufallsvariablen X interessiert, somit ist der W-Raum Ω0 := {1, 2, . . . , 12} mit dem W-Maß P 0 laut Histogramm ausreichend aufschlußreich (es ist z.B. 7 = 1 + 6 = 2 + 5 = 3 + 4 = 4 + 3 = 5 + 2 = 6 + 1, also P 0 ({7}) = P ({1, 6}) + 6 · · · + P ({(6, 1)} = 36 = 1 ). Damit kann man die obige Frage durch Addition der WahrP12 60 1 7 = 6×7 scheinlichkeiten j=7 P ({j}) = 6+5+4+3+2+1 36 2 36 = 12 ≈ 0.583 beantworten. 5. In 4. von Beispiel 22 will jemand die Gravitationskonstante unter der Annahme von √ s = g2 t2 messen. Die Zufallsvariable X( s, t) hat gemäß der 10 Messungen (alle Sekunden) eine Häufigkeitsverteilung, bei der jeder gemessene Punkt die gleiche Häufigkeit, √ nämlich 1, hat. Deshalb reicht es, das Histogramm als Punktmuster in der ( s, t)-Ebene zu zeichnen, weil man ja auch spekuliert, eine Gerade zu bekommen. Das Histogramm ist hier als Bestätigung des Fallgesetzes von Interesse. In dieser Weise entsteht ein Problem der Ausgleichsrechnung (Anmerkung 63). 6. Es werde mit einem Gewehr auf eine Zielscheibe geschossen (100 Schuß). Danach entsteht eine Punktwolke, das Treffermuster“, etwa wie in der Skizze zu Beginn von Ab” schnitt 10.3 über Kovarianz. Wiederum darf dieses Muster als Histogramm gedeutet werden. Ähnlich wie im vorigen Beispiel gibt das Histogramm Auskunft über das Zufallsexperiment: bei geübtem Schützen, ob das Gewehr zieht“, bzw., wenn das Gewehr ” eingeschossen ist, über die gezeigte Treffsicherheit des Schützen. Statt eines Histogramms benützt der Statistiker eher die Verteilungsfunktion oder kurz Verteilung, die zunächst am Beispiel mit den Schuhgrößen erzählt werden soll. Dabei produziert man folgende Tabelle aus der bereits gehabten Größe Zahl d Personen <36 0 <37 2 <38 5 <39 10 <40 20 <41 45 <42 75 <43 95 < 44 99 < 45 100 232 Wahrscheinlichkeitstheorie Diese Tabelle enthält genau die selbe Information wie das Histogramm, weil man ja alle (relevanten) Schuhgrößen aufgeführt hat und z.B. P ({X = 43}) = P ({X < 44}) − P ({X < 43}) = 0.95 − 0.75 = .20. Es ist offenbar P (X < 43) = .95 die Wahrscheinlichkeit dafür, daß eine zufällig aus der Personengruppe gewählte Person eine Schuhgröße kleiner als 43 hat. Die Besonderheit ist, daß aus der Tabelle eine reellwertige Funktion, die Verteilungsfunktion von X ablesbar ist, deren Graph hier skizziert ist: ◦ •◦ ◦ • ◦ • ◦ • ◦ • ◦ • ◦ • ◦ • •◦ • 36 37 38 39 40 41 42 43 44 45 Dies ist der Graph der Verteilungsfunktion FX (x) der Variablen X (Schuhgröße), die durch FX (x) = P (X(ω) < x) festgelegt ist, also durch die Wahrscheinlichkeit dafür, eine Person zufällig auszuwählen und ihre Schuhgröße ist < x. Die Abszisse ist x und Ordinate der Wert von FX (x). Man beachte die Sprungstellen, aus deren Höhe man das Histogramm rekonstruieren kann. Histogramme sind grundsätzlich an diskrete Zufallsvariable gebunden, weil für eine nicht diskrete Zufallsvariable für alle ~x der Wert P ({ω | X(ω) = ~x}) = 0 sein kann (etwa beim Beispiel des als Punkt gedachten Sandkorns). Verteilungsfunktionen sind hingegen auch für nicht diskrete Zufallsvariable formulierbar. Ist z.B. X die durchaus von (Witterungs)einflüssen abhängige Länge eines Stabes, so darf man annehmen, daß grundsätzlich alle reellen Zahlen als Länge dem Stab zugeordnet werden könnten. Läßt man nun 100 Personen so einen Stab messen, so mißt wohl jede Person eine Länge und man kann wie vorhin Häufigkeiten zählen (wie es tatsächlich in der Meßtechnik gemacht wird). Allerdings sind die gewonnen Zahlen eigentlich kontinuierlich vieler Werte fähig, lediglich unsere Meßverfahren lassen oft nur eine gewisse Anzahl Kommastellen zu und führen dazu, die Variable als diskret anzunehmen. Der 9.2. Zufallsvariable und Verteilungen 233 Meßtechniker zerlegt die reellen Zahlen in kleine, disjunkte, linksabgeschlossene, rechts offene Intervalle, und zählt Häufigkeiten, wie oft das Meßergebnis in eines der Intervalle fällt. Es könnte etwa [1m, 1.001m) ein solches Intervall sein. Wird nun die Genauigkeit erhöht, so müßte er die neuen Messungen irgendwie mit den alten vergleichen können. Hiebei ist die Verteilungsfunktion hilfreich: Definition 25 1-dimensionale Verteilung(sfunktion) Ist X : Ω → R eine 1dimensionale Zufallsvariable auf dem Wahrscheinlichkeitsraum (Ω, P, Σ), und ist X : Ω → R meßbar in dem Sinne daß für alle Zahlen a, b ∈ R mit a < b die Menge {ω ∈ Ω | a ≤ X(ω) < b} zu Σ gehört, so ist Ihre Verteilung FX : R → [0, 1] durch FX (x) := P ({ω | X(ω) < x}) festgelegt. Die Schreibweise FX (x) = P (X < x) ist gebräuchlich, bedeutet jedoch die eben gegebene Definition. Die Meßbarkeitsbedingung ist mathematisch-technischer Natur. Sie ist z.B. erfüllt, wenn Ω eine Teilmenge des Rn und X stetig ist. Die im Schuhgrößenbeispiel“ vorgestellte Verteilung(sfunktion) entspricht genau dieser ” Definition. Anmerkung 26 Das Schuhgrößenbeispiel hilft durchaus, die nachstehenden Eigenschaften einer 1-dimensionalen Verteilung(sfunktion) F = FX einzusehen“. ” 1. F (∞) := limx→∞ F (x) = 1, F (−∞) = 0. 2. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y). 3. F ist linksseitig stetig, d.h. F (x) = F (x− ) := limh→0,h>0 F (x − h). 4. Erfüllt F die Eigenschaften 1.–3., so kann ein W-Raum (R, B, Q), durch Q((a, b)) := F (b) − F (a) für Intervalle und entsprechende Erweiterung auf alle Borelmengen B konstruiert werden, daß F : R → [0, 1] als Zufallsvariable aufgefaßt werden kann und F zudem die Verteilung dieser Zufallsvariablen ist. Rb Ist überdies F stetig differenzierbar mit F 0 = f , so ist4 P (a ≤ X < b) = a f (x) dx = F (b) − F (a). 1 ◦ • ◦ • 0 234 Wahrscheinlichkeitstheorie Die Hilfe für den Meßtechniker, bei Verfeinerung die Meßreihen zu vergleichen, sei hier nur kurz in Worten geschildert: Verfeinert man die Teilung weiter und weiter, so entstehen immer neue Verteilungsfunktionen, welche mehr und mehr Sprungstellen haben, jedoch (beim bißchen Augenzukneifen) immer mehr einer Linie, also stetigen Verteilungsfunktion ähneln, von der man erhofft, daß sie Grenzwert“ bei ständigem Verfeinern ist (etwa so ähnlich wie ” beim Riemannintegral). Eine Präzisierung dieser Idee ist der Hauptsatz der Statistik von Gliwenko-Cantelli (Anmerkung 49). Auch die weiteren, öfter noch benötigten Eigenschaften 1-dimensionaler Verteilungsfunktionen sind am Schuhgrößenbeispiel“ nachvollziehbar. ” Anmerkung 27 Ist F an den Intervallenden a, b stetig, so ergibt sich wegen [a, b) = (−∞, b) \ (∞, a) die Rechnung: PX ([a, b)) = PX ((a, b)) = PX ((a, b]) = P ([a, b]) = F (b) − F (a), also P (a ≤ X < b) = F (b) − F (a). Ist F an der Stelle b unstetig, so ergibt sich PX ([b, b]) = PX ({b}) = F (b+ ) − F (b), insbesondere ist die Wahrscheinlichkeit, daß X den Wert b annimmt, positiv. Dann ergibt sich wegen [a, b] = (−∞, b) \ (−∞, a) ∪ {b} die Rechnung PX ([a, b]) = PX ((−∞, b)) − PX ((−∞, a)) + PX ({b}) = F (b) − F (a) + F (b+ ) − F (b) = P ({b}) + F (b) − F (a), also P (a ≤ X ≤ b) = P ({b}) + F (b) − F (a). Es wird sich in Anmerkung 34 herausstellen, daß zur Berechnung von Erwartungswert, Varianz, Schiefe einer Zufallsvariablen X lediglich Kenntnis von deren Verteilung im Rn erforderlich ist. Schließlich P sollte nicht verschwiegen werden, daß für diskretes P die Funktion F durch F (x) = {ω|X({ω})<x} P ({ω}) und für stetig differenzierbares F mit Rx Ableitung (Verteilungsdichte) f durch F (x) = −∞ f (t) dt darstellbar ist. Ist insbesondere F stetig, so läßt sich für alle Intervalle (a, b] durch P ((a, b]) := F (b) − F (a) ein W-Maß auf R bestimmen. 1 γ_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ · · ·_ _ _ _ _ _ _ _ _· · · 0 b = γ − Quantil b Ist F stetig und streng monoton, so ist die Gleichung α = F (z) für jedes γ ∈ (0, 1) eindeutig lösbar. Die eindeutig bestimmte Lösung heißt γ-Quantil und wird üblicherweise mit zγ bezeichnet. Definitionsgemäß ist dann P (X < zγ ) = γ, d.h., die Wahrscheinlich” keit, daß X einen Wert < zγ annimmt, ist dann γ“. Ist γ = 21 = 0.5, so wird z0.5 als Median, ist γ = 41 = 0.25, so wird z0.25 als Quartil bezeichnet. In der Schätztheorie (siehe 4 als unmittelbare Folgerung des HS der Differential- u. Integralrechnung 9.2. Zufallsvariable und Verteilungen 235 Unterabschnitt 10.2.2) spielen z0.9 , z0.95 , z0.99 , manchmal auch für γ noch näher an 1 liegende Quantile zγ eine Rolle. Bevor mehrdimensionale Verteilungsfunktionen erörtert werden, noch Beispiele zum Vorangegangen. Beispiel 28 Hier Skizzen zu einigen Verteilungsfunktionen, Weitere, wie etwa die Normalverteilung (Skizze von Verteilungsfunktion und Dichte) Beispiel 44s folgen später: 1. In 1. von Beispiel 24, wo X : {1, 2, 3, 4, 5, 6} → R durch X(i) := i definiert war, ergibt sich die Verteilungsfunktion F (x) als Summe aller Elementarwahrscheinlichkeiten 16 , für die ω < x ist, somit: / ◦ 1 ◦ • 5/6 ◦ • 4/6 ◦ • 3/6 ◦ • 2/6 0 falls x ≤ 0 j 1/6 ◦ • j ∈ {1, 2, 3, 4, 5, 6} 6 falls F (x) = ·o •· · · · · · ∧ 0≤j−1<x≤j ≤6 1 2 3 4 5 6 1 sonst. Unstetigkeiten sind an den Stellen 1, 2, 3, 4, 5 und 6, die jeweilige Sprunghöhe“ ist 61 . ” Sichtlich ist F linksstetig. All dies kann ganz unmittelbar aus dem Histogramm abgelesen werden. 2. Auch in 2. von Beispiel 24, wo X(ω) = −1 für ω ∈ {1, 2, 3, 4, 5} und X(6) = 5, liest man die Verteilungsfunktion direkt aus dem Histogramm ab: ◦ 1 5 ◦ • 6 F (x) = 0 5 6 1 x ≤ −1 −1 < x ≤ 5 5<x • −1 · 5 3. (Gleichverteilung auf [a, b], Rechtecksverteilung) Die jetzt zu präsentierende Zufallsvariable ist nicht diskret. Eine zu messende Größe X soll jeden Wert zwischen 0 < a ≤ X(x) < b mit gleicher Wahrscheinlichkeit annehmen können, etwa den Durchmesser einer Scheibe mit Sollgrenzen a und b. Es liegt nahe, Ω := [a, b] und X(ω) := ω zu wählen. Danach ist P ([α, β]) = β−α b−a für jedes in [a, b] enthaltene Intervall [α, β]. Dies vor Augen, erkennt man 236 Wahrscheinlichkeitstheorie 1 F (x) = P ({ω | ω < x}) = 0 x−a b−a 1 x<a a≤x<b b≤x • • · a b Es ist nicht schwierig, die Verteilungsdichte mit f (x) = 0 für x 6∈ (a, b) und f (x) = zu erraten“, weil sie im offenen Intervall (a, b) die Steigung der Geraden ist. ” 1 ◦ • Die vorliegende Verteilung heißt b−a Gleichverteilung auf [a, b], bzw. Rechtecksverteilung, weil ihre Dichtefunktion, die man in den Punkten a, b beliebig definieren darf, ein • · · Rechteck beschreibt: a b · 1 b−a 4. (Massenverteilung als Zufallsvariable). Es sei ρ(x, y) ≥ 0 die Massendichte eines 2 2 Rebenen Bereichs K in R (d.h. einer Teilmenge K des R ) mit Gesamtmasse M = K ρ(x, y) d(x, y) = 1. Nun interessiert uns lediglich der Träger des Maßes, also alle jene Stellen, wo ρ(x, y) > 0 ist (man denke an an die Oberfläche einer Schale K mit Nährlösung und Mikroben, so besteht dieser Träger aus den Mikroben – etwa erkennbar an Verfärbung der Oberfläche, sodaß ρ proportional zum Grad“ der Verfärbung sein ” Rkann). Die Masse einer Borelmeßbaren Teilmenge B ⊆ K ist dann durch P (B) := B ρ(x, y) d(x, y) gegeben. Offenkundig hat P alle Eigenschaften eines W-Maßes auf der Sigmaalgebra aller in K enthaltenen Borelmengen. Interpretation im W-theoretischen Sinn? Antwort: Das Ereignis in der Borelmenge B befindet sich ein Punkt des Trägers von ρ“ ” hat die Wahrscheinlichkeit P (B). Im Mikrobenbeispiel ist P (B) die Wahrscheinlichkeit dafür, in B Mikroben zu finden. M.a.W., die Zufallsvariable X : K → R2 , definiert durch X(ω1 , ω2 ) = (ω1 , ω2 ) hat die Verteilungsdichte ρ. Wenn die Verteilung an einer etwaigen Verfärbung nicht ohneweiters sichtbar ist, steht der zufällige“ Aspekt des Beispiels sicher stärker im Vordergrund, weil man wissen ” will, wie sich z.B. die Kultur ausbreitet. 5. (Quantile) Im folgenden Beispiel sollen Quantile berechnet werden. Im Fall der Gaußschen Normalverteilung, wie sie allermeist in der Statistik vorkommt (Beispiel 44), aber auch bei vielen anderen gebräuchlichen Verteilungen benötigt man dazu Numerik oder Tabellen – man kann nicht in elementarer Weise vorgehen, so wie im vorliegende akademischen Übungsbeispiel“: ” Eine Zufallsvariable X : Ω → R habe die Vertei? 1) ·?(0, lungsdichte fX (x) = 0, falls |x| ≥ 1, und 1 − |x|, ??? ?? ? falls |x| < 1 ist. Man berechne die Verteilungs· · · funktion FX (x), sowie den Median z0.5 und das (−1, 0) (1, 0) 0.99-Quantil z0.99 . 9.2. Zufallsvariable und Verteilungen 237 Rx Antwort(findung): Die Verteilungsfunktion FX (x) = −∞ fX (t) dt. Ist x < −1 so ist Rx Rx FX (x) = 0. Ist nun −1 ≤ x < 0, so ist sichtlich FX (x) = −∞ fX (t) dt = −1 (1 − Rx |t|) dt = −1 (1 + t) dt = 12 (x + 1)2 . Entsprechend ist F (0) = 21 . Für positives x < 1 Rx R0 Rx ist fX (x) = 1 − x und somit ist FX (x) = −∞ fX (t) dt = −1 fX (t) dt + 0 fX (t) dt = R x 1 1 2 2 + 0 (1 − t) dt = 2 (1 + 2x − x ). Da das γ-Quantil jene Abszisse zγ ist, für die die Gesamtfläche γ beträgt, ergibt sich in elementarer Weise z0.5 = 0 (das gilt für jede am Nullpunkt zentrierte, symmetrische Dichte, z.B. auch für N (0, σ), Beispiel 44). Um z0.99 zu bestimmen, muß man die quadratische Gleichung 0.99 = 12 (1 + 2z − z 2 ) lösen, wobei lediglich 1 > z > 0 in Frage kommen kann, weil ja 0 = z0.5 und 0.5 < 0.99 < 1 ist. Die völlig elementare Rechnung ergibt z0.99 ≈ 0.8. Bei symmetrischen Verteilungen mit µ = 0, wie dieser hier, aber auch bei N (0, σ) interessiert man sich im Zuge der Intervallschätzung (siehe Unterabschnitt 10.2.2) bei gegebener Irrtumswahrscheinlichkeit“ α für ein symmetrisches Intervall (−, ) mit ” P (|X| < ) = F () − F (−) > 1 − α. Es sei α := 0.1 und man bestimme ein solches . Antwort: Zunächst ergibt sich sofort FX ()−FX (−) = 12 (1+2−2 )− 12 (1−)2 ) = 2−2 . √ Nun ergibt die Forderung 2 − 2 ≥ 1 − α die äquivalente |1 − | ≤ α, und diese √ Forderung ist für alle ≥ 1 − α ≈ 0.68 erfüllt. Welche W-theoretische Aussage läßt sich nun machen? Antwort: Die Wahrscheinlichkeit, daß eine gemäß unserem FX verteilte Zufallsvariable (definiert auf welchem Ω auch immer, jedoch Werten in R) einen Wert im Intervall (−0.68, 0.68) annimmt, ist zumindest 0.9. Im Falle nicht diskreter Zufallsvariabler X : Ω → Rn (etwa, wenn, wie in Beispiel 22 3., wo U (t) die Zufallsvariable Spannung zum Zeitpunkt t ist, oder wenn, wie in Beispiel 8, n = 2 und X(ω) = (ω1 , ω2 ) die Position des Staubkorns auf dem Chip ist), könnte man grundsätzlich danach fragen, wie groß denn die Wahrscheinlichkeit P ({ω ∈ Ω | X(ω) ∈ I1 × · · · × In }) ist, wobei jedes Ij = [aj , bj ) ein (üblicherweise) halboffenes Intervall ist. Wenn n = 1, so wäre das ein Intervall, für n = 2 ein achsenparalleles Rechteck, für n = 3 ein achsenparalleler Quader. Man kommt mit weniger Information aus, als alle solchen Hyperquader: Dazu benützt man die diesbezüglich wichtigste Eigenschaft der Σ-Algebra der Borelmengen: Für n = 1 kann jedes Intervall [a, b) in der Form [a, b) = (−∞, b) \ (−∞, a) geschrieben werden, und für n = 2 ist (siehe Skizze und beigefügte Legende) [a, b)×[c, d) = ((−∞, c)×(−∞, d)\(−∞, a)×(−∞, d))∪((−∞, b)×(−∞, d)\(−∞, a)×(−∞, c)). (Ähnliches gilt bezüglich Hyperquadern im n-dimensionalen Raum). 238 Wahrscheinlichkeitstheorie Es ist [a, b) × [c, d) das mit ausgezogenen Linien umrandete Rechteck. Das strichlierte Rechteck ist (−∞, a) × (−∞, d), das punktierte (−∞, b) × (−∞, d), und der Durchschnitt der beiden Rechtecke ist (−∞, a) × (−∞, c). d_ c _ _ _ _ _ _ _ _ _ _· · ·a · · ·b Definition 29 Ist X : Ω → Rn eine Rn -wertige Zufallsvariable, und für jedes n-Tupel a = (a1 , . . . , an ) ∈ Rn die Menge {ω ∈ Ω | (∀i) (1 ≤ i ≤ n) ∧ Xi (ω) ≤ ai } in Σ (man sagt X ist Σ − B-meßbar), so nennt man F (a1 , . . . , an ) := P ({ω | X1 (ω) < a1 ∧ . . . ∧ Xn (ω) < an }) = P ({ω | X(ω) ∈ (−∞, a1 ) × · · · × (−∞, an }) = P (X −1 ((−∞, a1 ) × · · · × (−∞, an ))) die Verteilung(sfunktion) von X. Die Meßbarkeitsbedingung ist für diskretes W-Maß P automatisch erfüllt (weil ja dann Σ = P(Ω) ist). Es ist durchaus üblich, in salopper Manier“ P (X ∈ B) := P ({ω | X(ω) ∈ B}) zu schreiben ” und als (Aufenthalts)wahrscheinlichkeit von X in B“ zu interpretieren. ” X −1 / Ist (Ω, Σ, P ) ein W-Raum und X : Ω → R eine Zufallsvariable, Σ B und sind B die Borelmengen, so ergibt sich mit PX := P X −1 das PX P nebenstehende kommutative Diagramm. ! [0, 1] Es erweist sich (R, B, PX ) als W-Raum, wobei man lediglich die Definition von PX hernehmen muß und die Axiome in Definition 9 nachzuvollziehen hat.SZ.B. ist PX (R) = P (X −1 R) = S S P (Ω) = 1, bzw. sind Bi ∩ Bj = ∅ so ist PX ( i Bi ) = P (X −1 ( i Bi )) = P ( i X −1 (Bi )), und da alle X −1 (Bi ) auch paarweise leeren Schnitt haben, ergibt sich weiters X X = P (X −1 (Bi )) = PX (Bi ), i i also ist PX sigmaadditiv. Im Nachfolgenden sollen die wichtigsten Eigenschaften von Verteilungen (der Fall n = 1 ist hier miteingeschlossen) zusammengestellt werden: Anmerkung 30 Es gelten folgende Fakten: 1. F ist in jedem seiner Argumente linksseitig stetig, wenn die übrigen Koordinaten festgehalten werden. 2. F ist in jedem seiner Argumente nicht fallend, wenn die übrigen Koordinaten festgehalten werden. 9.2. Zufallsvariable und Verteilungen 239 3. F strebt gegen Null, bzw. Eins, wenn man mit allen Argumenten gegen −∞, bzw. +∞ geht. 4. Erfüllt F die Eigenschaften 1.–3., so kann durch die Festsetzung Q((−∞, x1 ) × · · · × (−∞, xn )) := F (x1 , . . . , xn ) und entsprechendes Erweitern von Q auf ganz B ein W-Raum (Rn , B, Q) konstruiert werden, derart, daß F die Verteilung der Zufallsvariablen F wird. Entsteht F als Verteilung der Zufallsvariablen X, so ist es üblich, Ω0 := Rn , Σ0 := B, die Borelmengen zu setzen, und das W-Maß PX := Q als durch X auf Rn induziertes Maß zu bezeichnen (in Beispiel 24 ist PX = P 0 jedesmal!). 9.2.3 Grobbeschreibung von Verteilungen: Erwartungswert µ, Varianz V und Schiefe Der Begriff Erwartungswert ist im 17.Jhdt im Zuge der Bewertung von Spielen entstanden. Im 1. von Beispiel 24 wurde X : {1, 2, 3, 4, 5, 6} → R mit X(i) = −1 für i ∈ {1, 2, 3, 4, 5} und X(6) = 5 festgesetzt, und zwar als Verlust bzw. Gewinn. Wenn nun jemand hinreichend oft spielt, so wird er im mit Wahrscheinlichkeiten gewichteten Mittel“ ” X 5 1 X(ω)P ({ω}) = (−1) × + 5 × = 0 6 6 ω Euro gewinnen (allerdings kann es rauf- und runtergehen, dem Spieler also zwischendurch die Luft ausgehen“). Diese Größe ist ein erstes Beispiel eines Erwartungswertes. ” Eine gänzlich andere Deutung der gleichen Daten könnte darin bestehen, in den Punkten 1, 2, 3, 4, 5 jeweils Ladungen der Stärke −1 und im Punkt 6 Ladung der Stärke 5 anzubringen. Danach erweist sich das gewichtete Mittel bei zufälliger Wahl einer Zahl i aus Ω = {1, 2, 3, 4, 5, 6} und notieren der Ladung P ({i}) als im Mittel gefundene“ Ladung. ” In Beispiel 22 5., dem Beispiel mit der Spannung würde der über den Zeitraum [0, T ] gemitR T telte Wert, also E(U ) := T1 0 U (t) dt versucht werden, im Einklang mit der Normalspannung zu halten, vorallem, wenn T von gewisser (offenbar nicht zu großer) Dauer ist. Im Falle Beispiel 28 3., wo mit gleicher Wahrscheinlichkeit eine Zufallsvariable die Werte 0 < a ≤ X(ω) = ω ≤ b annimmt, stellt Z b 1 a+b x dx = · · · = b−a a 2 einen Mittelwert aller möglichen Werte von X(ω) dar. Noch deutlicher ist in Beispiel 28 4., für die Schale mit den Mikroben Z b ω1 ρ(t) dt ω2 a als Mittelwert einzuschätzen, nämlich als Ort, um welchen herum die Mikroben sich zu konzentrieren erwartet werden. 240 Wahrscheinlichkeitstheorie Das nun folgende Beispiel verdeutlicht diese Auffassung und erlaubt die Interpretation des Erwartungswertes einer vektorwertigen Zufallsvariablen als Massenmittelpunkt wie in der klassischen Mechanik. Dieses Bild von Massenverteilung“ kann hilfreich sein, vorallem in ” Abschnitt 10.3, wo es um die Kovarianz geht. Beispiel 31 Es sei M eine Teilmenge im R3 . Zunächst soll diese Menge abzählbar sein und aus Vektoren bestehen, d.h., M = {~xi | i ∈ N}. Angenommen, jedes ~xi ist die Position eines Massenpunkts mit der Masse mi , derart daß X mi = 1 i ist (Gesamtmasse = 1). Dann lernt man, daß X ~ := S mi ~xi i der Massenmittelpunkt des Systems ist. In dieser Form erlaubt das eine W-theoretische Interpretation: Dazu betrachten wir ein Teilchen (=Massenpunkt) ω ∈ Ω := R3 , das mit Wahrscheinlichkeit mi sich im Punkt ~xi aufhält, m.a.W., P (ω = ~xi ) = mi . In diesem Sinne liegt das Diracmaß X P = mi δ~xi i vor, und dann ist ~ ~ = E(X), S ~ wobei X(ω) = ω die Identität auf R3 ist. Nun sei M nicht notwendig abzählbar. Ist die Menge z.B. ein Würfel mit entsprechender R Massendichte ρ, sodaß (x,y,z)∈M ρ(x, y, z) d(x, y, z) = 1 ist, so beschreibt man den Massenmittelpunkt analog durch Integrale Z ~ ~ S = E(X) = ~xρ(x, y, z) d(x, y, z). M Beispiel 32 (Verteilungsfunktion für Münzwurf) Man skizziere die Verteilungsfunktion für den Laplace-W-Raum (Ω, P(Ω), P ) für Ω := {0, 1}, wobei P ({i}) := 21 für i ∈ {0, 1} sein soll (Werfen einer Münze). Wie kann F (1+ ) − F (−2), bzw. F (1) − F (0) gedeutet werden? Antwort: Man definiert eine Zufallsvariable X : Ω → R durch X({i}) := i. Nun ist F (−∞, a) := P (X −1 (−∞, a)) = |{i∈Ω|X(i)<a}| = |{i∈Ω|i<a}| . Dann ergibt sich folgende Skizze 2 2 und Rechnung: 9.2. Zufallsvariable und Verteilungen 241 O −∞ o / ◦ 1 1 2 ◦ 0 • • / +∞ 0 1 F (1+ ) − F (−2) = P (−2 < i < 1+ ) = 1 (mit 1+ ist man ein bißchen rechts von 1, ” also sind alle Werte von i im Intervall“), bzw. F (1) − F (0) = P (0 < i < 1) = 12 , weil F (1) − F (0) = PX ((−∞, 1)) − PX ((−∞, 0)) = PX ((−∞, 1) \ (−∞, 0)) = PX ([0, 1)) = P (0 ≤ i < 1) = P ({0}) = 21 . Im Eingangsbeispiel wurde schon angedeutet, daß für eine Zufallsvariable X im endlichen P Fall der Wert E(X) := ω∈Ω X(ω)P ({ω}) als mit den Wahrscheinlichkeiten des Auftretens der Werte gewichteter Mittelwert betrachtet werden kann, der bei hinreichend oftmaligem Wiederholen des Zufallsexperiments zu erwarten“ ist. E(X) läßt sich durch F ausdrücken, ” nämlich, wenn S die Menge aller Sprungstellen ist, so hat man wegen P ({X = s}) = F (s+ ) − F (s) X E(X) = s(F (s+ ) − F (s)) s∈S und der Nutzen dieser Formel liegt darin, daß man lediglich F kennen muß! Definition 33 (Erwartungswert, Varianz) Es sei (Ω, Σ, P ) ein W-Raum und X : Ω → R eine Zufallsvariable. Ihre Verteilungsfunktion sei F bis auf einer höchstens abzählbaren Menge S stetig differenzierbar mit Ableitungsfunktion F 0 = f . Weiters sei Z ∞ X |x|f (x) dx + |s|P ({s}) < ∞, −∞ s∈S so heißt Z ∞ µX = E(X) := xf (x) dx + −∞ X sP ({s}) s∈S Erwartungswert von X. Es heißt f Verteilungsdichte. Es heißt V (X) := E((X − µX )2 )) = E((X − E(X)2 ) = E(X 2 ) − E(X)2 Varianz von X und σX := p V (X) = p E((X − E(X)2 ) 242 Wahrscheinlichkeitstheorie die Streuung oder Standardabweichung. Schließlich nennt man E((X − µ)3 ) die Schiefe der Verteilung. Anschaulich ist der Erwartungswert ein Mittelwert“, die Varianz besagt etwas, wie weit ” die Werte der Zufallsvariablen vom Mittelwert weg variieren“, und die Schiefe ist ein grobes ” Maß, inwieweit die Verteilung nicht symmetrisch“ um µ gelegen ist. ” Anmerkung 34 1. Im diskreten Fall ergibt sich die zu Beginn schon benützte Formel P E(X) = x xP (X = x); R∞ 2. Wenn F stetig differenzierbar ist, ergibt sich E(X) = −∞ xf (x) dx. 3. Sind X und Y Zufallsvariable auf Ω, a, b ∈ R, und existieren E(X) und E(Y ), so auch E(aX + bY ) und es ist E(aX + bY ) = aE(X) + bE(Y ). ( E ist ein lineares Funktional“) ” 4. E(X) ist charakterisiert als jene Zahl µ für die E(X − µ) = 0 gilt. X 5. Hat man Ω " g A " 2 R , wobei A ⊆ R ist, so ist gX Zufallsvariable auf Ω und gX für diskretes X E(gX) = X g(x)P (X = x) = EX (g). x∈X 6. (Transformation für 1-dimensionales g) Es sollen Zufallsvariable X, Y : Ω → R mit stückweise stetigen Dichten fX , fY und g : R → R stetig differenzierbar und streng monoton sein, welche die Rolle einer Transformation spielt, d.h. Y = gX. Weiters soll w : R → R eine integrierbare Funktion bezüglich der Dichte fX sein. Die Situation ist jene im Diagramm. Als Konsequenz der Substitutionsregel für Integrale ergeben sich folgende Beziehungen: Für die Dichten gilt: Ω? ?? ??Y ?? g /R R? ?? ?? ? w ? −1 wg X fX (x) = fY (g(x))g 0 (x) bzw. fY (y) = fX (g −1 (y)) R 1 g 0 (g −1 (y)) Für die Verteilungsfunktionen gilt: FX (x) = FY (g(x)), bzw. FY (y) = FX (g −1 (y)) Für die Erwartungswerte der Zufallsvariablen wX und wg −1 Y gilt: EY (wg −1 ) = EX (w). . 9.2. Zufallsvariable und Verteilungen 243 7. Ist X : Ω → Rk eine Zufallsvariable und g : Rk → R stetig differenzierbar, und ist fX Dichte der Verteilung von X, so kann die Verteilung von gX durch Z FgX (z) = fX (x) d(x) {x|g(x)<z} bestimmt werden.5 Beispiel 35 Einige Beispiele zur Transformation von Zufallsvariablen, vorallem 6. und 7. Skalierungen“ von der Form g(x) = ax + b werden für Normalverteilungen benützt (vgl. ” Beispiel 44). Der Gebrauch von 7. wird ebenso dort für die Berechnung der Verteilung von g(X, Y ) = X + Y benötigt. Bei der Herleitung der χ2 - und der t-Verteilung (Beispiel 55 und Beispiel 56) spielt diese Formel auch eine wichtige Rolle, auch wenn dies in diesem Skriptum nicht vorgeführt werden soll. 1. Die Zufallsvariable X : Ω → R sei gleichverteilt in [−1, 1]. Wie sieht ihre Verteilungsfunktion aus? Für Y = g(X) = aX + b mit a > 0 berechne man die Verteilungsfunktion FY . Man berechne EX (X 2 ) und den Erwartungswert EY (Y ). Antwort(findung): X hat die Dichte fX (x) = 12 (weil [−1, 1] die Länge 2 hat). Somit ist FX (x) = 0, 12 (x + 1), 1 je nachdem, ob x < −1, −1 ≤ x < 1 bzw. 1 < x ist. Es ist R∞ R1 3 1 EX (X 2 ) = −∞ x2 fX (x) dx = −1 x2 12 dx = 12 x3 = 13 . −1 Im ersten Fall ist y = g(x) = ax + b. Die Monotonie ist für a > 0 erfüllt. Für die Verteilungsfunktion ergibt die Transformationformel für y = ax + b fX (x) = fY (ax + b)g 0 (x) = fY (ax + b)a = fY (y)a, und weil y = g(x) = ax + b sofort g −1 (y) = y−b a ergibt, bekommt man fY (y) = y−b 1 1 a fX ( a ), aus dem Intervall [−1, 1] wird das Intervall [−a+b, a+b], auf dem fY (y) = 2a ist. Ansonst ist fY (y) = 0. Für die Verteilungsfunktion benützen wir die entsprechende Formel in 6., um FY (y) = FX (g −1 (y)) = FX ( y−b a ) zu bekommen. Die Fallunterscheidung in der Definition von FX überträgt sich auf eine solche für FY , weil die Werte −1 und 1 unter g in die Werte −a + b und a + b übergehen. Deshalb ist FY (y) = 0, 12 ( y−b a + 1), 1, je nachdem ob y < −a + b, −a + b ≤ y < a + b, bzw. a + b ≤ y ist. Nun zu EY (Y ). Man kann die Substitutionsregel für die Funktion w := g verwenden. Damit bekommt man (die Integration über die ungerade Funktion x im symmetrischen Intervall [−1, 1] liefert keinen Beitrag): Der Nachweis benützt FgX (z) = P ((gX)−1 (−∞, Rz)) = P (X−1 g −1 (−∞, z)) = PX (g −1 (−∞, z)), sowie (−∞, z) = {x | g(x) < z} und schließlich PX (A) = A fX (x) d(x). 5 g −1 244 Wahrscheinlichkeitstheorie EY (Y ) = EY (gg −1 Y ) = EX (gX) = R1 −1 (ax + b) 12 dx = 1 2 R1 −1 b dx = b. Wer es nicht glaubt oder gerne rechnet“, berechnet EY (y) auf direktem Weg: ” R a+b 1 1 1 2 a+b 1 ((a + b)2 − (a − b)2 ) = b. EY (Y ) = −a+b y 2a dy = 2a 2 y −a+b = 4a 2. Es sei X eine auf [0, 1] gleichverteilte Zufallsvariable im Sinne von Beispiel 28 3. Welche Dichte fY bzw. welche Verteilung FY hat die Variable Y = X 2 ? Welche Verteilung hat sie, wenn sie auf dem Intervall [−1, 2] gleichverteilt ist? Antwort(findung): Offenbar ist g(x) = x2 auf dem Intervall [0, 1] streng monoton mit Ableitung g 0 (x) = 2x. Der Rest von R darf außer acht gelassen werden, man könnte g durch g(−x) = −x2 so fortsetzen, daß die Voraussetzungen der Substitutionsregel erfüllt sind. Deshalb ergibt √ sich für die Dichten wegen g −1 (y) = y: √ fX (x) = fY (g(x))g 0 (x) = fY (y)2x = 2fY (y) y, also fY (y) = 1 √ 2 y, sofern y ∈ (0, 1] und Null sonst. Für die Verteilungsfunktion FY ergibt die Transformationsformel in 6. sofort FY (y) = √ FX (g −1 (y)) = y falls y ∈ [0, 1] ist, bzw. Null für y < 0 und 1 für y ≥R 1. (Das gleiche y Resultat findet man auf direktem Weg: Für y ∈ [0, 1] ist FY (y) = −∞ fY (y) dy = R y du √ √ y.) 0 2 u = Jetzt zu [−1, 2]. Nun ist g(x) = x2 nicht mehr monoton, sodaß der Gebrauch der Substitutionsregel für Integrale mittels 7. zu erledigen geht. Es ist k = 1 und die Menge √ √ {x ∈ R | x2 < z} = (− z, z). Nun ist fX = 1 genau auf [−1, 2] und man muß nur mehr das Integral auszuwerten, um für z ∈ [−1, 2] (für z < 0 ist das Integrationsintervall √ leer weil z nicht reell ist, d.h. F (z) = 0, und für z > 2 ist F (z) = 1!): Z min{2,√z} Z √ √ fX (x) dx = 1 dx = min{2, z} − max{−1, − z}, FgX (z) = √ √ √ (− z, z) max{−1,− z} was im ersten Moment erschreckend aussieht, jedoch allerhand Fallunterscheidungen in geschlossener Form wiedergibt. Es darf angemerkt werden, daß für die Normalverteilung die gleiche Aufgabe auf die Chiquadratverteilung (siehe Beispiel 55) führt. 3. Es sei A ⊆ Ω ein Ereignis, dessen Eintrittswahrscheinlichkeit P (A) = p ist. Nun sei X : Ω → R definiert als 1 falls das Ereignis eintritt, bzw. Null, wenn nicht (die Indikatorfunktion von A). Man berechne E(X), E(X 2 ) und V (X) := E(X 2 ) − E(X)2 . P Antwortfindung: In Anmerkung 34 4., sei g(x) := x. Dann ist E(X) = x∈R xP (X = x) = 0 · P (X = 0) + 1 · P (X = 1) = P ({ω | X(ω) = 1}) = P (A) = p. P Analog, wenn g(x) = (x − p)2 , findet man E(gX) = x∈R (x − p)2 P (X = x) = (0 − p)2 P (A0 ) + (1 − p)2 P (A) = pq, wobei, wie meist üblich q := 1 − p ist. Antwort: Es ist E(X) = p und V (X) = pq. Das Ergebnis wird für die Bernoulliverteilung in Beispiel 40 nützlich sein. 9.2. Zufallsvariable und Verteilungen 9.2.4 245 Unabhängigkeit von Zufallsvariablen Sind X und Y zufällige Variable auf einem Raum Ω, so kann es vorkommen, daß sie ihre Werte voneinander unbeeinflußt“ in zufälliger Weise annehmen. So etwa wird beim 5 ” maligen Würfeln hintereinander die Augenzahl in keinem der 5 Versuche jene der anderen Versuche beeinflußen. Umgekehrt würde beim 2 maligen Würfeln die Summe der Augenzahlen und das Ergebnis des ersten Wurfes nicht unabhängig sein (vgl. die dritte, hinterhältige“ ” Situation in Anmerkung 20. Um zu präzisen Begriffen zu gelangen, erinnern wir an die Unabhängigkeit von Ereignissen A und B (Definition 18), nämlich P (A ∩ B) = P (A)P (B). Es erscheint natürlich, diese Definition dazu zu verwenden, daß X und Y bei belieber Vorgabe von A und B unabhängig ihre Werte in A und B annehmen, also P ({ω | X(ω) ∈ A ∧ Y (ω) ∈ B}) = P ({ω | X(ω) ∈ A)})P ({ω | Y (ω) ∈ B}). Glücklicherweise muß man diese Forderung nicht für alle Paare von Mengen A, B prüfen. Ist A das Ereignis X < x“ ” und B das Ereignis Y < y“, so ergibt die Definition der Verteilungsfunktion F(X,Y ) , daß ” F(X,Y ) (x, y) = P (X < x ∧ Y < y) = P (A ∩ B) und wegen der Unabhängigkeit von A und B ergibt sich hieraus F(X,Y ) (x, y) = P (A)P (B) = FX (x)FY (y). Umgekehrt kann man aus F(X,Y ) (x, y) = FX (x)FY (y) die Unabhängigkeit im obigen Sinn ableiten. Deshalb wird üblicherweise die folgende einfachere Definition der Unabhängkeit von Zufallsvariablen gegeben: Definition 36 Die zufälligen Variablen X, Y : Ω → R heißen (stochastisch) unabhängig, falls die Zufallsvariable (X, Y ) : Ω → R × R die Verteilungsfunktion F(X,Y ) (a, b) = FX (a)FY (b) besitzt. Die Folge Xi : Ω → R mit i ∈ I heißt stochastisch unabhängig, falls jede endliche Teilfolge stochastisch unabhängig ist. Ist I endlich, so muß die Verteilungsfunktion der Folge (Xi | i ∈ I) von der Form Y F(Xi |i∈I) (ai | i ∈ I) = FXi (ai ) i∈I sein. Anmerkung 37 Sind A und B Ereignisse in Ω, so sind sie genau dann unabhängig, wenn die Indikatorfunktionen stochastisch unabhängig sind. Haben insbesondere FX und FY Dichten fX und fY , so ist zur Unabhängigkeit hinreichend und notwendig, daß F(X,Y ) als Dichte das Produkt f(X,Y ) (x, y) = fX (x)fY (y) hat. Ist (Xi | i ∈ I) eine endliche Folge von Zufallsvariablen mit Dichten, so sind sie genau dann stochastisch unabhängig, wenn die stochastische Variable (Xi | i ∈ I) : Ω → RI eine Dichte hat, und diese die Gleichung Y f(Xi |i∈I) ((xi | i ∈ I)) = fXi (xi ) i∈I erfüllt. 246 Wahrscheinlichkeitstheorie Im Falle der Unabhängigkeit von X und Y ergibt sich µXY = EXY (XY ) = EX (X)EY (Y ) = µX µY und hieraus nach ein wenig Rechnung V (XY ) = V (X)V (Y ) − µ2X V (Y ) − µ2Y V (X). Beispiel 38 Einige Beispiele hiezu 1. Ist Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} (Werfen mit 2 unabhängigen Würfeln) und X, Y : Ω → R die Projektionen, die jedem Wurf (i, j) die Wert X(i, j) = i, bzw. Y (i, j) = j zuordnet, sind unabhängig: Es ist P ({(i, j) | i = i0 } = 16 , sodaß die Verteilungsfunktionen FX (x) genau jene in Beispiel 28 1. (jene für die Augenzahl mit einem Würfel) wird. Analog ergibt sich FY . Die Verteilung von (X, Y ) bekommt man, 1 indem man zunächst P ({(i, j) | (i, j) = (i ergibt sich P0 , j0 )}) P = 36 ermittelt. Danach P P 1 F (i0 , j0 ) = P ({(i, j) | i < i0 ∧ j < j0 }) = i<i0 j<j0 P ({(i, j)}) = i<i0 j<j0 36 = P P P P 1 1 i<i0 6 j<j0 6 = i<i0 P ({i} j<j0 P ({j}) = FX (i0 )FY (j0 ). 2. Ist Ω und X wie vorhin, jedoch Y (i, j) := i+j, so genügt es, P ({(i, j) | (X(i, j), Y (i, j)) = (5, 2)}) = P ({(i, j) | i = 5 ∧ i + j = 2}) = 0 und P ({(i, j) | X(i, j) = 5}) = 16 , sowie 1 1 P ({(i, j) | i+j = 2}) = 36 , also P ({(i, j) | X(i, j) = 5}×P ({(i, j) | i+j = 2}) = 216 6= 0 zu vermerken. 3. Beim Fehlergesetz (im Anschluß an Anmerkung 48) werden Annahmen über die Unabhängigkeit von Fehlern gemacht. 9.2.5 Bedingter Erwartungswert und Randverteilungen für (X, Y ) : Ω → R2 Es sei (X, Y ) : Ω → R2 eine 2-dimensionale Zufallsvariable, etwa zufälliges Werfen von Darts auf eine Zielscheibe. Dann haben die Zufallsvariablen X, Y und (X, Y ) entsprechend Verteilungen FX , FY und F(X,Y ) . Ist die Verteilung von (X, Y ) bekannt, so ergibt sich die Verteilung von FX durch X P(X,Y ) ({(x, y)}) FX (x) = y∈Y im diskreten Fall und falls f(X,Y ) eine Dichte ist, ergibt sich Z ∞ fX (x) = f (x, y) dy = EY (f ). −∞ Man nennt FX und FY die Randverteilungen der Zufallsvariablen (X, Y ). Man bezeichnet im diskreten Fall den Bruch P(X,Y ) (x, y) PX (Y | x) := P x P(X,Y ) (x, y) 9.2. Zufallsvariable und Verteilungen 247 als bedingte Wahrscheinlichkeit dafür, daß die Variable Y den Wert y annimmt, wenn X den Wert x angenommen hat. Analog nennt man, falls (X, Y ) eine Dichte f(X,Y ) besitzt, den Quotienten fY |x (x, y) := f(X,Y ) (x, y) fX (x) bedingte Wahrscheinlichkeitsdichte für Y = y falls X = x gilt. Im diskreten Fall heißt E(g(X, Y ) | x) := X x g(x, y)PX (Y | x) 248 Wahrscheinlichkeitstheorie und im Falle von Dichten Z ∞ E(g(X, Y ) | x) := g(x, y)fY |x (x, y) dy −∞ bedingter Erwartungswert von g(X, Y ), wenn X den Wert x angenommen hat. Es ergibt sich unmittelbar E(g(X, Y )) = EX (E(g(X, Y ) | x)) in beiden Fällen. Die angeführten Konzepte sind für vektorwertige Variable X.Y sinnvoll formulierbar. So z.B. können für eine Zufallsvariable (X, Y, Z) : Ω → R3 aus der gemeinsamen Verteilung von X, Y , und Z (d.i. F(X,Y,Z) ) Randverteilungen FX , FY , FZ , F(X,Y ) , F(X,Z) , F(Y,Z) gebildet werden und entsprechend bedingte Erwartungswerte und -dichten. Diese Begriffe sind von großer Wichtigkeit etwa zur Formulierung von Bedingungen an stochastische Prozesse (vgl. Unterabschnitt ??), etwa in der Signalverarbeitung. 9.2.6 Einige sehr gebräuchliche Zufallsvariable und ihre Verteilungen In den nachstehenden Tabellen finden sich die Daten der entsprechenden Verteilungen. Hier sollen einige Aufgaben das Auftreten von Zufallsvariablen mit den entsprechenden Verteilungen repräsentieren. Beispiel 39 (Dirac- oder Punktverteilung) Es sei Ω ⊆ Rn und ~x0 ∈ Ω, sowie Σ := P(Ω), sowie P ({~x0 }) = 1 und P ({~x}) = 0, falls ~x 6= ~x0 ist. Die Verteilungsfunktion von X(~ ω ) := ω ~ ist gegeben durch 0 ∃i xi < x0i F (x1 , . . . , xn ) = 1 ∀i xi ≥ x0i Ist gX mit g : A ⊆ Rn → R und ~x0 ∈ A eine Zufallsvariable, so ist E(gX) = g(~x0 ) und V (gX) = 0. Es ist oft üblich, dieses Maß in der Form δ~x0 zu schreiben. Allgemeiner kann jedes diskrete Punktmaß im Rn in der Form X P = ai δ~xi i P beschrieben werden, wobei lediglich ai ≥ 0 und i ai = 1 gewährleistet sein muß. Ist n = 1, so sind X µ= xi ai i und σ2 = X ai x2i − µ2 . i Beispiel 40 (Bernoulliverteilung6 ) Es sei (Ω, Σ, P ) ein beliebiger W-Raum, und A ∈ Σ ein Ereignis mit P (A) = p. Dann ist klarerweise P (A0 ) = 1 − p, welches hinfort mit q bezeichnet werde. Wie in Beispiel 35 3. ausgeführt, ist die Verteilungsfunktion FX der Zufallsvariablen X : Ω → R mit X die Indikatorfunktion (Wert=1, falls ω ∈ A, also das 6 Auch Binomialverteilung 9.2. Zufallsvariable und Verteilungen 249 Ereignis A eintritt, bzw. Null, wenn nicht) genau jene des Diracmaßes δp auf R, d.h. 0 für x ≤ 0 und 1 für x > 0. Wie dort ausgeführt wurde, ist E(X) = p und V (X) = pq, wobei q := 1 − p ist. Nun soll (in Gedanken) das Experiment zur Ermittlung von P (A) = p (bzw., gleichbedeutend von E(X)) in unabhängiger Weise mehrfach, nämlich n mal durchgeführt werden. Jedem solchen Versuch entspricht auf Ω eine Zufallsvariable Xi : Ω → {0, 1} ⊆ R mit FXi = FX (gleiche Verteilung wie X). Hiedurch wird eine Zufallsvariable (X1 , . . . , Xn ) : Ω → Rn festgelegt, die wegen der Unabhängigkeit der Xi eine Produktverteilung hat, d.h., es ist für jede Wahl der xi ∈ {0, 1} P( n \ {ω | Xi (ω) = xi }) = i=1 n Y P ({ω | Xi (ω) = xi }) = pk q n−k i=1 wobei k die Anzahl der Indizes i ist, für die xi = 1 ist, oder, was auf das Gleiche hinausläuft, die Anzahl jener Indizes i, für die das Ereignis APim i.ten Versuch eintritt. Nun sei S : Ω → R die Zufallsvariable S := i Xi , welche offenkundig den Wert k ∈ N genau dann annimmt, wenn in genau k der n Experimente das Ereignis A eingetreten ist. Dementsprechend ist n k n−k P ({ω | S(ω) = k}) = p q , k weil es genau nk Möglichkeiten, eine k-elementige Teilmenge der n-elementigen Menge der Indizes {1, . . . , n} zu wählen. In Übereinstimmung mit der allgemeinen Theorie ist PS ein diskretes W-Maß auf R, nämlich n X n k n−k p q δk . PS = k k=0 Als harmlose Übung hat man unter Anwendung des binomischen Lehrsatzes X X n pk q n−k = (p + q)n = (p + 1 − p)n = 1. PS ({k}) = k k k Für den Erwartungswert von S findet man gemäß Anmerkung 34 P E (S) = Px∈R S(x)P ({ω | S(ω) = x}) = Pnk=0 kP = k}) ({ω | S(ω) n k n−k = p) k k k p (1 − p k P n n = q k≥1 k k q und man kann z.B. durch etwas langwierige vollständige Induktion zeigen (ein recht flotter Nachweis wird sich im M3-ET Skriptum als Anwendung des Rechnens mit Polynomen finden), daß µ = E (S) = np. 250 Wahrscheinlichkeitstheorie Um V (S) zu berechnen, verwenden wir E(X 2 ) = V (X) + p2 = p und die Unabhängigkeit der Xi , die nach sich zieht, daß E(Xi Xj ) = E(Xi )E(Xj ) = p2 für i 6= j ist. Danach ergibt sich P V (S) = E(S 2 ) − E(S)2 = E( i,j Xi Xj ) − n2 p2 = nE(X 2 ) + n(n − 1)p2 − n2 p2 = np − np2 = npq. Jede Zufallsvariable, welche wie S verteilt ist, heißt B(n; p)-verteilt. Es ist die Binomialoder Bernoulliverteilung. Offenbar hat die Zufallsvariable Sn , die man bei realen Experimenten empirisch ermittelt, gemäß der eben behandelten Theorie den Erwartungswert p und Varianz pq n . Die W-theoretische Deutung des wiederholten Experiments besteht darin, daß bei wachsendem n die Wahrscheinlichkeit dafür, daß die relative Häufigkeit hn (A) = nk mit immer kleinerer Varianz die Wahrscheinlichkeit p = P (A) approximiert, gegen 1 geht. Hierauf soll im Bernoulliexperiment (Beispiel 46) und schließlich beim zentralen Grenzwertsatz (Anmerkung 48) eingegangen werden (Grundlagen der Statistik)!. Am Ende dieses Beispiels möge eine konkrete Situation stehen: • Es ist eine Lieferung mit 500 Sicherungen angekommen und man weiß, daß es 5% fehlerhafte dabei gibt, weil man die Firma schon kennt. Wenn man in zufälliger Weise 5 Sicherungen entnimmt, wie groß ist die Wahrscheinlichkeit, daß mindestens eine davon kaputt ist? Man kennt die Wahrscheinlichkeit des Ereignisses A, Sicherung kaputt“, sie ist p = ” 5 100 . Nun wird das Experiment, eine Sicherung herauszunehmen, und zu testen, ob sie zu A gehört, n = 5 mal gemacht. Somit ist unsere Frage nach mindestens einer kaputten Sicherung gleichbedeutend zu S = X1 + . . . + X5 ≥ 1. Die Annahme der Unabhängigkeit ist nicht grundsätzlich gerechtfertigt, weil das Herausnehmen der 5 Sicherungen grundsätzlich nicht unabhängig voneinander ist (man legt die Sicherungen nicht zurück), da jedoch die Anzahl der Sicherungen groß ist, ist das vernachlässigbar. 5 Somit ist die Verteilung B(5; 100 ) und somit ergibt sich als Wahrscheinlichkeit 5 0 5 1 − PS (0) = 1 − p q = 1 − (1 − 0.05)5 ≈ 0.226, 0 was gar nicht so klein ist! Beispiel 41 (Poissonverteilung) Wenn in der Binomialverteilung p sehr klein (etwa für das Auftreten eines Produktionsfehlers) und n groß ist (etwa die Anzahl der entnommenen Stichproben), so ist PS ({k}) etwas mühsam zu berechnen. Deshalb sind unter Benützung von λ := np folgende Approximationen einer B(n; p)-verteilten Zufallsvariablen X gebräuchlich: n k n−k E(X) = λ, V (X) = λq, PX ({k}) = p q ≈ λk e−λ . k Während die Formeln für E(X) und V (X) lediglich durch Einsetzen entstehen, bedarf jene 9.2. Zufallsvariable und Verteilungen 251 für PX ({k}) etwas Erklärung. Es ist PX ({k}) = ≈ ≈ ≈ Es erweist sich PX ({k}) := λk −λ k! e PX (R) = X k n−j+1 k λ n−k j=1 jn λ 1 − n −k Qk 1 k λ n 1 − nλ j=1 j λ 1 − n λ n λk k! 1 − n λk −λ . k! e Qk als W-Maß auf R, weil jeder dieser Werte positiv und PX ({k}) = X λk k k! ke−λ = eλ e−λ = 1 ist. Eine Zufallsvariable X mit solcher Verteilung heißt Poissonverteilt mit dem Parameter λ. Solche Variable treten beim Poissonprozess auf (z.B. radioaktiver Zerfall, aber auch Warteschlangentheorie – Serverrequests, Telefonkunden, etc. seltene Ereignisse“).Inwieweit die ” Näherungen für B(n : p) brauchbar sind, sei auf einschlägige Literatur verwiesen. In [13] wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen, die Bernoulliverteilung durch die Poissonverteilung brauchbar zu approximieren. Hier ein Beispiel aus [13]: Eine Fabrik produziert Werkstücke mit p = 0.001 Fehlerwahrscheinlichkeit (d.i. ein Promille). Wie groß ist die Wahrscheinlichkeit, in einer Lieferung von 500 Stück mindestens 2 unbrauchbare vorzufinden? 1 Antwort: Wie in Beispiel 40 kennt man die Fehlerwahrscheinlichkeit p = 1000 dafür, ein einzelnes, fehlerhaftes Werkstück zu entnehmen. Um die Anzahl X der fehlerhaften Werkstücke zu bekommen, denkt man sich dieses Experiment 500 mal wiederholt und läßt X die Anzahl der Versuche sein, bei denen fehlerbehafteten Werkstücken gefunden würden. Dieses X ist 1 B(500, 1000 ) verteilt und somit ist 500 500 P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − 0.999 − 0.999499 ≈ 0.090128. 1 Es ist np = 0.5 < 10 und n = 500 > 1500p = 1.5, und die Approximation ergibt P (X ≥ 2) = 1 − P (X ≤ 1) = 1 − e−0.5 − 0.5e−0.5 ≈ 0.090204. Beispiel 42 (Hypergeometrische Verteilung) Eine Zufallsvariable X : Ω → R heißt hypergeometrisch mit den Parametern m, N, n ∈ N mit m ≤ N und s ≤ N verteilt, im Zeichen, H(m, N, s) wenn sie auf R das diskrete W-Maß 1 m N −n PX ({k}) = N k m−k s besitzt. Wie im weiteren ausgeführt werden wird, handelt es sich um die Wahrscheinlichkeit, aus einer N -elementigen Menge mit einer gewissen m-elementigen Teilmenge (Elemente mit 252 Wahrscheinlichkeitstheorie bestimmtem Merkmal) bei vorgegebenem s eine s-elementige Teilmenge S von N mit |S ∩ M | = k zu finden. Weiters sind Erwartungswert und Streuung: X s s N −m s 1− . E(X) = kPX ({k}) = M , V (X) = m N N N N −1 k Zunächst der auch für konkrete Anwendungen (etwa das nachfolgende Beispiel) nicht uninteressante Hintergrund: Es sei M eine Teilmenge der endlichen Menge N . Man darf sich vorstellen, daß dieses M aus Elementen der Menge N mit einem gewissen Merkmal besteht. Nun wird eine Zahl s vorgegeben und aus M in zufälliger Weise eine eine s-elementige Teilmenge S herausgenommen, die man sich als Stichprobe vorstellt, und interessiert sich für die W-Verteilung der Zufallsvariablen X(S) = |S ∩ M |, die angibt, wieviele Elemente in S zu M gehören, also auch das besagte Merkmal haben. Etwas präziser, man betrachtet den Ereignisraum Ω := {S ⊆ N | |S| = s}, bei dem jedes Elementarereignis in der Auswahl einer s-elementigen Teilmenge S ⊆ A besteht. Die Annahme der Zufälligkeit bedingt, Ω zu einem Laplace W-Raum im Sinne von Definition 5 zu machen (jedes Elementarereignis ist gleichwahrscheinlich), somit ist Σ die Menge aller Teilmengen von Ω und 1 P ({S}) := |N | . s Wie lautet die Verteilung von X? Antwort: Um die Verteilung von X zu bestimmen, bestimmen wir, ähnlich wie in den vorigen Beispielen PX ({k}) = P ({S | X(S) = k}). Jede Auswahl S ist disjunkte Vereinigung S = (S ∩ M ) ∪ (S ∩ M 0 ). Deshalb läßt sich jedes S mit |S ∩ M | = X(S) = k durch Vorgabe einer k-elementigen Teilmenge T von M und und einer s − k-elementigen Teilmenge U von M 0 eindeutig festlegen, nämlich S = T ∪ U . N |M | Für ein festes k-elementiges T gibt es k , danach für 0 | |M | = m M M0 die Wahl des Komplementanteils U |M s−k Möglichkeiten ein k-elementiges S zusammenzustellen“: ” 1 |M | |N | − |M | . PX ({k}) = |N | k s−k s |T | = k |U | = s − k S T =S∩M U = S ∩ M0 Konkretes Anwendungsbeispiel: Aus einer Lieferung von 490 funktionierenden und 10 defekten Bauteilen werden (in zufälliger Weise) 50 Stück als Stichprobe S ohne Zurücklegen herausgenommen. Wie groß ist die Wahrscheinlichkeit daß die Stichprobe S keine defekten Bauteile enthält? Antwort: Die abstrakt anmutende Herleitung ist hier nachzuvollziehen. N ist die Menge der 500 Bauteile, S die 50-elementige Stichprobe (also s = 50), M ist die 10-elementige Menge der fehlerhaften Teile. X(S) = |M ∩ S| ist die Anzahl der defekten Bauteile in der Stichprobe 9.2. Zufallsvariable und Verteilungen 253 S. Danach genügt es, in die obige Formel einzusetzen, wobei wir uns für k = 0 interessieren: 10 490 490 · 489 · · · · 441 1 ≈ 0.34516. = ··· = PX ({0}) = 500 500 · 499 · · · 451 0 50 50 Anderes Beispiel: Wie groß ist die Wahrscheinlichkeit, bei 6 aus 45“ wenigstens eine Zahl richtig zu erraten? ” Antwort: Jetzt wählt man N := {1, . . . , 45} und M eine feste Auswahl von 6 Zahlen (nämlich die Gewinnzahlen). Der Spieler trifft eine Auswahl einer 6-elementigen Teilmenge S durch Ausfüllen und Abgabe des Lottoscheins. Nun gibt X(S) = |M ∩ S| genau die Anzahl der Richtigen“ an. Es ist bei uns PX ({1, 2, 3, 4, 5, 6}) = 1 − PX ({0}) gefragt, sodaß man ” 11951 1 6 39 39 · · · 33 = . PX ({0}) = 45 = 45 · · · 39 35260 0 6 6 Es ergibt sich ein Wert ≈ 0.599 für die gesuchte Wahrscheinlichkeit. Beispiel 43 (Exponentialverteilung) Eine Variable X : Ω → R ist λ-exponentialverteilt, wenn ihre Dichte für positive x durch fX (x) = λe−λx , mit λ > 0 und durch fX (x) = 0 für x ≤ 0 gegeben ist. Man findet FX (x) = 0 für x ≤ 0 und FX (x) = 1 − e−λx für positive x. Man bekommt durch elementares Integrieren E(X) = λ1 und V (X) = λ12 . Diese Verteilung tritt (als Spezialfall der sog. Weibull-Verteilungen) in der Lebensversicherung auf. Auch einfache Modelle des radioaktiven Zerfalls benützen diese Verteilung ( expo” nentieller Zerfall“). Beispiel 44 (Gaußverteilung) Eine Variable X : Ω → R ist normal- bzw. Gaußverteilt, falls es µ ∈ R und ein positives σ gibt, sodaß PX eine W-dichte der Form 2 1 (x−µ) 1 fµ,σ (x) = √ e− 2 σ2 σ 2π Rx hat. Es sei Φµ,σ (x) = −∞ fµ,σ (t) dt die Verteilungsfunktion, und Φ(x) := Φ0,1 (x). Man sagt auch, X ist N (µ, σ)-verteilt. Diese Verteilung wurde von De Moivre ca 1725 eingeführt, C.F.Gauß hat jedoch erst um 1820 die Bedeutung dieser Verteilung im Zusammenhang mit dem Fehlergesetz (vgl. den Abschnitt über den zentralen Grenzwertsatz in Anmerkung 48) klarlegen können. Bedeutung hat die Verteilung auch, weil viele Zufallsvariable approximativ normalverteilt sind, wie z.B. Bernoulliverteilte (vgl. Beispiel 40). Es gelten folgende Aussagen: 1. Die Verteilungsfunktion der Standardnormalverteilung N (0, 1) ist die Funktion Φ(x) := R x − t2 √1 e 2 dt, die sowohl tabelliert vorliegt (z.B. in [1]), als auch numerisch in Stan2π −∞ dardpaketen zugänglich ist (etwa in den Statistikpaketen R7 oder S8 ). Der Nachweis 7 8 Free Software Komerzielles Produkt 254 Wahrscheinlichkeitstheorie für Φ(∞) = 1 wird üblicherweise mittels Doppelintegral geführt (Polarkoordinaten x = r cos φ, y = r sin φ, d(x, y) = rd(r, φ), Bereich (r, φ) ∈ [0, ∞) × [0, 2π)) Z ∞ 2 2 − t2 e dt Z = − 12 (x2 +y 2 ) e Z d(x, y) = R2 −∞ ∞ Z 2π 2 − r2 e 0 0 2 ∞ − r2 r dφ dr = −2π e = 2π, 0 woraus Φ(∞) = 1 folgt. 2. Für eine N (µ, σ)-verteilte Zufallsvariable X sind E(X) = µ und die Standardabweichung V (X) = σ 2 . 3. Ist X gemäß N (µ, σ)-verteilt, so ist die standardnormierte Zufallsvariable Z := gemäß N (0, 1)-verteilt, genauer, x−µ . Φµ,σ (x) = Φ σ X−µ σ All dies folgt unmittelbar aus Anmerkung 34 6. 4. Ist X eine N (µ, σ)-verteilte Zufallsvariable, so ist aX gemäß N (aµ, aσ)-verteilt. 5. Sind die unabhängigen Zufallsvariablen √ X, Y jeweils N (µ, σ) und N (ν, τ )-verteilt, so ist X + Y verteilt gemäß N (µ + ν, σ 2 + τ 2 )9 . Allgemeiner ergibt sich hieraus (durch Induktion) das Additionstheorem unabhängiger N (µi , σi )-verteilter Zufallsvariabler Pn Pn Xi : Ω → R, demzufolge die Dichte von X gemäß N (µ, σ)-verteilt mit µ = i=1 i i=1 µi Pn 2 2 und σ = i=1 σi ist. 6. Sind X, Y : Ω → R unabhängige Zufallsvariable mit N (µX , σX ) und N (µY , σY )1 −Q(x,y) Normalverteilung, so ist die Zufallsvariable gemäß einer Dichte f(X,Y ) (x, y) := 2π e mit Q(x, y) = σ12 (x − µX )2 + σ12 (y − µY )2 verteilt. Diese Dichte hat die bekannte X Y Glockenform, mit Höhenschichlinien Ellipsen mit Mittelpunkt (µX , µY ) und Halbachsen im Verhältnis der Streuungen. Dreht man das Koordinatensystem, so erscheinen in Q gemischt quadratische Glieder, die von der Kovarianz der neuen Koordinaten herrührt, siehe hiezu 10.3. 7. Für eine N (0, 1)-verteilte Zufallsvariable ist P (|X| < a) = 2Φ(a) − 1. 9 Um dies zu beweisen, benützt man die Faltung zweier Funktionen, wie sie auch im Kontext mit Laplaceund Fouriertransformation bekannt ist. Um die Faltung zu sehen, benützen wir Anmerkung 34 7. Demgemäß R hat man FX+Y (z) = Az f(X,Y ) (x, y) d(x, y) mit Az := {(x, y) | x + y < z}. Das führt wegen der Unabhängigkeit zunächst auf f(X,Y ) (x, y) = fX (x)fY (y) und somit nach Umwandlung in ein Doppelintegral, Verwenden der Substitution t − x, dy = dt, neueR Grenzen=−∞, z“, Vertauschen R z der R ∞ Integrationsreihenfolge zu R ∞ y R=z−x ” ∞ Rz FX+Y (z) = −∞ dx −∞ fX (x)fY (y) d(y) = −∞ −∞ fX (x)fY (t − x) dt = −∞ −∞ fX (x)fY (y − x) dy. Diese R∞ Formel hat die Integralform einer Verteilungsfunktion und daher ist fX+Y (z) = −∞ fX (x)fY (z − y) dz, was identisch mit der Faltung (fX ∗ gY )(z) ist. Nun kann man im Falle der Normalverteilung(en) die oben angegebene Form von fX+Y (z) mittels länglicher, aber völlig elementarer Rechnung bekommen. Üblicherweise gelingt ein kurzer Beweis unter Benützung von charakteristischen Funktionen, d.s. die Fouriertransformierten der Dichten. 9.2. Zufallsvariable und Verteilungen 255 Für den letzten Punkt soll kurz der Nachweis erbracht werden (der ganz allgemein für beliebige Verteilungen F mit bezüglich des Nullpunktes symmetrischer Verteilungsdichte f geht), wobei an geeigneter Stelle die Substitution u = −t, dt = −du und neue Integralgrenzen ∞ bzw. a, und schließlich die Symmetrie f (u) = f (−u) = f (t) benützt wird: Es ist P (|X| < a) = P ({ω | X < a} ∩ {ω | X > a}) = P ({ω | X < Ra} \ {ω | −a < X}) =R P ({ω | X < a ∞ a}) − P ({ω | −a < X}) = F (a) − F (−a) = F (a) − −∞ f (t) dt = F (a) − a f (u) du = F (a) − (1 − F (a)) = 2F (a) − 1. 0,8 0,6 0,4 0,2 0 -3 -2 -1 0 1 2 3 Normalverteilung N(0,1) 256 Wahrscheinlichkeitstheorie 1 0,8 0,6 0,4 0,2 0 -3 -2 -1 0 1 2 3 Verteilungsfunktion N(0,0.5) 9.3 9.3.1 Approximation mathematischer durch empirische Wahrscheinlichkeit Ungleichung von Tschebischeff und das Bernoulliexperiment Das nach Johann Bernoulli benannte, von ihm um 1720 vorgeschlagene Gedankenexperiment ist Grundlage jeden statistischen Arbeitens und soll hier beschrieben werden. Es gibt eine Wtheoretisch formulierte Antwort auf die in Beispiel 1 aufgeworfene Frage, inwieweit man denn erwarten darf, daß die relativen Häufigkeit hn (A) als gute Approximation einer womöglich mathematisch vorausberechneten Wahrscheinlichkeit p gelten kann. Noch entscheidender ist eine solche Frage, wenn p durch statistische Erhebung geschätzt“ werden soll, also von ” vorneherein unbekannt ist. Mehr darüber in den Beispielen 50 und 53. Wir werden die Ungleichung von Tschebischeff dabei benützen: 9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 257 q ◦ ◦ • 0 • 0 1 1=p+q Abbildung 9.2: Theoretische“ Verteilungsfunktion beim Bernoulliexperiment ” Anmerkung 45 (Ungleichung von Tschebischeff) Es sei X : Ω → R eine Zufallsvariable und > 0, so gelten folgende Aussagen: • P (|X| ≥ ) ≤ E(|X|) . • P (|X − E(X)| ≥ ) ≤ V (X) . 2 Beweis: Um die erste Behauptung zu zeigen, darf X ≥ 0 angenommen werden. Danach definieren wir Y (ω) als X(ω), wenn X(ω) ≥ ist, und Null sonst. Man überlegt sich, daß Y auch eine Zufallsvariable ist. Danach folgt aus X(ω) ≥ Y (ω) für alle ω ∈ Ω die Ungleichung E(X) ≥ E(Y ) ≥ P ({ω | X(ω) ≥ }) = P (X ≥ ), und hieraus durch Umformen die erste Behauptung. Wir wollen die zweite Behauptung zeigen, und nennen dort das X jetzt Y , wollen also P (|Y − E(Y )| ≥ ) ≤ V (Y2 ) zeigen. Nun sei X := V (Y ) = |Y − E(Y )|2 , so ergibt sich P (|Y − E(Y )|2 ≥ 2 ) ≤ V (Y ) , 2 und weil links definitionsgemäß das Maß der Menge {ω | |Y − E(Y )|2 ≥ 2 } = {ω | |Y − E(Y )| ≥ } ermittelt wird, ist alles gezeigt. w.z.b.w. Beispiel 46 (Bernoulliexperiment) Die Situation beim B.E. ist die folgende: Jemand geht, theoriegestützt“ von der Annahme (H) aus, daß (Ω, Σ, P ) ein W-Raum und X : Ω → ” {1, 0} eine Zufallsvariable mit P (X = 1) = p und P (X = 0) = q := 1 − p sind. Das sei z.B. durch Wahrscheinlichkeitsrechnung ermittelt worden, es sind also (mathematische) Wahrscheinlichkeiten. Somit ist die Verteilungsfunktion FX von der in Fig. 9.2 angegegebenen Form. Beim Münzwurf etwa wäre Ω := {K, Z} und X(K) := 0, bzw. X(Z) := 1. Weiters würde man sich gerne auf (H), d.h. p = 1 − p = 21 aufgrund mathematischer Betrachtungen stützen können. Nun ermittelt jemand relative Häufigkeiten durch ein Zufallsexperiment folgender Art: 258 Wahrscheinlichkeitstheorie a) Der Versuch wird parallel n mal unter unabhängigen Bedingungen wiederholt, b) oder n mal (unabhängig voneinander) hintereinander ausgeführt. Die beiden Denkweisen werden als gleichartig angesehen und drücken lediglich die Forderung aus, daß keines der n Zufallsexperimente das andere beieinflußt, d.h. die n Zufallsexperimente legen unabhängig voneinander Werte der Zufallsvariablen Xi : Ω → {1, 0} fest für i = 1, . . . , n. In dieser Weise, wie in Beispiel 40 (Bernoulliverteilung) genauer ausgeführt worden ist, ergibt sich für die Zufallsvariable Sn : Ω → R, definiert durch Sn (ω) := n X Xi (ω) = |{i | Xi (ω) = 1}|, (9.1) i=1 welche abzählt, in wievielen der n Experimente das Ereignis eintrifft, eine B(n, p)-Verteilung mit E(Sn ) = np und V (Sn ) = npq. Schließlich kommt die Ungleichung von Tschebischeff (Anmerkung 45) zum Zug, indem wir dort X := n1 Sn einsetzen und V n1 Sn = n12 V (Sn ) beachten: 1 pq P Sn − p ≥ ≤ 2 . (9.2) n n Falls die Wahrscheinlichkeit p unbekannt ist (etwa die Ausfallshäufigkeit eines Bauteils), welchen Näherungswert würde man nach n Versuchen für p benützen? Antwort: Es empfiehlt sich x̄ := nk = n1 Sn , wobei, die Bedeutung von Sn rekapitulierend, k die Anzahl der Versuche ist, bei denen das Ereignis eingetreten ist, dessen (unbekannte) Wahrscheinlichkeit p ist. Zahl von Versuchen: Es sei α ∈ (0, 1) eine eher kleine Zahl, die Irrtumswahrscheinlichkeit“. ” Wieviele Versuche sollte man anstellen, um die Wahrscheinlichkeit dafür, daß | n1 Sn − p| ≥ ist, kleiner als α ist? Antwort: Da pq = p(1 − p) = p − p2 das Maximum an 12 , nämlich 41 annimmt, ist pq 1 ≤ , 2 n 4n2 1 1 sodaß es hinreichend ist, 4n 2 ≤ α, m.a.W., n ≥ 4α2 zu wählen. Sind z.B. α = = 0.1 (also 10% Genauigkeit bei der Approximation), so ist n = 250. Jemand hat eine feste Anzahl n von Versuchen gemacht, die recht groß ist (viel größer als 250, etwa n := 10000 – Massenproduktion). Dabei wurden unter den 10000 Stücken k := 300 300 fehlerhafte entdeckt. Er nimmt jetzt an, daß nk = 10000 ≈ p als Approximation der Fehlerwahrscheinlichkeit ist. Jetzt will er wissen, wie genau sein p approximiert worden ist, zumindest ist eine Wtheoretische Auskunft gesucht. Dazu gibt er eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, manchmal noch kleiner) vor und stellt folgende Frage: Gesucht sind Schranken θ und θ, sodaß P (p ∈ [θ, θ]) ≥ 1 − α gilt.“ ” Antwortfindung: Zunächst läßt sich Glg.(9.2) in äquivalenter Form als 1 pq P (| Sn − p| ≤ ) ≥ 1 − 2 n n 9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 259 schreiben, indem man zum komplementären Ereignis übergeht. Der Ausdruck 1 | Sn − p| ≤ n pq ist äquivalent zu p ∈ [ n1 Sn − , n1 Sn + ]. Die Bedingung an muß sich aus 1 − n 2 ≥ 1 − α pq 1 ergeben – in äquivalenter Form – aus α ≥ n2 . Da letzteres aus α ≥ 4n2 folgt, kann man 1 := √4αn setzen und so ergibt sich (für dieses ): 1 1 P (p ∈ [ Sn − , Sn + ]) ≥ 1 − α. n n Sehr angenehm ist hier, daß die Schranken θ(X1 , . . . , Xn ) := n1 Sn − und θ(X1 , . . . , Xn ) := 1 n Sn + Zufallsvariable sind, die einen (zufälligen) Wert erst im Rahmen der Versuchsserie zu n events annehmen. Diese Schranken passen sich also dem n an! 300 = 3 × 10−3 als Näherung Antwort: Man betrachtet die relative Häufigkeit p̂ := n1 Sn = 10000 1 für die Wahrscheinlichkeit p des Auftretens eines Fehlers, setzt := √4αn = √4×101−1 ×105 = 5 × 10−3 und bekommt k k P (p ∈ [ − , + ]) ≥ 1 − α, n n und in unserem Beispiel ist somit mit 90%-iger Wahrscheinlichkeit die Wahrscheinlichkeit für das Auftreten von Produktionsfehlern im Intervall [0, 8 × 10−3 ]. (Diese Aussage gibt Anlaß zu sagen, daß mit 90 prozentiger Sicherheit höchstens etwa 1% Fehler auftreten können. Konfidenzniveau α = 90% und diese obere Schätzung von p können Ausgangspunkt für die Berechung von Erwartungswerten für Schäden werden. Danach können Versicherungssummen ausgelegt werden.) Inwieweit führt die Approximation der Binomialverteilung durch die Gaußverteilung zu besseren Abschätzungen? Antwort: wird am Ende von Beispiel 53 1. gegeben werden. a) = 1 Punkt- oder Dirac-V. δa an a = k) = = k) = Hypergeometrische-, M , N , n aus N −M (Mk )(Nn−k ) N (n) λk −λ k! e xk) = n k n−k p q k BernoulliBinomialBn (p), sei 0 < p < 1 und q := 1 − p Poisson-, sei λ>0 xi ) = Gleichmäßige 1 n P (X = Name d. V. λk k! x≤0 0<x x ≤ x1 xk−1 < x ≤ xk , 2≤k≤n xn ≤ x 0 P e−λ k<x 1 k.A. k−1 n 0 FX (x) = 0 x≤a 1 x>a nM N λ i=1 Pn np 1 n a E(X) xi nM N 1− λ npq M N N −1 N −n E(X 2 ) − E(X)2 0 V (X Ziehen von Stichproben ohne Zurücklegen, Beispiel 42 Poissonprozess, Beispiel 41 n-maliges Durchführen eines Experiments, Beispiel 40 Laplace W-Raum X = a ist ein sicheres Ereignis Anwendungsbereich 260 Wahrscheinlichkeitstheorie Student-, tn ∈ N, n > 0 χ2 - n ∈ N, n>0 Gauß, N (µ, σ 2 ), µ, σ > 0 Exponentialλ>0 Rechteck, Intervall a<b Name d. V. 1 0 Rx Γ( n+1 2 √1 ) nπ Γ( n 2 n 2 2 Γ( n ) 2 h n − 12 u−µ 2 σ du ” n+1 −∞ “ 2 u2 1+ n R∞ e− 2 u− 2 −1 du u −∞ exp Rx i du 1 x−µ 2 2σ i 1 “ ” n+1 2 x2 1+ n x≤0 x n e− 2 x− 2 −1 x > 0 h exp − 21 n 2 2 Γ( n ) 2 n+1 Γ( 2 √1 ) nπ Γ( n 2 0 √1 σ 2π 0 x≤0 λe−λx x ≤ 0 < x 0 x≤0 1 − e−λx 0 < x √1 σ 2π FX0 (x) = f (x) 0 x<a 1 b−a a < x ≤ b, 0 b≤x FX (x) 0 x<a x−a a < x ≤ b, b−a 1 b≤x 0 (f n ≥ 2) n µ 1 λ 3) n n−2 2n σ2 1 λ2 (f n ≥ − a)2 1 12 (b 1 2 (a + b) V (X) E(X) standardisierte normalverteilte Daten nicht normalverteilt bei unbekannter Varianz Beispiel 55 Beispiel 55 Beispiel 44 Lebensdauer, Zerfallsdauer, Beispiel 43 Beispiel 28 3. Anwendungsbereich 9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 261 262 9.3.2 Wahrscheinlichkeitstheorie Gesetz der großen Zahlen, Zentraler Grenzwertsatz Beim Bernoulliexperiment (Beispiel 46) kommt man zur Aussage, daß sich bei wachsenden Anzahl n unabhängiger Versuche die gemessenen relativen Häufigkeiten hn (A) = nk , wobei A ein spezifisches Ereignis mit Wahrscheinlichkeit p ist, diesem Wert für n → ∞ zustreben, zumindest in folgendem Sinn: Aus der Ungleichung Glg.(9.2) ergibt sich 1 lim P (| Sn − p| ≥ ) = 0 n→∞ n für jedes positive . Experimentatoren schließen, daß für großes n der Wert nk gut“ sein sollte ” im Sinne, daß die Wahrscheinlichkeit dafür nahe bei 1 liegt, man also nahezu sicher“ sein ” darf, daß hn (A) = nk ≈ p. Als Verallgemeinerung davon gilt der Satz von Gliwenko-Cantelli, nämlich Anmerkung 49, der als Hauptsatz der Statistik bezeichnet wird und zeigt, daß die empirischen vermessene Verteilungsfunktionen bei n → ∞ in einem wahrscheinlichkeitstheoretischen Sinn gegen die gesuchte Verteilungsfunktion streben. Er folgt aus dem weiter unten vorzustellenden Satz von Kolmogorov Anmerkung 47. Hier sollen sie ohne Beweise, die maßtheoretischer Natur sind10 , vorgestellt werden. Anmerkung 47 (Kolmogorov) Ist Xn : Ω → Rk eine Folge unabhängiger Zufallsvariabler, deren Varianzen existieren und ∞ X V (Xn ) n2 n=1 erfüllen, so ist <∞ n 1 X P ({ω | lim ( Xj (ω) − E(Xn )) = 0}) = 1. n→∞ n j=1 Insbesondere, wenn alle Xn identisch wie X verteilt sind, so ist die Bedingung erfüllt und es ergibt sich aus dem vorigen n 1X P ({ω | lim Xj (ω) = E(X)}) = 1. n→∞ n j=1 Die Konvergenzaussage wird auch als Xn gehorcht dem starken Gesetz der großen Zahlen“ ” ausgedrückt, während die schwächere, aus ihr folgende: n 1 X lim P ({ω | Xj (ω) − E(Xn ) > }) = 0 n→∞ n j=1 10 etwa [8] 9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 263 für alle positiven als schwaches Gesetz der großen Zahlen bezeichnet wird. Ist Xn = n1 Sn wie im Bernoulliexperiment, so bekommt man die eingangs gemachte Aussage als Spezialfall, nämlich, daß die Folge ( n1 Sn | n ∈ N) dem schwachen Gesetz der großen Zahlen genügt. Der zentrale GWS wird auch in allgemeinerer Form und unter technischen Bedingungen (von Lindeberg, siehe S. 111 in [8] ff.) formuliert. Eine vereinfachte (oft zitierte und benützte) Version ist die folgende: Anmerkung 48 (Zentraler Grenzwertsatz; standardisierte Zufallsvariable) Haben die Zufallsvariablen Xn alle die gleiche Verteilung wie X mit E(X) = µ und V (X) = σ, so ist die standardisierte Zufallsvariable Pn X̄(ω) − µ √ j=1 (Xj (ω) − µ) √ n, Z(ω) := = σ σ n P mit X̄ := n1 ni=1 approximativ N (0, 1)-verteilt, d.h. bei festem a < b strebt Fn (b)−Fn (a) Rx 2 gegen Φ(b) − Φ(a) bei n → ∞, wobei wie in Beispiel 44, Φ(x) := √12π −∞ e−x dx ist. In diesem Sinne ist das Fehlermittel n 1X (Xj (ω) − µ) X̄(ω) − µ = n j=1 auf jedem festen Intervall [a, b] für hinreichend großes n approximativ N (0, √σn )-verteilt11 . Satz von De Moivre-Laplace: De Moivre veröffentlichte 1730 für p = 21 und Laplace 1812 für beliebiges 0 < p < 1 das Resultat, daß im Bernoulliexperiment (vgl. Beispiel 46) zur Ermittlung der Wahrscheinlichkeit p = P (A) für die Bernoulliverteilung B(n, p), welcher die Zufallsvariable Sn : Ω → R, definiert durch Sn (ω) = nk , wenn in k von n unabhängigen Versuchen das Ereignis A eingetreten ist, dem Gesetz k − np P a≤ √ < b → Φ(b) − Φ(a) npq für n → ∞ gleichmäßig bei festem a, b genügt. Hieraus ergeben sich die in der Praxis gelegentlich benützten Faustregeln np > 4 und nq > 4 ([6], Seite 160), bzw. in [13] wird np ≤ 10 und n ≥ 1500p als Arbeitskriterium dafür angesehen. Man kann den Satz von De Moivre-Laplace aus dem zentralen GWS unmittelbar her√ leiten, weil jedes Xi (wie in Beispiel 46) Erwartungswert µ und Streuung σ = pq (vgl. √ Beispiel 35 3.) hat. Danach wird das Z zu Z = S√n −µ n, was nach wenig Rechnung zur pq Behauptung führt. 11 Vgl.Beispiel 44 4. 264 Wahrscheinlichkeitstheorie Gaußsches Fehlergesetz (phys. Praktikum): Wird eine Strecke l mehrfach, etwa n mal gemessen, so geht man von Meßfehlern aus. Dabei gibt es systematische Meßabweichungen (z.B. instrumentbedingt), grobe Fehler (z.B. Verwerfen von Daten) und zufällige Fehler (Messunsicherheiten). Nach Sicherstellung, daß lediglich noch zufällige Fehler im Spiel sind, wird das Ergebnis der n-fachen Messung, etwa der Höhe eines Tisches (das l) mit l = 80.8 ± 1.4 cm angegeben, nachdem sich, nach Messungsserie und Fehlerrechnung x̄ = 80.7682 und als Maß der Unsicherheit ±1.4327 cm ergeben hat. M.a.W., die Meßunsicherheit wird auf eine signifikante Stelle aufgerundet, außer wenn die erste signifikante Stelle 1 ist. Der zufällige Fehler veranlaßt, statt des wahren, unbekannten Wertes l zu einer Zufallsvariablen X auf Ω := R überzugehen. Die Erfahrung lehrte: 1. kleine Fehler sind häufiger als große, 2. positive und negative Fehler heben einander nahezu auf, 3. Fehler, nahe bei Null, sind am häufigsten. Diese Umstände haben die Frage nach einer Formulierung eines Fehlergesetzes nach sich gezogen (siehe die ausführliche Diskussion in [5]). Gauß schließlich postulierte das nach ihm benannte Fehlergesetz, welches besagt, daß der Meßfehler approximativ normalverteilt angenommen werden darf. Eine gelegentlich zu findende Motivation dafür ist die Einbeziehung des zentralen GWS wie folgt: Zunächst wird angenommen, daß jeder Meßfehler F sich aus einer Vielzahl n von kleinen, stochastisch unabhängigen Elementarfehlern Xi zusammensetzt, d.h. F = n X Xi j=1 und daß er endliche Varianz V (F ) hat. Nimmt man von jedem Elementarfehler an, daß er die gleiche (nicht näher bekannte) Verteilung mit Mittelwert 0 und Streuung σ hat, √ so ist F nach dem zentralen GWS approximativ N (0, σ n)-verteilt. Da n zwar groß, aber nicht beliebig groß, und σ sehr klein ist, betrachtet man somit den Gesamtfehler F approximativ N (0, σF )-verteilt, wobei σF2 ≈ V (F ) gelten muß. Verbesserung der Meßgenauigkeit durch Mittelbildung: Eine andere, gänzlich unterschiedliche Situation zur vorigen stellt das wiederholte (n-fache) Messen, etwa ein und derselben Distanz l dar, die wie vorher durch eine Zufallsvariable X repräsentiert wird. Dabei nimmt man die Unabhängigkeit der wie X identisch verteilten Zufallsvariablen Xj für j = 1, . . . , n an. Dementsprechend wird µ := E(X) als Wert für die Länge l genommen. Das n-fache Messen soll nun approximativ die VerteilungpF von X ermitteln, wobei man grundsätzlich nur an l ≈ µ und der Streuung σ = V (X) interessiert ist, wobei σ als Fehlermaß (Unsicherheit) gewertet wird. In 3. von Beispiel 50 wird der Physikpraktikumsübliche Näherungswert σ̂ beschrieben. 9.3. Approximation mathematischer durch empirische Wahrscheinlichkeit 265 Es ist Xj − E(X) eine plausible Annahme für den j.ten Meßfehler (nämlich tatsächliche unbekannte Länge l minus Wert der j.ten Messung). Das in Anmerkung 48 genannte Fehlermittel X̄ − µ ist eine Zufallsvariable, die, wie schon gesagt, approximativ N (0, √σn )-verteilt ist. Deshalb geht man davon aus, daß sich der Meßfehler mit ausreichender Wahrscheinlichkeit bei oftmaligem Messen besser eingrenzen läßt, weil das Stichprobenmittel zu einer guten Approximation von µ = E(X) (und somit l) wird. In Unterabschnitt 10.2.1 wird µ, bzw. σ die Rolle eines Parameters“ spielen, der anhand ” gemessenen Datenmaterials geschätzt werden soll. Hauptsatz der Statistik – Gliwenko-Cantelli: Im Bernoulliexperiment wurde die Konvergenz der empirischen Wahrscheinlichkeit gegen die mathematische“ betrachtet. Das ” kann auch als Konvergenz der empirischen Verteilungsfunktionen gegen die dem p entsprechende Verteilungsfunktion in Fig. 9.2 angesehen werden. Beim Satz von GliwenkoCantelli geht es ganz allgemein um die gleichmäßige Konvergenz empirischer Verteilungsfunktionen gegen eine (nicht näher bekannte) Verteilung. Siehe Anmerkung 49. Man kann zeigen, daß dieser Satz, ähnlich wie die vorigen Ergebnisse, eine recht einfache Folgerung aus dem zentralen GWS ist (z.B. in [4]). 266 Wahrscheinlichkeitstheorie Kapitel 10 Statistik 10.1 Grundlagen und Kurzbeschreibung 10.1.1 Aufgaben der Statistik Details, die hier möglicherweise beim ersten Durchlesen schwer verständlich sind, werden in den nachstehenden Kapiteln behandelt. Einfach weiter lesen und später diese grobe Übersicht durchsehen. Beschreibende Statistik. Sie befaßt sich mit der übersichtlichen Aufbereitung von (großen) Datenmengen, die durch Messungen im weitesten Sinne zustandekommen. Dazu gehören etwa Histogramme, die manchmal in Prozenten, manchmal in Absolutzahlen – oft auch in Klassen zusammengefaßt – Datenmaterial veranschaulichen. Schließende Statistik. Es geht darum, für eine nicht näher oder nur zum Teil bekannte ~ : Ω → Rk (z.B. ist k = 2 beim Verteilung F einer (vektorwertigen) Zufallsvariablen X Dartschießen, nämlich x- und y-Koordinate) durch folgende Methode eine Näherung zu gewinnen: Man gibt eine natürlich Zahl n vor, mißt“ n-mal und faßt jede Messung als Festle” ~ verteilten ~ i : Ω → Rk auf. Die gen eines Wertes einer wie X zufälligen Variablen X Messung ist so auszuführen, daß keine die andere beeinflußt, und das bedingt, daß die ~ i unabhängig sind. Das Meßergebnis ~xi (der Variablen X ~ i ) heißt dann deren Variablen X Realisation. Einfache Beispiele des Messens: n-malige Wiederholung eines Zufallsexperiments im Bernoulliexperiment, n-maliges Abmessen einer Strecke (z.B. in der Geodäsie). Aus einer Population, d.i. Gesamtheit, n-mal hintereinander in zufälliger Weise“ Elemente ” herausgreifen, die Größe (oder nur das Vorhandensein eines Merkmals, d.i. Wert der Zufallsvariablen nur Null oder Eins) messen, das Element zurücklegen“. ” Die n Messungen stellen ein zufälliges Experiment dar, bei dem die vektorwertige Zu~ 1, . . . , X ~ n ) : Ω → (Rk )n als Wert ( Realisierung“) den Vektor fallsvariable X := (X ” x := (~x1 , . . . , ~xn ) ∈ (Rk )n annimmt. Nun geht es in der schließenden Statistik darum, 267 268 Statistik die experimentell ermittelte Verteilungsfunktion Fn : Rk → [0, 1], nämlich Fn (~x) := |{i | ~xi < ~x}| , n wobei das <“ koordinatenweise zu lesen ist, als Näherungsfunktion von F (~x) anzuse” hen. Insofern wird hier das Bernoulliexperiment (Beispiel 46) verallgemeinert, als dort die Verteilungsfunktion eine recht einfache Treppenfunktion (Fig. 9.2) darstellt. Als theoretische Grundlage dafür wird der in Anmerkung 49 noch zu besprechende Satz von Gliwenko-Cantelli angesehen. In vielen Situationen kennt man die Verteilung F zum Teil, sei es, daß sie von einer bestimmten Form ist, oder daß z.B. plausible Annahmen über die Größe ihrer Varianz gemacht werden können. Oft will man auch nur Kenngrößen von F schätzen, wie z.B. den Erwartungswert der nach F verteilten Zufallsvariablen X. Entsprechend gibt es folgende Teildisziplinen der schließenden Statistik: • Parameterschätzung1 . Man hat genügend Gründe dafür, anzunehmen, daß die Verteilung F eine spezifische Form F (x, θ) hat, bei der θ ∈ Θ ein Parameter in einem Parameterbereich Θ ⊆ Rd ist. Typisches Beispiel ist die Verteilungsfunktion der Normalverteilung N (µ, σ), bei der θ := (µ, σ) ∈ Θ := R2 die Rolle des Parameters spielt. Nun wird eine plausible“ Näherung θ̂ des unbekannten Parameters θ ” mittels der Meßreiheergebnisse x ∈ (Rk )n bestimmt. Zu diesem Zweck konstruiert man eine Schätzfunktion2 Z : (Rk )n → Rd , und berechnet θ̂ := Z(x). Die häufigsten Methoden zur Auffindung einer geeigneten Schätzfunktion Z sind die Momentenmethode3 und die der Maximum Likelihood Schätzung. • Intervallschätzung für einen skalaren Parameters θ mit Konfidenzniveau4 α. Jetzt ist d = 1 und es geht genau wie vorher um die Schätzung eines nunmehr skalaren Parameters θ, (etwa θ = µ = E(X), der Erwartungswert, oder p θ = σ = V (X), die Standardabweichung). Allerdings wird jetzt α (meist ist α ∈ {0.05, 0.02, 0.01}) vorgegeben. Danach konstruiert man skalarwertige Schätzfunktionen θ, und θ von (Rk )n → R derart, daß der zu schätzende Parameter θ θ(x) < θ < θ(x) mit (1−α)×100%iger Wahrscheinlichkeit erfüllt. Die Größe 1−α ist das Konfidenzniveau, die Intervallgrenzen θ(x) und θ(x) sind die Vertrauensgrenzen. Wird dabei die Anzahl der Messungen erhöht, darf man hoffen, daß diese Vertrauensgrenzen enger zusammenrücken. • Prüfen von Hypothesen. Es wird, nicht unähnlich zu vorher, diesmal als Signifikanzniveau bezeichnetes α (meist in {0.05, 0.02, 0.01}) gewählt. Als Hypothese 1 Anderer Name: Punktschätzung. Stichprobenfunktion, Punktschätzer 3 soll hier nicht vorgeführt werden, siehe z.B. [6] 4 Auch Konfidenzschätzung genannt. 2 10.1. Grundlagen und Kurzbeschreibung 269 bezeichnet man eine Aussage, daß für eine vorgegebene Schätzfunktion Z die Zufallsvariable ZX in einem vorgegebenen Bereich liegt (z.B. Null ist, oder in einem Intervall ist). Dem Neyman-Pearson Paradigma folgend, wird die Hypothese H0 als Nullhypothese und eine weitere, sie ausschließende, als Alternativhypothese bezeichnet, und man möchte durch eine Stichprobe festlegen, ob man die Nullhypothese verwerfen kann. Nun wird eine neue Schätzfunktion T konstruiert, die Testfunktion und man ermittelt einen Ablehnbereich A durch die Bedingung P (T ∈ A) ≤ α, was insbesondere dann geht, wenn die Verteilung von T X bekannt ist. Wegen der Annahme von H0 kann man P (T ∈ A) ausrechnen“ und deshalb den Ablehnungs” bereich im vorhinein festlegen. Nun wird, wie schon angedeutet, eine Einzelmessung t für T X ermittelt. Fällt dieses t in den Ablehnungsbereich A, so wird die Hypothese abgelehnt, andernfalls wird sie nicht abgelehnt. Je kleiner α ist, desto geringer wird die Wahrscheinlichkeit dafür, die Hypothese abzulehnen, obwohl sie richtig ist (Fehler 1.Art). Um den Fehler 2.Art, nämlich ein falsches H0 nicht abzulehnen, möglichst unwahrscheinlich werden zu lassen, wird, abhängig vom speziellen Testverfahren, A entsprechend gewählt. Gebräuchliche Testverfahren sind tTest, Wilcoxontest, χ2 -Anpassungstest und Kolmogorow-Smirnow-Anpassungstest, auf die noch einzugehen ist. • Schätzung von Korrelations- und Regressionsgrößen. Im einfachsten Fall geht es um eine R2 wertige Zufallsvariable (X, Y ), von der eine Meßreihe (xi , yi ) als Realisierung vorliegt. Dann liegt eine Punktwolke“ von Daten vor. Nun versucht ” man, insbesondere wenn man Normalverteilung annimmt, eine Dichtefunktion zu erraten, deren Graph konzentrische Ellipsen als Schichtlinien auffweist. Darüber gibt die Kovarianz Auskunft. Im Extremfall können diese Ellipsen faktisch Geraden werden, wodurch man in natürlicher Weise zum Ausgleichen durch Regressionsgerade kommt. Meßreihen helfen, die für diese Fragen relevanten Korrelationsund Regressionsgrößen zu schätzen. 10.1.2 Hauptsatz der Statistik ~ : Ω → Rk eine Zufallsvariable, deren Verteilungsfunktion F : Rk → [0, 1] nicht Es sei X näher bekannt ist (beim Dartschießen ist k = 2, die x- und die y-Koordinate). Nun wird ein natürliches n vorgegeben und n einander nicht beeinflussende Messungen ausgeführt, die ~ verteilter Zufallsvariabler X ~ i : Ω → Rk man als Realisierungen n unabhängiger genau wie X k auffaßt. Dann wird, wie in der Einleitung angesprochen, für jedes ~x ∈ R die Zufallsvariable Fn (~x, ·) : Ω → [0, 1] durch ~ i (ω) < ~x}| |{i | X Fn (~x, ω) := n definiert, wobei das <“ koordinatenweise zu lesen ist. Diese Zufallsvariable beschreibt die ” ~ i unterhalb des Wertes ~x (koorHäufigkeit der Experimente, in denen die jeweilige Variable X dinatenweise von 1 bis k) liegt und wird durch Zufallsexperiment (dem Meßvorgang) ermittelt. 270 Statistik Nämlich, das n-fache Messen ergibt eine empirische Häufigkeitsverteilung Fn : Rk → [0, 1], die durch |{i | xi < x}| Fn (x) := n gegeben ist, und die man als Realisierung der Zufallsvariablen Fn (x, ·) : Ω → [0, 1] auffaßt. Erfahrungsgestützt erwartet man, daß Fn (x) eine gute Approximation von F (x) ist und im Falle eines die Verteilungsfunktion die Stufenform wie in Fig. 9.2 hat, wissen wir das eben durch das Bernoulliexperiment (Beispiel 46). Im allgemeineren Fall kann man sich auf den Hauptsatz der Statistik“ stützen: ” Anmerkung 49 (Gliwenko-Cantelli, 1933) Es sei Dn (ω) := sup |Fn (x, ω) − F (x)| x∈R so ist P ({ω | limn→∞ Dn (ω) = 0}) = 1. In Worten: die Wahrscheinlichkeit dafür, daß Fn im Sinne der Supremumsnorm eine gute Approximation von F ist, geht mit wachsendem n gegen Eins. Je mehr Messungen macht, desto unwahrscheinlicher“ sind größere“ Differenzen zwischen ” ” Fn und F auf R zu erwarten. Also, genau wie beim Bernoulliexperiment ergibt sich beim Erhöhen von n eine immer näher an Eins liegende Wahrscheinlichkeit dafür, daß die aus der Meßreihe abgeleitete Verteilungsfunktion Fn (x) eine brauchbare Approximation für F (x) ist. Wohlgemerkt, keine Gewißheit, lediglich sich erhöhende Wahrscheinlichkeit“. ” 10.2 Schätz- und Testverfahren 10.2.1 Parameterschätzung Von einer zufälligen Variablen X : Ω → Rk hat man Grund zur Annahme, daß sie einer Verteilung F (x, θ) genügt, wobei θ ∈ Θ ⊆ Rd ein Parameter ist (z.B. das p im Falle eines Laplace-W-Raumes, (a, b) ∈ R2 im Falle der Rechtecksverteilung, (n, p) ∈ R2 für die Bernoulliverteilung, oder (µ, σ) ∈ R2 im Falle der Gaußschen Normalverteilung). Nun wird eine Stichprobe x := (x1 , . . . , xn ) ∈ (Rk )n ermittelt, d.h., es werden n Messungen der Variablen X durchgeführt. Dann wird ein Punktschätzer konstruiert, d.i. eine Funktion Z : (Rk )n → Θ und θ̂ := Z(x1 , . . . , xn ) als Näherungswert betrachtet. Bei der Konstruktion von Z spielen folgende Argumente eine Rolle, bei der man den Vergleich mit der Zufallsvariablen ZX(ω) = Z(X1 (ω), . . . , Xn (ω)) heranzieht: 1. Z heißt erwartungstreu, falls E(ZX) = θ. Die Differenz B := E(ZX) − θ heißt Bias oder Verzerrung. Man wünscht sich einen erwartungstreuen Schätzer. 10.2. Schätz- und Testverfahren 271 2. Z ist konsistent5 , wenn Z = Zn als Folge von Schätzern gesehen wird (abhängig von n), und wenn für jedes positive der Grenzwert limn→∞ P (|Zn (X1 , . . . , Xn ) − θ| > ) = 0 ist. Man kann zeigen, daß es dazu ausreicht, daß limn→∞ V (Zn (X1 , . . . , Xn )) = 0 ist. 3. Der erwartungstreue Schätzer Z ist effizienter als der erwartungstreue Schätzer Z 0 , falls für die Varianzen V (ZX) < V (Z 0 X) gilt. Man wünscht sich möglichst effiziente Schätzer. Beispiel 50 Konkrete Beispiele sollen folgen. 1. (Schätzung von p). Es soll das Bernoulliexperiment, wo genau das auch getan wurde (Beispiel 46) in einer Anwendung gezeigt werden: Um laufend die Produktionsgüte eines Betriebes zu testen, werden üblicherweise regelmäßig 5 Stück aus jeder Lieferung genommen und getestet. Im einfachsten Fall soll lediglich die Tauglichkeit geprüft werden und sieht sich veranlaßt, einfachheitshalber anzunehmen, daß p% fehlerhafte Stücke produziert werden. Deshalb werden pro Woche (oder Monat) die Anzahl der fehlerhaften Stücke gezählt. Es entsteht eine Zahlentabelle, bei der übungshalber 30 Lieferungen, also 150=100%, betrachtet werden sollen. Eine Strichliste oder Urliste entsteht, und schließlich die rechts abgebildete Häufigkeitstabelle, deren Spalten angeben, wie viele Fünferauswahlen jeweils 0–5 fehlerhafte Stücke enthalten. 0 5 1 3 2 5 3 2 4 1 5 0 Als Ereignisraum Ω nehmen wir die Menge aller erzeugten Stücke innerhalb eines festen Zeitraumes. Die Zufallsvariable X : Ω → R soll durch X(ω) := 1, falls ωP defekt, und 1 Null sonst sein. Würde man alle Elemente in Ω testen, so hätte man p = |Ω| ω∈Ω X(ω). Da wir lediglich die Stichprobe von 150 Stück testen, ist uns bestenfalls ein Näherungswert p̂ zugänglich. Wie zu erwarten, wird man dies durch die Häufigkeit eines Fehlers in unseren Proben tun. Dabei wird durchaus geschwindelt: Die 150 Stück werden im Vergleich zur Produktion so klein angesehen, daß man bei der Entnahme der Proben keine Beeinflussung von p annimmt. In diesem Sinne ist Z(x1 , . . . , xn ) := |{i|xni =1}| eine auf dem Rn definierte Funktion, die als Schätzer benützt werden soll, die bis auf das n mit dem Ausdruck in Glg.(9.1) übereinstimmt. In unserem Fall ist n = 150 und als Schätzung für θ := p bekommt man mittels der obigen Häufigkeitstabelle p̂ := Z(x1 , . . . , x150 ) = 5+3+5+2+1+0 7 = ≈ 0.093. 150 75 2. (Messwerte). In Fortsetzung der Anwendung des zentralen GWSes (nach Anmerkung 48) beim physikalischen Praktikum“ behandeln wir die Messung einer skalaren Größe, ” etwa einer Länge l. Angenommen, es werden 10 Messungen gemacht und systematische Fehler ausgeschlossen: 5 andere Bezeichnung: asymptotisch erwartungstreu. 272 Statistik 13.1 12.9 13.0 12.9 13.2 13.1 12.9 13.1 12.8 13.1 Welche W-theoretische Deutung ist möglich? Welche Stichprobenfunktion bildet man? Nun faßt man die Länge als Zufallsvariable auf, definiert auf Ω := R. Wäre die exakte Länge bekannt, so wäre die Verteilung F von X durch F (x) = 0 für x < l und F (x) = 1 für l ≤ x. Um Messfehler berücksichtigen zu können, fasst man die zehn Messungen als Realisationen von 10 wie X verteilten Zufallsvariablen auf. 1 P10 Antwort: Danach bildet man die Stichprobenfunktion Z(x1 , . . . , x10 ) := 10 i=1 xi , eine Funktion von R10 → R. Ist dieses Z erwartungstreu? Die Zufallsvariable 10 1 X Z(X1 , . . . , X10 ) := Xi 10 i=1 erweist sich als erwartungstreu, weil 10 10 i=1 i=1 1 X 1 X E(Xi ) = E(X) = E(X) = l, E(Z(X1 , . . . , X10 )) = 10 10 diePvon uns gesuchte Länge ist. Das Gleiche gilt für beliebiges n, also für Z(X1 , . . . , Xn ) = n 1 i=1 Xi . n P Ist Z(X1 , . . . , Xn ) = n1 ni=1 Xi konsistent? P Zunächst gilt wegen E(Xi ) = E(X) = µ die Gleichung E(Z(X1 , . . . , Xn )) = n1 ni=1 E(Xi ) = E(X) = µ. Nun ergibt die Ungleichung von Tschebischeff (Anmerkung 45), indem man dort statt X unser Z einsetzt: P (|Z − E(Z)| ≥ ) ≤ V (Z) . 2 Wenn für wachsendes n der Ausdruck auf der rechten Seite gegen PNull geht, ist die Konsistenz erfüllt. Um dies zu zeigen, soll zunächst V (Z) = V ( n1 ni=1 Xi ) berechnet werden, wobei wegen der Annahme der Unabhängigkeit der wie X verteilten Zufallsvariablen Xi Anmerkung 37 gilt, sodaßE(Xi Xj ) = E(Xi )E(Xj ) = E(X)2 = µ2 berücksichtigt werden kann: P V (Z) = E(Z 2P ) − E(Z)2 = P E(( n1 ni=1 Xi )2 ) − µ2 = n12 E( ni=1 Xi2 + 2 1≤i<j≤n Xi Xj ) − µ2 n = n12 nE(X 2 ) + 2 2 µ2 − µ2 = V (X) n . Somit enthält die rechte Seite in der Tschebischeffschen Ungleichung den Faktor n1 , der die gewünschte Konvergenz gegen Null bei n → ∞ bewirkt. Welche Schätzung ergibt sich für l unter Anwendung des vorgestellten W-theoretischen Konzepts? 10.2. Schätz- und Testverfahren 273 Antwort: Man setzt die zehn Meßwerte (n = 10) in den Schätzer ein. Eine numerisch sinnvolle Methode besteht in folgender Rechnung 10 x̄ := 1 X 1 1 xi = 13+ (0.1−0.1+0.0−0.1+0.2+0.1−0.1+0.1−0.2+0.1) = 13+ = 13.01 10 10 100 i=1 Anmerkung: Auf die Physikpraktikumsübliche Angabe eines Meßfehlers soll in 3. eingegangen werden. 3. (Schätzung von µ bzw. σ für eine Verteilung). Die Tabelle aus dem vorigen Beispiel soll jetzt folgende Deutung haben: Aus einer Population soll durch die zehnelementige Stichprobe auf den Mittelwert und die Varianz geschlossen werden. Mit ähnlichen Rechnungen wie vorher zeigt man: P (a) Die Schätzfunktion Stichprobenmittel Z(x1 , . . . , xn ) := n1 ni=1 xi (bei uns ist n = 10) ist konsistent und erwartungstreu. Ist die unbekannte Verteilung eine N (µ, 1)Normalverteilung, so ist sie auch eine effizienteste. Die Abkürzung x̄ ist für das Stichprobenmittel, und X̄ := ZX. 1 Pn 2 (b) Die Schätzfunktion Stichprobenvarianz Z(x1 , . . . , xn ) := n−1 i=1 (xi − x̄) ist konsistent und erwartungstreu. Wo kommt das (n − 1) in der Formel für die Stichprobenvarianz her? 1 Pn 2 Antwort: Man betrachtet die Zufallsvariable ZX = n−1 i=1 (Xi − X̄) , in der X̄ := P P P n n n 1 1 2 2 2 i=1 Xi ist. Es ist E( n−1 i=1 (Xi − X̄) ) = i=1 (E(Xi ) + E(X̄ ) − 2E(Xi X̄)) = n 2 2 nE(X 2 ) +nE(X̄ 2 ) − 2nE(X̄ 2 ) = n(E(X ähnlich wie im vorigen Beispiel Pn ) − E(2X̄ ). Die 1 2 laufende Rechnung E(X̄ ) = n2 E(( i=1 Xi ) ) = n12 (nE(X 2 ) + n(n − 1)E(X)2 und Einsetzen ergeben ! n 1 X (Xi − X̄)2 = E(X 2 ) − E(X)2 = V (X). E n−1 i=1 Das (n − 1) braucht man für die Erwartungstreue! Welcher Schätzwert σ̂ ergibt sich für die Standardabweichung aus der Tabelle? Antwort: Es ist n − 1 = 9 und somit kann man unter Benützung von x̄ = 13.01 aus dem vorigen Beispiel 10 1X 1 σ̂ = (xi −13.1)2 = (0.092 +0.112 +0.012 +0.112 +0.192 +0.092 +0.112 +0.092 +0.932 +0.092 ) ≈ 0.0166, 9 9 2 i=1 also ist σ̂ ≈ 0.13. Wie lautet daher die Physikpraktikumsgerechte Antwort auf die Frage, wie lang das l ist? Antwort: Es ist l ≈ µ̂ ± σ̂ ≈ 13.0 ± 0.1. Dabei ist µ̂ das Stichprobenmittel und σ̂ 2 die Stichprobenvarianz, wie oben erklärt. 274 Statistik Anmerkung 51 (Maximum Likelihood Schätzer - R.A.Fisher). Es sei X eine Zufallsvariable, bei der man Grund zur Annahme hat, daß sie eine Verteilungsdichte (oder im Falle einer diskreten Verteilung Wahrscheinlichkeitsfunktion) f (x, θ) mit θ ∈ Θ ⊆ Rn hat, kennt aber den Parameter θ nicht. Gesucht wird eine plausible Schätzung θ̂. Man verschafft sich durch Messung eine Stichprobe (x1 , . . . , xn ), die als Realisierungen unabhängiger identisch wie X verteilter unabhängiger Zufallsvariabler aufgefaßt werden kann. Deshalb hat die gemeinsame Verteilungsdichte der Zufallsvariablen (X1 , . . . , Xn ) die Gestalt n Y L(x, θ) := f (xi , θ). i=1 Die Idee, einen Schätzer zu konstruieren, besteht darin, die vorgelegte Stichprobe als wahrscheinlichste Beobachtung“ zu interpretieren, m.a.W., θ̂ so zu wählen, daß das ” Maß dafür, der Wert von L, möglichst groß wird, wenn man an der Stelle (x1 , . . . , xn ) auswertet. Als Maximum Likelihood Schätzer, kurz MLS, bezeichnet man jene Wahl einer Funktion Z(x1 , . . . , xn ), die als Lösung der Funktionalgleichung L(x1 , . . . , xn , Z) = max{L(x1 , . . . , xn , θ) | θ ∈ Θ} gefunden wird. Unter geeigneten Glattheitsbedingungen von L und wenn das Maximum für jede Wahl der xi eindeutig ist, kann man die einfachere Gleichung ∂ L(x1 , . . . , xn , θ) = 0 ∂θ nach den θ auflösen, sodaß θ = Z(x1 , . . . , xn ) der gesuchte Schätzer ist. (Ähnliches gilt, falls θ ∈ Rd ist). Unter geeigneten Glattheitsbedingungen an f kann man zeigen, daß der MLS konsistent ist, er ist jedoch nicht immer erwartungstreu bzw. am effizientesten. Beispiel 52 Beispiele hiezu: 1. Es sei p die nicht näher bekannte Wahrscheinlichkeit für das Eintreten eines Ereignisses. Es sei möglich, das Bernoulliexperiment (Beispiel 46) auszuführen, d.h. man setzt X : Ω → {0, 1} gleich 1, wenn das Ereignis eintritt, und Null sonst, und geht davon aus, daß man n-mal unabhängig voneinander durch Experiment den Ausgang des Ereignisses feststellen kann. Man bekommt somit eine Stichprobe (x1 , . . . , xn ) ∈ {0, 1}n . Gesucht ist ein MLS für p. P Wie in Beispiel 46 ausgeführt, ist S := ni=1 xi verteilt gemäß L(x1 , . . . , xn , p) = pS (1− p)n−S . Differenzieren nach p und Nullsetzen ergibt 0 = SpS−1 (1 − p)S−1 − (1 − S)pS (1 − p)−S , woraus sich S(1 − p) = p(n − S) wird, und man schließlich auf das schon in 10.2. Schätz- und Testverfahren 275 Beispiel 46, bzw. Beispiel 50 2. gefundene Stichprobenmittel S(x) = Z(x1 , . . . , xn ) = 1 (x1 + · · · + xn ) n kommt. 2. Es sei X : Ω → R eine auf dem Intervall [a, b] gleichverteilte Zufallsvariable (Beispiel 28 3.). Gesucht ist ein MLS für die Parameter a, b, falls man eine Stichprobe (x1 , . . . , xn ) ∈ Rn hat. 1 Die Verteilungsdichte ist b−a , falls x ∈ [a, b) ist, und sonst Null. Somit ergibt sich 1 L(x1 , . . . , xn , a, b) = (b−a)n falls alle xi ∈ [a, b) sind, und Null sonst. Die Funktion ist bezüglich (a, b) nicht differenzierbar, nimmt aber ihr Maximimum dort an, wo b − a unter der Bedingung (∀i)xi ∈ [a, b) minimal wird, und das passiert für b − a = max{xi | i = 1, . . . , n} − min{xi | i = 1, . . . , n} der Fall. Somit sind b̂ := max{xi | i = 1, . . . , n} und â := min{xi | i = 1, . . . , n} Schätzwerte. Der Schätzer ist nicht erwartungstreu. 3. Es sei X : Ω → R eine auf R+ bezüglich einer Exponentialverteilungsdichte (Beispiel 43) f (x, λ) := λe−λx verteilte Zufallsvariable. Es sei möglich, n Stichproben durch unabhängige Versuche zu ermitteln. Man ermittle einen MLS für λ. Pn Die Maximum Likelihood Funktion ist L(x1 , . . . , xn , λ) = λn e−λ i=1 xi , die für λ = 0 verschwindet. Durch Differenzieren P nach dem Parameter λ ergibt sich zunächst 0 = nλn−1 e−λS − λn Se−λS , wobei S := ni=1 xi . Elementare Rechnung ergibt den MLS n Z(x1 , . . . , xn ) := Pn i=1 xi 10.2.2 . Intervallschätzung Es sei X : Ω → Rk eine Zufallsvariable, deren Dichte die Gestalt f (x, θ) mit x ∈ Rk und θ ∈ Θ ⊆ R ist. Die Gestalt dieser Verteilungsfunktion ergibt sich aus einer Annahme, die in der konkreten Situation gemacht werden kann. Allerdings ist θ nicht bekannt, und man versucht eine Näherung θ̂ aus einer Stichprobe zu finden. Im vorigen Abschnitt wurden Punktschätzer hiezu verwendet. Ist der Stichprobenumfang (das n) im Verhältnis zur Gesamtheit klein, so kann die Konsistenz eines Schätzers, nämlich, daß mit Wahrscheinlichkeit Eins die Schätzwerte bei n → ∞ gegen den korrekten Parameter konvergieren, nicht in quantitativer Form in Anspruch genommen werden – man weiß nicht wirklich wie nahe θ̂ am gesuchten θ dran ist.“ Deshalb ” verzichtet man bei der Methode der Intervallschätzung auf die Berechnung eines solchen Näherungswertes, sondern macht eine wahrscheinlichkeitstheoretische Aussage über die Lage von θ indem man folgende Prozedur anwendet: 1. Zunächst wird eine Irrtumswahrscheinlichkeit α (meist ist α ∈ {0.05, 0.02, 0.01}, kann bei heiklen Problemen auch wesentlich kleiner sein) vorgegeben. 2. Als nächstes bestimmt man Stichprobenfunktionen θ, θ : (Rk )n → R, derart, daß θ(x1 , . . . , xn ) ≤ θ(x1 , . . . , xn ) für alle i und xi ∈ Rk gilt. 276 Statistik 3. Die beiden Funktionen geben Anlaß, Zufallsvariable θX und θX ins Spiel zu bringen, für die bei konkreter Stichprobe x = (x1 , . . . , xn ) ∈ (Rk )n Realisierungen θ(x) und θ(x) vorliegen. Für diese beiden Zufallsvariablen wünscht man sich die Garantie P ({ω | θX(ω) ≤ θ ≤ θX(ω)}) > 1 − α. 4. Hat man diese theoretische Vorarbeit“, nämlich 1.–3. geleistet, ermittelt man mittels ” der vorliegenden Stichprobe x = (x1 , . . . , xn ) Werte θ(x) und θ(x) und hat die Garantie: Die Wahrscheinlichkeit dafür, daß der gesuchte Parameter θ im Intervall [θ(x), θ(x] ” liegt, ist zumindest 1 − α. “ Vorteil: erhöht man n, die Anzahl der Messungen, so passen sich die Intervallschranken an, mit hoher Wahrscheinlichkeit werden sie dabei enger“. ” 5. Die Normalverteilung spielt immer dann eine Rolle, wo die Zufallsvariable annähernd normalverteilt angenommen werden darf: (a) Die Binomialverteilung B(n, p) (siehe Beispiel 40) ist es (in der Praxis), wenn 9 n > p(1−p) (vgl. Satz von De Moivre-Laplace gleich nach Anmerkung 48). (b) Das Gaußsche Fehlergesetz kommt bei wiederholtem Messen zum Einsatz (vgl. Anmerkung 48 und dort das Beispiel zum Physikpraktikum. Beispiel 53 Im Nachfolgenden die häufigsten Situationen von Intervallschätzungen. 1. (Schätzen einer unbekannten Wahrscheinlichkeit p) Jemand hat n = 10000 mal (in unabhängiger Weise) Proben einer Produktion gezogen, dabei 300 Fehler gefunden und p̂ := 3 × 10−3 als Näherung für die Wahrscheinlichkeit p des Auftretens von Fehlern angenommen. Nun soll zu α := 0.1 als Irrtumswahrscheinlichkeit ein p̂− ≤ p̂+ gefunden werden, sodaß P (p− < p < p+ ) ≥ 1 − α, m.a.W., daß mit 90%-iger Wahrscheinlichkeit, die gesuchte Wahrscheinlichkeit p im Intervall (p− , p+ ) liegt. 9 Antwortfindung: Die oben zitierte Faustregel besagt 10000 > p(1−p) , und für p̂ = −3 3 × 10 ist das sichtlich der Fall. Allerdings, das ist der Näherungswert, das p ist unbekannt. Gegen Ende von Beispiel 46 wurde die gleiche Fragestellung mittels der Ungleichung von Tschebischeff behandelt und P (0 ≤ p ≤ 8 × 10−3 ) > 0.90 (10.1) gefunden, also, daß mit 90%-iger Wahrscheinlichkeit p im angegebenen Intervall liegt. 9 Leider ist für p so nahe an Null die Arbeitshypothese n > pq nicht erfüllt. Es ist jede der n Variablen Xi (zufälliges Ziehen von Proben mit Zurücklegen) mit nicht √ näher bekannter Wahrscheinlichkeit p und Standardabweichung σ = pq verteilt (wir wissen das aus Beispiel 35 3.) verteilt. Nun besagt der zentrale GWS unter Zuhilfenahme √ √ √ √ von Beispiel 44 4., daß X̄−µ n = X̄−p n approximativ N (0, 1)-verteilt ist. pq pq 10.2. Schätz- und Testverfahren 277 Um die Methode gut zu verstehen, brauchen wir in Kürze die Ungleichung in etwas anderer Form beschrieben, nämlich |X̄−p| √ √ n pq <z 6 p ∈ (p̂− (ω), p̂+ (ω)), wobei p̂− (ω) ≤ p̂+ (ω) die Lösungen der quadratischen Gleichung z2 z2 2 − 2X̄(ω) + p + X̄ 2 (ω) = 0 p 1+ n n sind. Anwendung des zentralen GWS (De Moivre-Laplace, vgl. unmittelbar nach Anmerkung √ 48) ergibt wegen Beispiel 44 6. P (| X̄−p n| < z) ≈ 2Φ(z) − 1 ≈ 1 − α. Lösen der letzten σ α dieser Gleichungen ergibt das 1 − 2 -Quantil z1− α2 . Dieses z = z1− α2 und ein durch Messung ermitteltes p̂ = X̄ = nk werden in die obige quadratische Gleichung gesteckt, um danach konkrete Schätzwerte für p mit Vertrauensgrenze 1 − α zu finden, m.a.W., man p− ≤ p+ als Lösungen von z2 z2 2 p 1+ − 2p̂ + p + p̂2 = 0. (10.2) n n Und gibt es jetzt endlich eine Antwort auf die letzte Frage in Beispiel 46, nämlich, ob die Glg.(10.1) angegebene Schätzung durch Approximation von B(n, p) durch eine entsprechende Normalverteilung verbessert werden kann? Sind die im Satz von De Moivre-Laplace (gleich nach Anmerkung 48) genannten Approximationsbedingungen np > 4 und nq > 4 erfüllt? 300 Ja. Es ist p̂ = nk = 10000 = 3 · 10−3 und einer Φ-Tabelle (z.B. in [4]) entnimmt man z1− 0.1 = z0.95 ≈ 1.645 für die Normalverteilung N (0, 1). Die quadratische Gleichung 2 wird zu p2 (1 + 2.7 · 10−3 ) − (2 · 3 · 10−3 + 2.7 · 10−5 )p + 9 · 10−10 = 0, deren Lösungen (etwa mittels MAPLE) auffindbar sind: > fsolve({p^2*(1+2.7*10^(-3))-(2*3*10^(-3)+2.7*10^(-3))*p+9*10^(-6)=0},{p}); {p = 0.002767527675}, {p = 0.003243243243} (Lang ersehnte) Antwort: Mit 90%-iger Sicherheit darf gesagt werden, daß die gesuchte Wahrscheinlichkeit p im Intervall [2.7 · 10−3 , 3.3 · 10−3 ] liegt. Diese Aussage ist präziser als jene in Glg.(10.1). Es ist n = 104 , p > 2.7 · 10−3 und q = 1 − p > 0.5, also sind die genannten Approximationsbedingungen erfüllt. 6 2 z n Die völlig elementare Herleitung geht so: p− 2 z n p2 ⇔ obige Bedingung. |X̄−p| √ √ n pq < z ⇔ (X̄ − p)2 < z2 (p(1 n − p) ⇔ p2 − 2pX̄ + X̄ 2 < 278 Statistik Wie lauten die in der Einleitung zu diesem Unterabschnitt 10.2.2 genannten Stichprobenfunktionen θ und θ des Intervallschätzers? Welchen Wert hat k? Antwort: Es ist k = 1, weil die gesuchte Variable p ein Skalar ist. Die oben gebildeten Zufallsvariablen p− , p+ : Ω → R sind die gesuchten Schätzfunktionen θ, θ. Man findet sie als Lösungen der quadratischen Glg.(10.2) für p, explizit hat man mit dem aus der Gleichung 2Φ(z) − 1 = 1 − α gefundenen z := z1− α2 die reellen Funktionen 2 θ(x) := z x̄+ 2n 2 (1+ zn ) + z 2 (1+ zn ) q z2 4n2 − z 2 (1+ zn ) q z2 n3 2 θ(x) := z x̄+ 2n 2 (1+ zn ) + + x̄−x̄2 n (10.3) x̄−x̄2 n . In der Praxis geht man gelegentlich davon aus, daß p ≈ x̄q ist, also mit 100×(1−α)%-iger Wahrscheinlichkeit p ∈ (x̄ − , x̄ + ) liegt, wobei := z 2 x̄(1−x̄) n ist. An Glg.(10.3) er- z2 n gegenüber x̄ vernachlässigen kann. Will man mit kennt man, daß das geht, wenn man der Theorie im Einklang leben, empfiehlt sich die etwas kompliziertere Form Glg.(10.3) des Schätzers, in der für die im allgemeinen mäßig großen z die numerische Stabilität“ ” ganz gut berücksichtigt worden ist. Wie würde man Glg.(10.3) verwenden, um ein Intervall (p− , p+ ) zu finden? Antwort: Es ist x̄ = nk = 3 · 10−3 die relative Häufigkeit (jene die gemessen worden ist). Das z = z1− 0.1 wurde schon oben zu 1.645 bestimmt. Danach setzt man in Glg.(10.3) 2 ein und findet das in der Antwort zur vorigen Frage angegebene Intervall. 2. (Schätzung von unbekanntem µ bei bekanntem σ für eine N (µ, σ)-verteilte Zufallsvariable X : Ω → R.) Von einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R kennt man einen groben Richtwert der Streuung σ (etwa als Erfahrungswert). Weiters liegt eine Realisierung von (X1 , . . . , Xn ) : Ω → Rn vor, konkret gesagt, man hat eine Tabelle (x1 , . . . , xn ) ∈ Rn von Messungen. Wie kann bei Vorgabe einer Irrtumswahrscheinlichkeit α ein Intervallschätzer θ, θ für µ konstruiert werden? P Antwort(findung): Die Stichprobenfunktion X̄ := n1 ni=1 Xi : Ω → R ist wegen Beispiel 2 44 N (µ, σn )-verteilt. Deshalb ist X̄ − µ √ P n < z = Φ(z) − Φ(−z) = 2Φ(z) − 1. σ Ähnlich wie im vorigen Beispiel ist es nützlich, die Ungleichung auf der linken Seite in äquivalenter Form als zσ zσ X̄ − √ ≤ µ ≤ X̄ + √ n n zu lesen. Nun, auch ähnlich wie im vorigen Beispiel, ermittelt man eine Lösung z = z1− α2 der Gleichung 2Φ(z) − 1 = 1 − α. 10.2. Schätz- und Testverfahren 279 Antwort: Es ist unter Verwendung der Funktion x̄ : Rn → R, definiert durch x̄(x1 , . . . , xn ) := 1 Pn i=1 xi das Paar n zσ zσ θ(x) = x̄(x) − √ , θ(x) = x̄(x) + √ n n ein Intervallschätzer, wobei z = z1− α2 das 1 − α2 -Quantil der Normalverteilung, also die Lösung von Φ(z) = 1 − α2 ist. Demnach hat man eine 100 × (1 − α)%-ige Garanzσ zσ , x̄(x) + √ ) liegt, wobei x die Tabelle der (durch tie, daß µ im Intervall (x̄(x) − √ n n Zufallsexperiment) ermittelten Werte von X ist. Es sei die Tabelle aus Beispiel 50 2. gegeben. Weiters sei bekannt, daß die Streuung der Längenmessung (z.B. wegen der verwendeten Methode) bei 0.1 Einheit liegen kann und man mache die Annahme, daß der Fehler normalverteilt ist (etwa aufgrund des Fehlergesetzes). Man gebe für eine Irrtumswahrscheinlichkeit von α := 0.01 und α = 0.1 jeweils ein Konfidenzintervall für die zu messende Länge l an. Antwort: Zunächst findet man für x̄(x) (das meist schlampig“ mit x̄ abgekürzt wird) ” den Wert 13.01 (wurde in Beispiel 50 2 schon ausgerechnet). Es ist n = 10, und z = z1− 0.01 = z0.995 = 2.576 aus einer Tabelle für Φ ([4], S 61 ff). Die simple Rechnung 2 liefert 99%-ige Sicherheit für l ∈ (13.01 − 0.081, 13, 01 + 0.081), also l ∈ (12.9, 13.1). Für α = 0.1 findet man z = z0.95 = 1.645. Die analoge Rechnung liefert, daß l mit 90%-iger Sicherheit im Intervall (13.01 − 0.052, 13.01 + 0.052) = (12.96, 13.062) liegt. Anmerkung: Im Physikpraktikum wird mit Recht darauf hingewiesen, daß die Erhöhung der Anzahl n ab ca n = 10 eher nur langsam das Intervall verkleinert, weil der Funktionsgraph von √1n für große n flach“ verläuft. ” Im Weiteren benötigen wir noch zwei Verteilungen, die beide mittels der Gammafunktion definiert werden. Anmerkung 54 Die Gammafunktion ist für positive x durch Z ∞ Γ(x) := e−t tx−1 dt 0 definiert. Beispiel 55 (χ2n -Verteilung) Die Dichte der χ2n -Verteilung (mit n Freiheitsgraden) ist durch ( 0 x≤0 f (x) := 1 −x/2 n/2−1 e x x>0 2n/2 Γ(n/2) R∞ definiert. Dabei ist Γ(x) die für x > 0 definierte Gammafunktion Γ(x) := 0 e−t tx−1 dt. Man kann E(X) = n und V (X) = 2n zeigen (etwa in [6]). Der Freiheitsgrad“ n kommt daher, ” daß man für n unahbhängige N (0, 1)-verteilte Zufallsvariable Xi : Ω → R zeigen kann, daß Pn die Zufallsvariable i=1 Xi2 : Ω → R eine χ2 -Verteilung in n Freiheitsgraden hat. Die Ideee der Herleitung ist ähnlich, wie im Falle der Gleichverteilung in Beispiel 35 2. 280 Statistik Beispiel 56 (tn -Verteilung oder Studentverteilung7 ) Die Dichte einer tn -verteilten Zufallsvariablen X : Ω → R ist durch −(n+1)/2 1 Γ((n + 1)/2) x2 fX (x) := √ 1+ Γ(n/2) n nπ n gegeben. Sie ist symmetrisch bezüglich µ = E(X) = 0 und für n ≥ 3 ist V (X) = n−2 . Im weiteren wird noch benötigt werden, daß für eine N (0, 1)-verteilte Zufallsvariable X und eine χ2n -verteilte Zufallsvariable Y der Quotient √X eine tn -Verteilung hat. Y /n Anmerkung 57 Die Anwendung von tn - und χ2n -Verteilung beruht auf folgenden Fakten für eine beliebige, reellwertige N (µ, σ)-verteilte Zufallsvariable X: • Das Stichprobenmittel n 1X Xi X̄ = n i=1 ist für unabhängig durchgeführte Experimente N (µ, √σn )- verteilt (siehe Beispiel 44). • Die normierte Stichprobenvarianz n 1 X (Xi − X̄)2 Y := 2 σ i=1 erweist sich als χ2n−1 -verteilt. Das ist deshalb interessant, weil die Stichprobenvarianz n 1 X S := (Xi − X̄)2 n−1 2 i=1 in der Gleichung Y = (n − 1)S 2 σ2 vorkommt. • Die Stichprobenfunktion X̄ − µ √ √ n, S2 (welche erwartungstreuer und konsistenter Schätzer der normierten Zufallsvariablen √ Z = X̄−µ n ist – das Z ist wie im zentralen GWS Anmerkung 48), ist tn−1 -verteilt. σ • Quantile von N (0, 1), χ2n−1 und der tn−1 -Verteilung sind für viele Werte n tabelliert (z.B. in [1]), bzw. in Statistiksoftware, wie z.B. R, zugänglich. 7 Sie wurde von W.S. Gosset auf empirischem Weg gefunden und er hat sie unter dem Pseudonym Student“ ” 1908 publiziert, da er von seiner Firma keine Erlaubnis hatte, sie unter eigenem Namen zu veröffentlichen. 10.2. Schätz- und Testverfahren 281 Beispiel 58 Nun zu Schätzungen von σ bzw. µ, bei denen man χ2n−1 und tn−1 benützt. 1. (Schätzung von µ bei Unkenntnis von σ für eine N (µ, σ)-verteilte Zufallsvariable) Es sind für vorgegebene Irrtumswahrscheinlichkeit α Stichprobenfunktionen θ : Rn → R und θ : Rn → R für µ (vgl. den Beginn, Unterabschnitt 10.2.2) gesucht, wobei über σ nichts bekannt ist, derart daß durch nach n-maligem unabhängigen Zufallsexperiment vorliegendem Datenmaterial x = (x1 , . . . , xn ) ∈ Rn mit Konfidenzniveau (1 − α) die Aussage P (µ ∈ (θ(x), θ(x)) ≥ 1 − α getroffen werden kann. √ Antwort(findung): Wie in Anmerkung 57 ausgeführt, genügt X̄−µ n einer tn−1 -Verteilung. S Ist (der Kürze halber) F die Verteilungsfunktion (die für viele n tabelliert vorliegt), so hat man in Analogie zu Beispiel 53, 2. P (| X̄ − µ √ n| < z) = F (z) − F (−z) = 2F (z) − 1 = 1 − α, S wobei letzteres wegen der Symmetrie der Dichtefunktion von tn−1 gilt (vgl. hiezu die an Beispiel 44 6. anschließende Erklärung). Nun besorgt man sich mittels Tabelle der tn−1 -Verteilung ([4]. S.61 ff) die Lösung z = z1− α2 der Gleichung F (z) = 1 − α2 . Die gleiche Umformung der Ungleichung auf der linken Seite wie in Beispiel 53 2. ergibt zS zS P (µ ∈ (X̄(ω) − √ , X̄(ω) + √ )) ≥ 1 − α. n n P 1 Pn 2 Antwort: θ(x) = x̄ − √zsn , θ(x) = x̄ − √zsn , wobei x̄ := n1 ni=1 xi , s2 = n−1 i=1 (xi − x̄) , α und z die Lösung von Tn−1 (z) = 1 − 2 ist (Tn−1 die Verteilungsfunktion der tn−1 Verteilung). Wie in Beispiel 53 2., soll das unbekannte µ aus der Meßtabelle von Beispiel 50 2. analog wie dort für Irrtumswahrscheinlichkeiten α ∈ {0.01, 0.1} geschätzt werden, wo es um die Länge l einer als normalverteilten Zufallsvariablen (weil mit Fehler behaftet – vgl. den Abschnitt nach Anmerkung 48) ging. Antwort(findung): Der Bequemlichkeit halber sei die Meßtabelle nochmals angeführt. Aus ihr ging hervor, daß n = 10 und x̄ = 13.01 war. 13.1 12.9 13.0 12.9 13.2 13.1 12.9 13.1 12.8 13.1 Es ist s̄2 = 19 (4×0.092 +3×0.112 +0.192 +0.212 +0.012 ) ≈ 1.65×10−2 . also s̄ = 1.3×10−1 . Nun wird das 1 − α2 Quantil der t9 -Verteilung bestimmt, es ergibt sich aus einer Tabelle (z.B. in [4] S 61 ff) z9;1− 0.01 = z9;0.995 ≈ 3.250 z9;1− 0.1 = z9;0.95 ≈ 1.833. 2 2 282 Statistik Dementsprechend ergibt sich der Term −2 zs̄ √ n zu −2 3.250×3.96×10 √ 10 ≈ 4.07 × 10−2 ≈ 0.041 √ für α = 0.01 und zu 1.833×3.96×10 ≈ 0.023 für α = 0.1. Entsprechend ergeben sich als 10 zs̄ zs̄ √ √ Intervalle (s̄ − n , s̄ + n ) im 1.ten Fall (12.93, 13.08) und im 2.ten Fall (12.94, 13.14). Antwort: Unter der Annahme einer N (µ, σ)-Verteilung ist die Länge l mit 99%-iger Sicherheit im Intervall (12.93, 13.08), bzw. mit 90%-iger Sicherheit im Intervall (12.94, 13.14). Die Normalverteilungsannahme ergibt somit ein klein wenig mehr Genauigkeit als Beispiel 53 2. 2. (Intervallschätzung für σ einer N (µ, σ)-verteilten Zufallsvariablen X : Ω → R bei nicht bekanntem µ. ) Diese Schätzung ist vorallem dann interessant, wenn man nur wissen will, ob die Meßwerte stark streuen. Man bestimme Stichprobenfunktionen θ, θ : Rn → R, sodaß bei gegebener Irrtumswahrscheinlichkeit α und entsprechender Tabelle von n unabhängigen Meßdaten mit Konfidenzniveau 1 − α die Varianz σ 2 im Intervall (θ(x), θ(x)) liegt. Antwortfindung: Man will aus den Daten einen Näherungswert σ̂ von σ und ein z, sodaß die Ungleichung |σ 2 − σ̂ 2 | < z mit P Wahrscheinlichkeit ≥ 1 − α gültig ist. Es bietet sich die Stichprobenvarianz S 2 = n 1 2 i=1 (Xi − X̄) an, weil sie erwartungstreu und konsistent ist, und nach Auswerten n−1 mittels der Daten einen Schätzwert σ̂ 2 von σ 2 ergibt. P Wegen Anmerkung 57 ist Y := σ12 ni=1 (Xi − X̄) gemäß χ2n−1 verteilt. Deshalb ist P (a ≤ Y ≤ b) = F (b) − F (a), wobei F die Verteilungsfunktion von tn−1 ist. Da die Ungleichung a ≤ Y ≤ b wegen 2 1 Pn 2 Y = (n−1)S (zur Erinnerung, S 2 = n−1 i=1 (Xi − X̄) ) in äquivalenter Form als σ2 (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ b a angeschrieben werden kann, ergibt sich P( (n − 1)S 2 (n − 1)S 2 ≤ σ2 ≤ ) = F (b) − F (a) = 1 − α, b a sodaß man jede Lösung (a, b) von F (b) − F (a) = 1 − α zur Konstruktion eines Intervallschätzers heranziehen kann. Es ist gebräuchlich, b aus der Gleichung F (b) = 1 − α2 und a aus F (a) = α2 zu bestimmen. Das ist nicht die einzig mögliche Lösung, sie erfüllt aber F (b) − F (a) = 1 − α. Antwort: Eine (sehr gebräuchliche) Lösungsmethode ist wie folgt. Es seien b und a die 1 − α2 bzw. α2 Quantile der χ2n−1 -Verteilung. Danach bildet man in gewohnter Weise die (n−1)s2 1 Pn 1 Pn Funktionen s2 = n−1 i=1 (xi − x̄) (wobei x̄ := n i=1 xi ) und findet θ(x) = b und θ(x) = (n−1)s2 . a Hat man die konkreten Datenwerte x = (x1 , . . . , xn ) vorliegen, so 10.2. Schätz- und Testverfahren 283 wertet man die beiden Funktionen aus und kann sagen, daß σ 2 mit Wahrscheinlichkeit ≥ 1 − α in diesem Intervall liegt. Es soll für die im vorigen Beispiel angegebene Meßreihe ein Konfidenzintervall mit Irrtumswahrscheinlichkeit α = 0.1 bestimmt werden. Antwortfindung: Wie eben gesagt, brauchen wir das α2 = 0.05 Quantil a, bzw. 1 − α = 0.95 Quantil b für die χ9 -Verteilung (weil es 10 Meßpunkte sind). Man findet a = 3.325 und b = 16.92 aus einer entsprechenden Tabelle ([4], S 61ff). Das s2 = 1.66 × 10−2 wurde schon im vorangehenden Beispiel bestimmt. Die Intervallgrenzen ergeben sich zu 9×1.66×10−2 ≈ 0.0448. 3.325 (n−1)s2 b = 9×1.66×10−2 16.92 ≈ 0.0088 und (n−1)s2 a = Antwort: Die Varianz σ 2 liegt mit 90%-iger Sicherheit im Intervall (0.009, 0.045). Es soll zum Abschluß eine mit 90%-iger Sicherheit geltende obere Grenze für σ 2 angegeben werden. (Es genügt mir, zu wissen, daß die Streuung i.A. nicht größer als dieser Wert ist.) Antwortfindung: Man braucht nur das a als Lösung der Gleichung F (a) = α = 0.1. Es ergibt sich a = 4.168 aus der gleichen Tabelle der χ29 Verteilung. Danach ergibt sich das −2 rechte Intervallende zu 9×1.66×10 ≈ 0.036. 4.168 Antwort: Mit 90%-iger Wahrscheinlichkeit ist die Varianz σ 2 < 0.036 ist. 10.2.3 Statistische Testverfahren Hier soll nur ein Einblick für 1-dimensionale Zufallsvariable bzw. Parametertests für 1parametrige Verteilungen behandelt werden. 1. Es sei eine Zufallsvariable X : Ω → R gegeben, über deren Verteilung eine Aussage, die sogenannte Nullhypothese H0 vorliegt. (z.B. X hat einen Erwartungswert ≥ 50“, ” konkreter Die Partei XY wird demnächst mindestens 50% der Parlamentssitze bekom” men“) oder Die Strahlungskonzentration um die Unglücksstelle ist mit der Entfernung ” exponentialverteilt mit Exponent λ > 50“. Ein Testverfahren zur Widerlegung einer Nullhypothese im ersten Fall heißt Parametertest (hier wäre der Parameter θ := µ = E(X)), im anderen Fall spricht man vom Anpassungstest (nämlich ob die Meßdaten einer Exponentialverteilung angepaßt“ sind). ” Beim Parametertest besteht die Nullhypothese in der Aussage θ ∈ Θ0“ (im obigen ” Fall ist Θ0 = [50, ∞)) und die Alternativhypothese in θ ∈ Θ1“ für Parameterbe” reiche Θ0 , Θ1 ⊆ R, von der man die Unvereinbarkeit mit H0 fordert (also z.B. H0 : θ ∈ Θ0 := [45, 55]“ und H1 : θ ∈ Θ1 := [0, 30]“). ” ” In abstrakter Fassung: Man weiß, FX ∈ F, einer Menge von Verteilungen. H0 bedeutet die Aussage FX ∈ F0“ für eine gewisse Teilmenge F0 ⊂ F und H1 , daß FX ∈ F \ F0 ” ist. Parametrische Form: F = {Fθ | θ ∈ Θ} und F0 = {Fθ | θ ∈ Θ0 } 284 Statistik 2. Grundsätzlich sollte H0 widerlegt werden (auch wenn das nicht immer der Fall ist) und man gibt zunächst ein Signifikanzniveau α (meist in {0.1, 0.01, 0.001}, manchmal auch kleiner) vor, nämlich dafür, daß man H0 im Zuge des Verfahrens ungerechtfertigt verwirft (sogenannter Fehler 1.Art). Nun konstruiert man eine Testfunktion T : Rn → R, deren Verteilung F unter der Annahme von H0 bekannt ist. Weiters wird ein Ablehnungsbereich oder kritischer Bereich Kα ⊆ R konstruiert (meist ein Intervall), und zwar durch die Bedingung P (T X ∈ Kα ) ≤ α, wobei die bekannte Verteilung F zur Berechnung herangezogen R ∞wird. Etwa, wenn f eine Dichte der Verteilung F von T X ist, durch P (T X ∈ Kα ) = −∞ T (x)f (x) dx. Abstrakt: Man konstruiert T : Rn → R, sodaß T X eine Verteilung F besitzt, die sich für jedes F0 ∈ F0 mittels T berechnen läßt. Im parametrischen Fall ist F = Fθ als Funktion von θ ∈ Θ0 ausdrückbar. Insbesondere ist P = Pθ von diesem θ abhängig. 3. Es werden n unabhängige Messungen der Variablen X gemacht. Beschrieben wird das durch einen Zufallsvektor X : Ω → X mit Realisierung x ∈ Rn (die gemessene Tabelle). Danach wird mittels der konreten Stichprobe x ∈ Rn getestet: ist T (x) ∈ Kα (d.h., wenn der Wert der Testfunktion im kritischen Bereich liegt), so lehnt man H0 ab, andernfalls gilt sie als aufgrund des statistischen Befundes nicht abzulehnen. 4. Wird H0 aufgrund der Daten nicht verworfen, obwohl H0 falsch ist, begeht man einen Fehler 2.Art. Als Gütefunktion bezeichnet man g : F → [0, 1] definiert durch 8 g(F ) := PF (T X ∈ Kα ) Für F ∈ F0 ist g(F ) die Wahrscheinlichkeit dafür, einen Fehler 1.Art, für F ∈ F \F0 die Wahrscheinlichkeit dafür, daß der Test das erkennt, m.a.W., daß auf F die Alternative Hypothese H1 zutrifft und die Nullhypothese H0 zurecht verworfen wurde. Die Einschränkung von g auf F0 heißt Irrtumswahrscheinlichkeit 1.Art, und 1 − g das Konsumentenrisiko. Die Einschränkung von g auf F \ F0 heißt Trennschärfe (auch Macht, Power) des Testverfahrens und 1 − g Irrtumswahrscheinlichkeit 2.Art. Auf die Gütefunktion soll hier nicht eingegangen werden. Siehe hiezu z.B. [6]. Beispiel 59 (Parametertests) Die einfache Nullhypothese lautet H0 : θ = θ0 . Dabei kann θ eine Wahrscheinlichkeit, eine Streuung, etc. sein. Getestet wird üblicherweise gegen eine der folgenden Alternativen H1 : 8 Es ist PF ((−∞, x)) = F (x), somit PF das von der Verteilungsfunktion bestimmte Maß. 10.2. Schätz- und Testverfahren 285 • θ 6= θ0 : wenn z.B. das Werkstück das Ausmaß θ0 und weder zu lang oder kurz sein darf; • θ < θ0 : wenn z.B. θ0 die vom Werk behauptete Funktionsdauer eines technischen Geräts ist; • θ > θ0 : wenn z.B. θ0 die von der Firma behauptete Maximalzahl der Produktionsfehler einer Lieferung ist; 1. Jemand möchte zeigen, daß eine Münze nicht regelmäßig ist, und möchte sie n mal (unabhängig) werfen, um die Häufigkeit von K (Kopf), bzw. Z (Zahl) zu ermitteln (ein Bernoulliexperiment, vgl. Beispiel 46). Dazu werde eine Irrtumswahrscheinlichkeit α = 0.05 angegeben und, unter der Annahme daß man P ({K}) ∈ (0.4, 0.6) geschätzt wird, soll die Wahrscheinlichkeit β einen Fehler 2.Art zu begehen, höchstens gleich 0.05 sein. Nach welcher Regel entscheidet man? Antwortfindung: Liegt ein parametrischer Test vor? Wie lauten Θ und θ, falls ja? Antwort: Es liegt ein parametrischer Test mit θ = p ∈ Θ = [0, 1] als Parameter. Wie formuliert man H0 und H1 ? Wie lauten Θ0 und Θ1 ? Antwort: Man will die Nullhypothese H0 P ({K}) = 12 “ durch Experiment widerlegen. ” Θ0 = { 21 }. Als Alternativhypothese H1 wurde |p− 12 | ≥ 0.1“ formuliert. Demnach ist Θ1 = [0, 0.4]∪ ” [0.6, 1]. Wie können T und der Ablehnungsbereich konstruiert werden? Antwort(findung): Wie bei allen Bernoulliexperimenten ist lediglich das Eintreten eines Ereignisses (hier K) von Interesse und somit beobachtet man die Zufallsvariable X : Ω = {K, Z} mt Wert 1 oder 0, je nachdem, ob K oder Z kommt. Entsprechendes nfaches unabhängiges Werfen wird durch den Zufallsvektor X : Ω → {0, 1}n beschrieben 1 Pn und danach ist X̄ := n i=1 Xi : Ω → R jene Zufallsvariable, die nach Auswerten der Meßergebnisse die relative Häufigkeit kn0 annimmt. Sie gibt Anlaß, die Funktion 1 Pn T (x) := n i=1 xi : Rn → R als Testfunktion heranzuziehen. Den Ablehnungsbereich Kα besorgen wir uns ähnlich, wie man ein Konfidenzintervall konstruiert: Es genügt z ≥ 0 mit P (|X̄ − 21 | ≥ z) = α = 0.05 anzugeben. Weil |X̄ − 21 | ≥ z ⇔ −z ≤ X̄ − 12 ≤ z ist, ergibt sich 1 1 P (|X̄ − | > x) = 1 − P ((|X̄ − | ≤ x) = 1 − (FX̄− 1 (x) − FX̄− 1 (−x)). 2 2 2 2 Unter der Annahme von H0 kann die Verteilung von T X = X̄ mittels des zentralen X̄− 1 √ GWS (Anmerkung 48) approximativ bestimmt werden, weil ja Z = 1/22 n approximativ N (0, 1)-verteilt ist. Das ergibt √ √ √ 1 − α = FX̄− 1 (x) − FX̄− 1 (−x) = Φ(2x n) − Φ(−2x n) = 2Φ(2x n) − 1, 2 2 286 Statistik √ also die Gleichung Φ(2x n) = 1 − α2 , die nach Ermittlung des entsprechenden Quantils z1− α2 = z0.975 = 1.960 auf √ 2x n = 1.960 führt, sodaß sich in Abhängigkeit von n als Ablehnungsbereich 1 0.98 1 0.98 K0.05 = [0, 1] \ ( − √ , + √ ) 2 n 2 n eignet. Wie formuliert man die Bedingung, daß die Wahrscheinlichkeit, einen Fehler 2.ter Art zu begehen, höchstens β ist? Antwort: Dazu benützt man die Gütefunktion g für Werte von Parametern, auf die H1 zutrifft. Die Gütefunktion ist für p ∈ Θ1 = [0, 0.4] ∪ [0.6, 1] definiert durch g(Fp ) = √ ). Pp (|T X − 21 | ≥ 0.98 n 2. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable mit bekanntem σ. Weiters sei H0 die Nullhypothese µ = µ0“. Gegeben sei ein Signifikanzniveau α. Man beschreibe ” ein Testverfahren für H0 gegen die Alternativhypothese µ 6= µ0“. ” Antwortfindung: Es liegt nahe, Θ0 = {µ0 } und Θ1 := R \ {µ0 } zu wählen. Nun kan man das Problem mittels eines Intervallschätzers behandeln: Die Forderung an Kα , nämlich Pµ0 (X ∈ Kα ) ≤ α und die Symmetrie der Gaußverteilung um µ legen es nahe, Kα als Komplement eines Konfidenzintervalls für die Irrtumswahrscheinlichkeit α zu bestimmen. 3. Es sei X : Ω → R eine N (µ, σ)-verteilte Zufallsvariable und H0 die Hypothese σ = σ0“, ” sowie H1 die Alternativhypothese σ 6= σ0“. Wie kann für gegebenes Signifikanzniveau ” α ein Testverfahren konstruiert werden? Antwort: Auch hier genügt es, Kα als Komplement eines Konfidenzintervalls zur Vertrauensgrenze 1 − α anzunehmen. 4. Es seien X, Y normalverteilte Variable. Es sei H0 die Hypothese µX = µY “ und H1 ” die gegenteilige Aussage. Zum Signifikanzniveau α ist ein Testverfahren zur Ablehnung von H0 zu entwickeln. Antwort: Nach dem Additionstheorem für Normalverteilungen erweist sich Z = X − Y als normalverteilt (vgl.Beispiel 44). Nun betrachtet man das neue Problem Z = 0 versus Z 6= 0, indem Kα als Komplement eines Konfidenzintervalls zum Konfidenzniveau 1 − α festlegt. Als Ergebnis dieser Vorgangsweise findet man den t-Test: s X̄ − Ȳ nX nY (nX + nY − 2) T (X, Y ) := q . nX + nY 2 + (n − 1)S 2 (nX − 1)SX Y Y 10.2. Schätz- und Testverfahren 287 Zum Signifikanzniveau ist dann das α-Quantil der tnX +nY −2 -Verteilung zu bestimmen. Danach wird H0 verworfen, wenn die Realisierung von |T | einen größeren Wert annimmt. Beispiel 60 (Anpassungstest) 1. (χ2 -Test) Es sei X : Ω → R eine Zufallsvariable mit Verteilung FX , F0 eine Verteilung (z.B. Normalverteilung oder Gleichverteilung, alle Parameter darin sollen als bekannt festliegen!) und die Nullhypothese H0 durch FX = F0“ gegeben. ” Ein Grenzwertsatz der folgenden Art wird benützt: Es werden mittels einer Tabelle (xk | k = 1, . . . , n) von unabhängig ermittelten Meßwerten von X zunächst Klassen gebildet, d.h. eine Unterteilung von R in paarweise disjunkte Intervalle Ik = [ak , bk ) und für jedes solche Intervall die theoretische Häufigkeit pk := P (Ik ) = FX (bk ) − FX (ak ) gebildet. Es ist dann hk := |{i | xi ∈ [ak , bk )}| n die relative Häufigkeit für Meßwerte im Intervall Ik , von der man erwartet, daß sie approximativ gleich pk ist. Die Theorie zeigt nun, daß für hinreichend großes n die Pearsonsche Stichprobenfunktion χ2 := n X (hk − pk )2 k pk = X (|{i | xi ∈ [ak , bk )}| − npk )2 npk k approximativ χ2m−1 -verteilt ist. Die Hypothese FX = F0“ wird demgemäß verworfen, wenn bei gegebenem Signifikanz” niveau α der Wert der Pearsonschen Stichprobenfunktion für dieses Datenmaterial das α-Quantil χ2α;m−1 überschreitet. Bei der Klasseneinteilung ist es sinnvoll, für jede Klasse die Ungleichung nk > pk9qk einzuhalten (wegen der versteckten“ Benützung des zentralen GWS). ” Ein Würfel wird 1000 mal geworfen und es ergibt sich die Meßreihe Augenzahl 1 2 3 4 5 6 Häufigkeit 168 173 164 167 162 166 Für das Signifikanzlevel α = 0.005 soll gecheckt werden, ob es sich um Gleichverteilung handelt (vgl. Beispiel 1 und Definition 5). Antwort(findung): Hier sind in natürlicher Weise schon 6 Klassen vorgegeben und jede erfüllt nk > 160 ≥ 95 = 64.8. 36 Die Pearsonsche Stichprobenfunktion kann aus der Tabelle unmittelbar abgelesen werden, wobei noch npk = 1000 6 zu berücksichtigen ist: χ2 = 1000 2 2 (164 − 1000 )2 (167 − 1000 )2 (162 − 1000 )2 (166 − 1000 )2 (173 − 1000 6 ) 6 ) 6 6 6 6 + + + + + 1000 1000 1000 1000 1000 1000 6 6 6 6 6 6 (168 − 288 Statistik Es ergibt sich als Wert 107 250 = 0.428. Nun berechnet man das 1 − 0.005-Quantil der χ25 -Verteilung, welches sich zu χ25;0.995 = 16.75 ergibt. Dieser Würfel genügt hohen Standards9 . 2. (Kolmogorow-Smirnow Test) Es besitze die Zufallsvariable X : Ω → R eine stetige Verteilung FX und es sei F0 eine stetige Verteilungsfunktion. Nun sei H0 die Nullhypothese FX = F0“. Man überprüft dies mittels empirischer Verteilungsfunktion Fn , die ” sich aus n unabhängiger Messungen (xk | k = 1, . . . , n) von X ergibt. Der Test beruht auf dem Satz von Gliwenko-Cantelli (Anmerkung 49) in asymptotischer Form: ∞ X λ 2 (−1)j e−2(jλ) . P (Dn < √ ) ≈ Q(λ) := 1 + 2 n j=0 wobei Dn = maxk |Fn (xk ) − F0 (xk )| als Approximation der Kolmogorowdistanz von FX und Fn fungiert. Die Funktion auf der rechten Seite kann für viele Zwecke ab λ ≥ 4 2 durch die einfachere Q(λ) ≈ 1 − 2e−λ ersetzt werden, für die meisten praxisnahen α ∈ {0.1, 0.05, 0.01, 0.005, 0.001} liegt sie in tabellierter Form vor. Das 1 − α-Quantil λ1−α wird hier als Lösung der Gleichung Q(λ) = 1 − α gefunden und √ man verwirft H0 FX = F0“, wenn Dn n > λ1−α ist. ” Wie testet man das vorige Beispiel mit dem KS-Verfahren? Antwort: Gar nicht, da die Verteilungsfunktion beim Würfel unstetig ist, wie in Beispiel 28 1 ausgeführt worden ist. Zwei Meßgeräte zur Messung der gleichen physikalischen Größe X ergeben nach n = 5 Messungen folgende Meßreihen Gerät A 15.1 17.2 19.3 20.4 21.3 Gerät B 15.2 17.1 19.4 20.5 21.2 Auf dem Signifikanzniveau α = 0.05 soll getestet werden, ob die Verteilung für beide Messungen auf dem Intervall [15, 22] als die gleiche anzusehen ist. Antwort: Man kennt die Verteilung der Größe X zwar nicht (nicht einmal ob ihre Verteilung stetig ist). Ihre Differenz sollte jedoch in jedem Intervall den Wert Null mit gleicher Häufigkeit annehmen, es sollte also eine Rechtecksverteilung auf dem Intervall [15, 22] sein. Somit ist F0 (x) = 1 auf dem Intervall. Die Berechnung von D5 ergibt D5 = max{0.1, 0.1, 0.1, 0.1, 0.1} = 0.1 √ und D5 5 ≈ 0.2236. Nun sieht man in einer entsprechenden Tabelle nach und findet für n = 5 als 0.95 Quantil beim KS-Test den Wert λ0.095 = 0.563. Da 0.2236 < 0.563 kann die Nullhypothese Gerät A und Gerät B messen die gleiche Verteilung“ nicht ” abgelehnt werden. 9 Gut möglich, daß die Messungen frei erfunden“ sind. ” 10.3. Kovarianz und lineare Regression 289 Was passiert, wenn die Kollegen, die jeweils auf A und B messen, verschieden lange Meßreihen erzeugen, z.B. der eine mißt für Werte von ca 15 – 22, der andere von 14 – 23? Antwort: In dieser Situation wird häufig der Wilcoxon-Test verwendet (sieh z.B. [13]). 10.3 a) Kovarianz und lineare Regression b) c) Im folgenden soll (X, Y ) : Ω → R2 eine vektorwertige Zufallsvariable sein. In der obigen Skizze würde man für die Dichtefunktion im Fall a) einen glockenartigen Hügel mit kreisförmigen, in b) mit elliptischen und in c) mit extrem schmalen elliptischen Höhenschichtlinien erwarten. Der Mittelpunkt des Kreises, bzw. der Ellipse ist der Erwartungswert von (X, Y ) und läßt sich nun sehr leicht als Massenmittelpunkt (vgl. Beispiel 28 4.) begreifen. Auch Varianz und die zu erklärende Kovarianz haben Bezug zur Mechanik – den Trägheits- und Deviationsmomenten, worauf hier nicht eingegangen werden soll. In c) hätte man sehr steilem Anstieg an den Flanken der Geraden – eher in Richtung der Geraden mit einer Gleichung y = ax + b normalverteilt und senkrecht dazu eine Diracverteilung. Insbesondere würde man in c) auf Y = aX + b mit hoher Wahrscheinlichkeit“ ” schließen wollen. Praktische Probleme dieser Art wären z.B. In welchem Maße beeinflußt ” die Zugabe des Wirkstoffes X das Ertragsaußmaß Y“ (hier vermutet man, kennt jedoch den direkten Zusammenhang von X,Y im allgemeinen nicht) bzw. das Gesetz für die gleichmäßig gleichförmige Bewegung s = vt + s0 (Weg = Geschwindigkeit× Zeit), das so lange gültig ist, bis es durch Tests mit entsprechendem Signifikanzniveau und Gütefunktion falsifiziert wird. Der nun zu erklärenden Begriff Kovarianz tritt auf, weil in b) die Ellipsen (die approximativen Höhenschichtlinien der Dichtefunktion, die jedoch bei der weiter unten zu erklärenden 2-dimensionalen Gaußverteilung exakte Ellipsen sind) alle gedreht sind: Beispiel 61 Es sei (X, Y ) : Ω → R2 eine Zufallsvariable mit Erwartungswert (µX , µY ) und die skalaren Zufallsvariablen haben (natürlich Erwartungswerte µX , bzw. µY ) und Varianzen V (X), V (Y ). Nun betrachten wir die Zufallsvariablen Za,b := aX + bY für alle Werte (a, b), d.h., die Verteilung entlang eines Durchmessers“. Sichtlich ist E(Za,b ) = aE(X) + bE(Y ) ” 290 Statistik weil E linear ist (vgl. Anmerkung 34). Für die Varianz bekommt man nach etwas Rechnung V (Za,b ) = a2 V (X) + 2ab(E(XY ) − E(X)E(Y )) + b2 V (Y ). Der halbe Koeffizient der gemischt quadratischen Glieder ab ist cov (X , Y ) := E (XY ) − E (X )E (Y ) und man nennt diese Zahl die Kovarianz von X und Y . Damit wird V (Za,b ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ) eine quadratische Form in (a, b), deren geometrische Deutung die folgende ist: 1. Ohne Einschränkung wählen wir ein Koordinatensystem in R2 mit (µX , µY ) = (0, 0). 2. Für einen Vektor (a, b) der Länge 1 ist das innere Produkt p aX + bY = X 2 + Y 2 cos((X, Y ), (a, b)) die Projektion von (X, Y ) auf den Fahrstrahl von (0, 0) nach (a, b). p 3. Nun ist V (aX + bY ) ein Maß dafür, wie stark (X, Y ) entlang der Geraden durch (a, b) streut. Dies kann wie folgt zu einer bildhaften Darstellung benützt werden: Man plottet für den Winkel p θ ∈ [0, 2π) auf dem Radiusvektor durch (a, b) := (cos θ, sin θ) den Wert von σθ := V (cos θX + sin θY ). Im allgemeinen bekommt man eine (gedrehte) Ellipse, in ausgearteten Fällen lediglich einzelne Punkte. In Richtung der längeren Ellipsenachse ist dann die Streuung am größten und kann in konkreten Problemen Aufschluß über etwa Richtung stärkster Ausbreitung eines Pilzbefalls etc. beschreiben. Dies sieht man in der obigen Skizze in b) recht deutlich. 4. Analyse der Ellipsen: Als quadratische Form hat 2 2 V (aX+bY ) = a V (X)+2abcov (X , Y )+b V (Y ) = (a, b) V (X) cov (X , Y ) cov (X , Y ) V (Y ) unter der Nebenbedingung a2 + b2 = 1 lokale Extrema, deren Auffindung mittels der Methode von Lagrange Q(a, b, λ) := a2 V (X)+2abcov (X , Y )+b 2 V (Y )−λ(a 2 +b 2 −1 ) und Differenzieren auf V (X) − λ cov (X , Y ) a 0 = , cov (X , Y ) V (Y ) − λ b 0 und somit auf ein (symmetrisches) Eigenwertproblem führt. Die Lösungen (a, b) des EWP ergeben die Achsen der Ellipse, sofern die Ausgangsmatrix regulär ist. Damit kann man in b) der obigen Skizze die Ellipse einzeichnen. 5. Ist genau einer der Eigenwerte Null, so ist die Matrix singulär und es gibt eine lineare Abhängigkeit zwischen X und Y im stochastischen Sinn: Man kann eine Ausgleichsgerade a0 X + b0 Y = a0 µX + b0 µX 0, bzw. 0 = a0 (X − µX ) + b0 (Y − µY ) a b 10.3. Kovarianz und lineare Regression 291 angeben, wobei für V (X) 6= 0 man (a0 , b0 ) = (−cov (X , Y ), V (X )) bekommt. 6. (Gaußverteilung) Ohne Beweis (der durchaus elementar ist) sei hingewiesen, daß jede 2-dimensionale Gaußverteilung von der Form f (x, y) = mit 1 Q(x, y) = 2(1 − ρ2 ) 1 p e−Q(x,y) 2πσX σY 1 − ρ2 (x − µX )2 (x − µX )(y − µY ) (y − µY )2 + − 2ρ 2 σX σY σX σY2 ) ist. Dann erweist sich ρ = covσX(Xσ,Y . Damit folgt für Normalverteilungen aus der UnY korreliertheit auch die Unabhängigkeit. Weiß man nun z.B., daß X, Y beide normalverteilt sind, so verhilft die Lösung des Eigenwertproblems zur Beschreibung der Verteilung als Gaußverteilung im obigen Sinn. Deshalb besteht Interesse an der Ermittlung der Kovarianz bzw. Kovarianzen bei mehr als 2 Variablen. Definition 62 (Ausgleichsgerade) Es sei (X, Y ) : Ω → R eine 2-dimensionale Zufallsvariable mit V (X) 6= 0. Dann heißt die mit der eindeutige Lösung (a0 , b0 ) ∈ R2 der Aufgabe E((Y − aX − b)2 ) ⇒ Minimum gebildete Gerade mit der Gleichung y = a0 x + b0 die Ausgleichs- oder Regressionsgerade10 von Y bezüglich X zur gemeinsamen Verteilung von (X, Y ). Man findet (a0 , b0 ), indem man die Kovarianz cov (X , Y ) := E ((X − µX )(Y − µY )) = E (XY ) − µX µY berechnet als a0 = cov (X , Y ) , b0 = µY − a0 µX V (X) in Übereinstimmung mit jenen von Beispiel 61 5. Der Vorteil dort wäre die Verfügbarkeit etwa der QR-Zerlegung (vorallem im höherdimensionalen Fall wichtig). 10 Regression“, d.i. Rückschritt“, kommt daher, weil die Ausgleichsgeraden um 1900 von Galton und Pear” ” son zur Überprüfung von Vererbungsmerkmalen benützt worden sind. Die Aussage war, daß ein Merkmal bei Kindern von Vätern, bei denen es vom Mittelwert abweicht (Größe), wohl auch abweicht, doch in einem geringeren Ausmaß. Der Zusammenhang des Rückschritts“ wurde linear angenommen. (Aus [13], S 136). ” 292 Statistik Der Nachweis besteht in 2 Schritten. Im ersten Schritt zeigen wir, daß ein Minimum bestenfalls an der Stelle (a0 , b0 ) angenommen wird: Das obige Beispiel in Betracht ziehend, schreiben wir f (x, y) := (y − ax − b)2 = (µY − aµX − b)2 + lineare Glieder in x − µX und y − µY +a2 (x − µX )2 − 2a(x − µX )(y − µY ) + (y − µY )2 . Bildet man nun f (X, Y ) und wendet E an, so ergibt sich die folgende Gestalt der zu minimierenden Funktion g(a, b) := E(f (X, Y )) = (µY − aµX − b)2 + a2 V (X) − 2acov (X , Y ) + V (Y ). Da g als Polynom (in a, b) stetig differenzierbar ist, müssen an (a0 , b0 ) die partiellen Ableitungen sowohl naach a bzw. b verschwinden, wodurch das Gleichungssystem 0 = b + aµX − µY + aV (X) − cov (X , Y ) = b + aµX − µY entsteht, dessen einzige Lösung das obige (a0 , b0 ) ist. Im zweiten Schritt wollen wir zeigen, daß (a0 , b0 ) ein globales Minimum ist, und das ist genau dann der Fall, wenn die Funktion h(u, v) := g(a0 + u, b0 + v) − g(a0 , b0 ) > 0 für alle Werte (u, v) 6= (0, 0) ist. Die völlig elementare Umformung zeigt11 : V (X) + µ2X µX u 2 2 2 . h(u, v) = (V (X) + µX )u + 2µX uv + v = (u, v) µX 1 v Da die Hauptminoren, nämlich V (X)+µ2X und V (X) beide positiv sind, ist diese quadratische Form in (u, v) positiv definit, also gilt die Behauptung. Anmerkung 63 Es gelten die folgenden Aussagen: Übliches lineares Ausgleichen (Gaußnotation): Ist (X, Y ) gemäß eines diskreten Maßes verteilt, so kann man wegen Anmerkung 11 P das Maß durch Punkte (xi , yi ) angeben, denen jeweils ein Gewicht gi > 0 mit i gi = 1 zukommt (es ist gi = P ({xi })). Sind alle Punkte gleichwertig, so sind es endlich viele, etwa n, und haben das gleiche Gewicht n1 , sodaß unter Verwendung der Gaußnotation: nE(X) = X i xi =: [x], nE(XY ) = X i xi yi =: [xy], nE(X 2 ) = X x2i =: [xx] i aus den obigen Gleichungen (die in diesem Fall eher direkt hergeleitet werden) 12 die Normalgleichungen durch Spezialisierung aus Definition 62 folgen: 11 Taylorformel z.B. 10.3. Kovarianz und lineare Regression a0 = 293 n[xy] − [x][y] [y][xx] − [xy][x] , b0 = . 2 n[xx] − [x] n[xx] − [x]2 Die allgemeinere Version, bei der die Punkte Gewichte haben, kann z.B. benützt werden, um manche der Punkte (xi , yi ) beim Approximieren durch eine Gerade ” wichtiger zu nehmen“. Regressionskoeffizient: Es heißt a0 = cov (X , Y ) , V (X) d.i. die Steigung der Ausgleichsgeraden von Y bezüglich X, auch Regressionskoeffizient von Y bezüglich X. Korrelationskoeffizient: Die dimensionslose Größe ρ := cov (X , Y ) σX σY heißt Korrelationskoeffizient der Variablen X, Y . Man kann sehr leicht zeigen −1 ≤ ρ ≤ 1, indem man hX, Y i := E(XY ) als inneres Produkt interpretiert und die CauchySchwarzsche Ungleichung anwendet. Man kann zeigen, daß |ρ| = 1 genau dann gilt, wenn Y = aX + b für mit Wahrscheinlichkeit eins gilt. a hat dann das gleiche Vorzeichen wie ρ. Y = aX + b + Z mit Z ein normalverteilter Fehler: Es sollen a und b aus Stichproben ((xi , yi ) | i = 1, . . . , n) geschätzt werden. In dieser Situation nimmt man an, daß Z ein N (0, σ)-verteilter Fehler ist. Dementsprechend benützt man die Gaußschen Normalgleichungen zur Ermittlung von Schätzwerten von a, b. Unter Verwendung [y] der arithmetischen Mittel x̄ := [x] n und ȳ := n bekommt man eine empirische Ausgleichsgerade in der Form y − ȳ = a(x − x̄). Nun verwendet man für die Abweichung Z = Y − (aX + b) als Approximation für V (Y |X = x) := E((Y − (ax + b))2 ) (die Varianz von Y unter der Bedingung, daß X den Wert x annimmt), n s2 = 1 X (yi − a − bxi )2 . n−2 i=1 Ist cov (X , Y ) gleich Null, so heißen die Variablen unkorreliert. Unabhängige Variable sind stets unkorreliert, die Umkehrung ist im Allgemeinen falsch, wenn X, Y 294 Statistik nicht normalverteilt sind. Ist z.B. Ω := {−1, 0, 1} als Laplaceraum gegeben und X die Identität, sowie Y := X 2 , so ist V (X) = 3 und cov (X , Y ) = E (X 3 ) = 0 . Andrerseits sind die Variablen sichtlich nicht unabhängig. Mehrfaches Messen von yi : Der Fall unterschiedlicher Meßfehler, wenn die xi bekannt, und die yi mehrfach gemessen werden, kann z.B. in [6] nachgelesen werden. Beispiel 64 (Fehlerfortpflanzungsgesetz) Ist f : U ⊆ R2 → R eine stetig differenzierbare Funktion und ist (X, Y ) : Ω → U Zufallsvariable mit X, Y unabhängig, so werden Approximationen von E(X,Y ) (f (X, Y )) und V (f (X, Y )) wie folgt ermittelt: 1. Man ermittelt (µX , µY ), welches lt. Annahme in U liegt und denkt sich f durch seine lineare Approximation ersetzt, wobei der Einfachheit fx := ∂f ∂x etc. geschrieben werde f (x, y) ≈ f0 (x, y) := f (µX , µY ) + fx (µX , µY )(x − µX ) + fy (µX , µY )(y − µY ), wobei die Rechtfertigung für dieses Vorgehen meist daher kommt, daß Fehler höherer Ordnung von f in der Nähe von (µX , µY ) nicht ins Gewicht fallen (ein analytisches Problem – gute Kenntnis von f gefordert) und daß weiters die Verteilung von (X, Y ) sehr kleine Streuung hat, sodaß man in den Genuß der Linearapproximation kommen kann. Deshalb ist E(f (X, Y )) ≈ E(f0 (X, Y )) = f (µX , µY ). 2. Um die weitere Rechnung zu vereinfachen, nehmen wir µX = µY = 0 an. Dann ist f0 (x, y) = ax + by mit a := fx (0, 0) und b := fy (0, 0). Nun erkennt man die Übereinstimmung mit 4. in Beispiel 61, sodaß V (f0 ) = a2 V (X) + 2abcov (X , Y ) + b 2 V (Y ), und wenn man die Ableitungen explizit hinschreibt, ergibt sich das Fehlerfortpflanzungsgesetz V (f (X, Y )) ≈ fx2 (µX , µY )V (X)+2fx (µX , µY )fy (µX , µY )cov (X , Y )+fy2 (µX , µY )V (Y ). 12 In diesem Zusammenhang ist die obige Methode als Methode der kleinsten Quadrate“, so genannt von ” Legendre, der sie zuerst publiziert hat, bekannt ist. Literaturverzeichnis [1] I.N. Bronstein und K.A. Semendjajew, Taschenbuch der Mathematik, Siehe http://de.wikipedia.org/wiki/Taschenbuch_der_Mathematik für die diversen Ausgaben und Buchbesprechung. [2] H.J. Dirschmid, Skriptum aus Mathematik 2 f. ET, Wien, 2001. [3] R. Dutter, Statistik und Wahrscheinlichkeitsrechnung für MB, WI-MB und VT, Wien 2004. [4] K. Grill, Skriptum zur Vorlesung Mathematical ” http://www.ci.tuwien.ac.at/~grill Statistics“, TU-Wien 2000, [5] E. Hardtwig, Fehler und Ausgleichsrechung, BI-Taschenbuch 262/262a*, 1968. [6] J. Heinhold, K.W. Gaede, Ingenieur-Statistik, Oldenburg 1964. [7] S. Karlin and H.M. Howard, A first course in stochastic processes, Second edition. Academic Press, New York-London, 1975. [8] K. Krickeberg, Wahrscheinlichkeitstheorie, Teubner 1963. [9] Mühlbach, Repetitorium der Wahrscheinlichkeitsrechnung und Statistik, ISBN 3-923 92331-7, Binomi, 2000. [10] G.H. Peichl, Einführung in die Wahrscheinlichkeitsrechung und Statistik, Vorlesungsskriptum, Univ. Graz, 1999. [11] P. Szmolyan, Mathematik 1 f. ET, TU Wien, 2005. [12] P. Szmolyan, Mathematik 2 f. ET, TU Wien, 2005. [13] H. Weber, Einführung in die Wahrscheinlichkeitsrechung und Statistik für Ingenieure, Teubner Studienskripten, Stuttgart 1983. [14] Wikipedia, http://de.wikipedia.org/wiki/Hauptseite 295