Skript zur Veranstaltung Stochastik von Gerhard Osius p =p ! 0 ,4 0 0 ,8 0,6 1,0 0,4 0 ,8 0 ,6 1,0 0 ,4 0 ,6 1,0 0 ,8 I I + I I "T I j I I- i : I I r- - ~ r- r- : i i ~ 15 ' I r- { rf 10 r- 20 r- r- <a rf 10 15 I / p ~ 1 25 20 r- 10 ' I ''' ' ' ha I I I I I 15 25 20 t t X X März 2016 Fachbereich Mathematik/lnforma tik Universität Bremen Stochastik 16.3.16 Vorwort- 1 Vorwort Das vorliegende Manuskript bildet die Grundlage der gleichnamigen Lehrveranstaltung für Studierende der Mathematik in den Studiengängen Diplom und Lehramt (Bachelor und Sekundarstufe 2). Um eine gewisse Vollständigkeit zu erreichen, ist es im Laufe der Zeit etwas umfangreicher geworden, und deshalb werden in der Veranstaltung einige Abschnitte (die mit einem * markiert sind) nicht oder nur teilweise behandelt. Die Beweise (der nicht unmittelbar nachvollziehbaren Behauptungen) sind hier bewußt fortgelassen, um die Darstellung der Methoden nicht zu unterbrechen (sie sind in einem separat erhältlichen Beweis-Band zusammengestellt). Obwohl dieses Material primär als Ergänzung und spätere Referenz für die an der Vorlesung Teilnehmenden gedacht ist, eignet es sich auch bedingt zum Selbststudium, wofür es allerdings nicht primär konzipiert ist. Die Veranstaltung Stochastik umfaßt vier Stunden Vorlesung sowie zwei Stunden Übungen pro Woche. Sie gehört zum Grundstudium (Bachelor) der Mathematik und soll eine erste und relativ elementare Einführung in dieses Gebiet geben, wobei sie nur auf Vorkenntnisse aus der Analysis und Linearen Algebra zurückgreifen kann. Eine Vertiefung und Ausweitung des Stoffs im Rahmen von Veranstaltungen zur Maß- und Wahrscheinlichkeitstheorie sowie zur Statistik sind erst im Hauptstudium (Master) vorgesehen. Im Lehramts-Studiengang dagegen ist die Stochastik typischerweise die einzige Veranstaltung zu diesem Thema, und dies hat auch die vorliegende Stoffauswahl mitgeprägt, insbesondere die ausführliche Behandlung von statistischen Verfahren im Zusammenhang mit der Binomial- und der Poisson-Verteilung. Um trotz der elementaren Vorkenntnisse auch ausgewählte (und wichtige) fortgeschrittene Methoden behandeln zu können (z.B. stetige Verteilungen, oder asymptotische Konfidenzbereiche und Tests) wurden einige in der Vorlesung nicht beweisbare Resultate ohne Beweis zitiert (z.B. die Existenz eines Wahrscheinlichkeitsmaßes zu vorgegebener Dichte oder der Zentrale Grenzwertsatz). Der Stoff ist selbstverständlich aus vielen Quellen zusammengestellt, obwohl diese im laufenden Text nicht explizit erwähnt werden (wie dies auch bei Lehrbüchern gängige Praxis ist). - Zunächst werden einleitend (Kapitel 0) einige Anwendungsbeispiele vorgestellt, die der Motivation der später zu behandelnden statistischen Methoden dienen. Die dort auftretenden Fragen werden zum Teil erst gegen Ende des Kurses beantwortet. Danach werden (Kapitel 1) Wahrscheinlichkeitsräume axiomatisch eingeführt und einige konkrtete Verteilungen behandelt. Hierzu werden zwar a-Algebren allgemein definiert aber als konkrete a-Algebren auf überabzählbaren Räumen werden nur die Bore1-Mengen auf der reellen Achse lR (und später im lR n) betrachtet. Als Wahrscheinlichkeitsmaße auf überabzählbaren Räumen werden auf lR (und lR n) auch nur solche betrachtet, die durch eine Dichte gegeben sind (wobei die Charakterisierung einer Verteilung durch ihre Dichte nicht bewiesen wird). Da das Lebesgue-Integral hier noch nicht vorausgesetzt werden kann, beschränken wir uns zuerst auf das Riemann-Integral für stetige Dichten und erweitern dies dann auf Dichten mit höchstens endlich vielen Unstetigkeitsstellen, was für die Betrachtungen hier ausreicht. Stochastik Vorwort- 2 16.3.16 Im Anschluß daran werden Zufallsvariablen (Kapitel 2), bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit (Kapitel 3 und 5), sowie Verteilungsfunktionen (Kapitel 4) behandelt. Unter Verwendung von Faltungen werden (Kapitel 6) neue Verteilungen eingeführt, und das Auftreten von Poisson-Verteilungen wird aus einem Poisson-Prozess hergeleitet. Der Erwartungswert wird hier (Kapitel 7) nicht für beliebige reelle Zufallsvariablen, sondern getrennt definiert für Zufallsvariablen die entweder diskret sind oder eine Dichte haben. Die grundlegenden Eigenschaften des Erwartungswerts werden zwar allgemein formuliert, aber teilweise nur für diskrete bzw. stetige Zufallsvariablen separat bewiesen. Neben der Varianz wird auch die Schiefe einer Verteilung sowie die Covarianz und Korrelation zweier Zufallsvariablen behandelt. Als Einführung in statistische Grundtechniken wird (Kapitel 8) das Schätzen von Erwartungswert und Varianz behandelt. Die Frage nach den asymptotischen Eigenschaften der Schätzer dient als Motivation für stochastische Konvergenzbegriffe. Neben dem (schwachen) Gesetz der großen Zahlen wird der hier nicht bewiesenene Zentralen Grenzwertsatz für unabhängige und identisch verteilte Zufallsvariablen (Kapitel 9) behandelt. Hierbei wird auch die später noch verwendete Abschätzung von Berry-Esseen ohne Beweis angegeben. In diesem Zusammenhang werden auch noch weitere Grenzwertsätze für spezielle Verteilungen erwähnt. Als zweites statisches Verfahren werden (Kapitel 10-12) Konfidenzgrenzen für den Erwartungswert betrachtet. Ausgehend von den exakten Grenzen bei Normalverteilung werden asymptotische Grenzen bei beliebiger Verteilung eingeführt. Im Anschluß daran werden Konfidenzgrenzen für die Wahrscheinlichkeit einer Binamialverteilung (Kapitel 11) und für den Erwartungswert einer Poisson-Verteilung (Kapitel 12) behandelt. Hierbei werden sowohl die exakten (und konservativen) als auch die asymptotischen Grenzen ausführlich hergeleitet und angewandt. Schließlich wird (Kapitel 13) der statistische Test am Beispiel des Tests von (einund zweiseitigen) Hypothesen über eine Wahrscheinlichkeit relativ ausführlich eingeführt, wobei sowohl auf den exakten als auch auf den asymptotischen Test eingegangen wird. Die entsprechenden Tests über den Erwartungswert der Poisson-Verteilung werden dann etwas knapper behandelt (Kapitel 14). Eine nahtlose Weiterführung und Vertiefung der hier behandelten statistischen Verfahren findet sich meinem Skript zur Einführung in die Statistik und zur anwendungsorientierten Veranstaltung Statistik in den Naturwissenschaften (vgl. Literaruturhinweise). Neben kleineren Korrekturen und Ergänzunzen unterscheidet sich diese Auflage von der letzten Version (Februar 2009) in den Abschnitten 4.9 (überarbeitet), 4.10 (neu), 9.1 (Folgen von Zufallsvariablen jetzt mit gemeinsamem Definitionsbereich) sowie dem neuen AnhangS (Statistik-Funktionen in Tabellenkalkulationen). Erfahrungsgemäß enthält das Skript - trotz Korrekturlesen - noch Druckfehler. Bevor man daher am eigenen Verständnis zweifelt, sollte man auch einen Fehler im Skript in Erwägung ziehen. Für Hinweise auf Druckfehler oder andere Kommentare pere-Mail ([email protected]) bin ich dankbar. Bremen, am 16. März 2016 Gerhard Osius Stochastik Inhalt Die mit * markierten Inhalt- 1 16.3.16 (Seiten pro Kapitel) Kapitel - Seite Abschnitte behandeln speziellere Themen und können übersprungen werden. 0. Einleitung und Anwendungsbeispiele 0.1 Leukämiefälle im Umkreis des Kernkraftwerks Krümmel 0.2 Asbestmessungen in Schulgebäuden 0.3 Wahlumfragen 0.4 Klinische Studie 1. Wahrscheinlichkeitsräume 1.0 Mengensysteme 1.1 Wahrscheinlichkeitsmaße 1.2 Endliche Wahrscheinlichkeitsräume 1.2.1 Diskrete Gleichverteilung 1.2.2 Bernoulli-Verteilung 1.2.3 Binomial-Verteilung 1.2.4* Relative Häufigkeiten 1.3 Abzählbare Wahrscheinlichkeitsräume 1.3.1 Poisson-Verteilung 1.4 Reelle Wahrscheinlichkeitsmaße mit Dichten 1.4.1 Normal-Verteilung 1.4.2 Exponential-Verteilung 1.4.3 Stetige Gleichverteilung (21) 1-3 1-7 1-9 1 - 10 1 - 10 1- 11 1- 11 1 - 12 1 - 13 1 - 14 1 - 18 1- 20 1- 20 2. Zufallsvariablen und ihre Verteilungen 2.1 Indikatorfunktion 2.2 Definition einer Zufallsvariable und ihrer Verteilung 2.3 Reelle Zufallsvariablen 2.3.1 Augensumme zweier Würfel Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3.1 Bedingte Wahrscheinlichkeit 3.1.1 Wartezeiten und Exponential-Verteilung 3.2 Stochastische Unabhängigkeit von Ereignissen 3.3 Produkte diskreter Wahrscheinlichkeitsräume 3.3.1 Bernoulli-Wiederholungen und Binomialverteilung 3.3.2 Produktmaß von Gleichverteilungen (6) 2- 1 2- 1 2-3 2-6 (10) 3- 1 3-4 3-5 3-7 3-9 3- 10 3. 4. Verteilungsfunktionen und Dichten 4.1 Verteilungsfunktionen reeller Zufallsvariablen 4.1.1 * Quasi-Inverse einer Verteilungsfunktion 4.2 Verteilungsfunktionen diskreter Zufallsvariablen 4.2.1 Einpunkt-Verteilung, Dirac-Verteilung 4.2.2 Binomial-Verteilung 4.2.3 Poisson-Verteilung (9) 0- 2 0-4 0-6 0-8 (38) 4-1 4-2 4-3 4-4 4-4 4-4 Stochastik 16.3.16 Stetige Zufallsvariablen mit Dichten 4.3.1 Stetige Gleichverteilung 4.3.2 Exponential-Verteilung 4.3.3 Normal-Verteilung 4.4 Dichten transformierter Zufallsvariablen 4.4.1 Lineare Transformationen stetiger Zufallsvariablen 4.4.2 Absolutbetrag und Potenzen stetiger Zufallsvariablen 4.4.3 Log-Normalverteilung 4.4.4 Weibull-Verteilung 4.4.5* Erzeugung von Zufallszahlen 4.5 Zufallsvektoren 4.5.1 Mehrdimensionale Borel-Mengen 4.5.2 Die Verteilung von Zufallsvektoren 4.6 Diskrete Zufallsvektoren 4.6.1 Multinomial-Verteilung 4.7 Stetige Dichten für zweidimensionalen Verteilungen 4.7.1 Zweidimensionale Normal-Verteilung 4.8* Dichten mehrdimensionaler Verteilungen 4.8.1 Multivariate Normal-Verteilung 4.9 Endliche Produkte von Wahrscheinlichkeitsräumen 4.9.1 Spezialfall: reelle Wahrscheinlichkeitsräume 4.9.2 Allgemeiner Fall: beliebige Wahrscheinlichkeitsräume 4.10 Abzählbare Produkte von Wahrscheinlichkeitsräumen 4.3 5. Stochastische Unabhängigkeit von Zufallsvariablen Stochastische Unabhängigkeit diskreter Zufallsvariablen 5.1.1 Randomisierte klinische Vergleichsstudie 5.1.2 Geometrische Verteilung 5.2 Unabhängigkeit bei stetigen Zufallsvariablen mit Dichten 5.2.1 Normalverteilte Zufallsvariablen 5.3 Unabhängigkeit bei Zufallsvektoren 5.1 6. Faltungen von Verteilungen 6.1 Faltung diskreter Verteilungen 6.1.1 Binomial-Verteilung 6.1.2 Multinomial-Verteilung 6.1.3 Faltung von Poisson-Verteilungen 6.1.4 Negative Binomial-Verteilung 6.2 Faltung stetiger Verteilungen mit Dichten 6.2.1 Faltung von Normal-Verteilungen 6.2.2 Faltung von Exponential- und Gamma-Verteilungen 6.2.3 Poisson-Verteilung und Poisson-Prozeß 6.2.4 Elementare Eigenschaften der Gamma-Funktion 6.3 Arithmetische Operationen von Zufallsvariablen 7. Parameter von Verteilungen: Erwartungswert, Varianz, Schiefe, Covarianz und Korrelation Inhalt- 2 4-6 4-9 4-9 4-9 4- 11 4- 12 4- 13 4- 16 4- 18 4- 19 4- 19 4- 20 4- 21 4- 22 4- 22 4- 23 4- 27 4-30 4-32 4-33 4-33 4-34 4-36 (10) 5-3 5-4 5-5 5-8 5-8 5-9 (12) 6-1 6- 2 6- 2 6- 3 6-4 6-6 6-6 6-7 6-9 6- 10 6- 11 (32) Stochastik 16.3.16 7.1 7.2 7.3 Definition des Erwartungswerts Grundlegende Eigenschaften des Erwartungswerts Erwartungswerte spezieller Verteilungen 7.3.1 Erwartungswerte spezieller diskreter Verteilungen 7.3.2 Erwartungswerte spezieller stetiger Verteilungen 7.3.3 Cauchy-Verteilung 7.3.4 Anwendung: Das Sammlerproblem 7.4 Varianz und Standardabweichung 7.5 Varianzen spezieller Verteilungen 7.5.1 Varianzen spezieller diskreter Verteilungen 7.5.2 Varianzen spezieller stetiger Verteilungen 7.6* Symmetrie und Schiefe 7.7 Die Ungleichungen von Chebyshev und Markov 7.7.1 Normalverteilung 7.7.2* Empirische Verteilung 7.8* Covarianz, Korrelation und linearer Zusammenhang 7.8.1 Die Covarianz 7.8.2 Der Korrelationskoeffizient 7.8.3 Die zwei-dimensionale Normal-Verteilung 7.8.4 Linearer Zusammenhang und Regressionsgerade Inhalt- 3 7- 1 7-7 7-9 7-9 7- 10 7- 11 7- 12 7- 15 7- 17 7- 17 7- 17 7- 18 7- 23 7- 24 7- 25 7- 26 7- 26 7- 28 7 - 29 7 - 29 8. Schätzung von Erwartungswert und Varianz (13) 8.1 Schätzung des Erwartungswerts 8-2 8.2 Spezielle Verteilungsmodelle 8 -4 8.2.1 Das Binomial-Verteilungsmodell 8 -4 8.2.2 Das Poisson-Verteilungsmodell 8 -5 8 -5 8.2.3 Das Normal-Verteilungsmodell 8.2.4 * Das Gamma-Verteilungsmodell 8 -5 8.2.5* Das Cauchy-Verteilungsmodell 8-6 8.3* Schätzung der Varianz 8 -6 8.3.1 Schätzung der Varianz bei bekanntem Erwartungswert 8 -6 8.3.2 Schätzung der Varianz bei unbekanntem Erwartungswert 8- 7 8.3.3 Verteilung der Varianz-Schätzer im Normal-VerteilungsmodellS - 8 8 - 10 8.4* Schätzung der Schiefe 8.5* Schätzung der Korrelation und Regressionsgeraden 8 - 10 9. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9.1 Konvergenz nach Wahrscheinlichkeit und Schwaches Gesetz der großen Zahlen 9.1.1 Eigenschaften der Konvergenz nach Wahrscheinlichkeit 9.1.2 Stochastische Konvergenz und Konsistenz von Schätzern 9.2 Verteilungskonvergenz und Zentraler Grenzwertsatz 9.3 Grenzwertsätze für Binomial-Verteilungen 9.3.1 Die Normal-Approximation der Binomial-Verteilung 9.3.2 Anwendung: Wahlumfragen 9.3.3 Die Poisson-Approximation der Binomial-Verteilung (36) 9 -3 9 -5 9 -6 9 -7 9 - 12 9 - 12 9 - 16 9 - 18 Stochastik 9.4* 9.5* 9.6* 9.7* 9.8 16.3.16 Inhalt- 4 9- 20 Grenzwertsatz für Poisson-Verteilungen 9- 21 Grenzwertsatz für negative Binomial-Verteilungen 9- 22 Grenzwertsatz für Gamma-Verteilungen 9- 23 Eigenschaften der Konvergenz nach Verteilung 9- 25 Hypergeometrische Verteilungen 9- 25 9.8.1 Wahlumfragen 9- 26 9.8.2 Zufälliges Ziehen mit und ohne Zurücklegen 9.8.3 Definition und Eigenschaften der hypergeometrischenVerteilung 9 - 28 9.8.4 Anwendungen und Schätzungen 9 - 29 9.8.5 Binamial-Approximation der hypergeometrischen Verteilung 9 - 30 9.8.6 Die multivariate hypergeometrische Verteilung 9 - 31 10. Konfidenzgrenzen für den Erwartungswert 10.1 Exakte Konfidenzgrenzen für den Erwartungswert einer Normal-Verteilung mit bekannter Varianz 10.2* Asymptotische Konfidenzgrenzen für den Erwartungswert einer beliebigen Verteilung 10.3* Exakte Konfidenzgrenzen für den Erwartungswert einer Normal-Verteilung mit unbekannter Varianz (13) 10-3 10- 7 10- 10 11 Konfidenzgrenzen für eine Wahrscheinlichkeit 11.1 Die exakte obere Konfidenzgrenze nach Clopper-Pearson 11.2 Die exakte untere Konfidenzgrenze nach Clopper-Pearson 11.3 Das exakte zweiseitige Konfidenzintervall 11.4 Berechnung der exakten Grenzen 11.5 Die F-Verteilung 11.6 Asymptotische (approximative) Konfidenzgrenzen 11.7 Grobe asymptotische (approximative) Konfidenzgrenzen (19) 11 - 2 11-4 11 - 5 11 -6 11 -8 11-11 11- 16 12 Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung 12.1 Konstruktion der exakten oberen Konfidenzgrenze 12.2 Konstruktion der exakten unteren Konfidenzgrenze 12.3 Konstruktion des exakten zweiseitigen Konfidenzintervalls 12.4 Berechnung der exakten Grenzen 12.5* Asymptotische (approximative) Konfidenzgrenzen 12.6 Anwendung: Asbestmessungen in Schulgebäuden 12.7 Konfidenzgrenzen bei unabhängigen Wiederholungen (12) 12 - 1 12-3 12-4 12 - 5 12-6 12- 10 12- 12 13. Testen von Hypothesen über Wahrscheinlichkeiten 13.1 Der exakte einseitige Binomial-Test mit oberer Alternative 13.1.1 Statistische Tests 13.1.2 Fehlerrisiken und Testschärfe 13.1.3 Der optimale Test zum vorgegebenen Niveau 13.1.4 Analyse des Fehlerrisikos 2. Art 13.2 Der exakte einseitige Binomial-Test mit unterer Alternative 13.3 Der exakte zweiseitige Binomial-Test (32) 13-3 13-4 13- 5 13-8 13- 12 13- 14 13- 16 Stochastik 16.3.16 13.4 Asymptotische Tests 13.4.1 Der asymptotische einseitige obere Binomial-Test 13.4.2 Der asymptotische einseitige untere Binomial-Test 13.4.3 Der asymptotische zweiseitige Binomial-Test 13.5 Planung des erforderlicher Stichproben-Mindestumfangs 13.5.1 Der einseitige obere Test 13.5.2 Der einseitige untere Test 13.5.3 Der zweiseitige Test 14.* Tests für den Erwartungswert der Poisson-Verteilung 14.1 Der einseitige Poisson-Test mit oberer Alternative 14.1.1 Der exakte einseitige obere Poisson-Test 14.1.2 Der asymptotische einseitige obere Poisson-Test 14.2 Der einseitige Poisson-Test mit unterer Alternative 14.2.1 Der exakte einseitige untere Poisson-Test 14.2.2 Der asymptotische einseitige untere Poisson-Test 14.3 Anwendung: Asbestmessungen in Schulgebäuden 14.4 Der zweiseitige Poison-Test 14.4.1 Der exakte zweiseitige Poisson-Test 14.4.2 Der asymptotische zweiseitige Poisson-Test 14.5 Poisson-Tests bei unabhängigen Wiederholungen Inhalt- 5 1313131313131313- 19 19 24 26 28 29 30 31 (14) 14- 1 14- 2 14-3 14-4 14- 5 14-6 14- 7 14- 12 14- 12 14- 13 14- 14 Literaturhinweise (1) AnhangS: Statistik-Funktionen in Tabellenkalkulationen (2) Anhang T: Statistische Tabellen Verteilungsfunktion der Normalverteilung N(0,1) Quantile der N( 0,1) und t- Verteilung Quantile der Chiquadrat-Verteilung Quantile der F- Verteilung Index (12) T -1 T- 3 T- 5 T- 8 (6) Anwendungsbeispiele 0. 1.10.08 0-1 Einleitung und Anwendungsbeispiele Problem: Experimentelle oder beobachtete Daten sind nicht exakt reproduzierbar. Ursachen hierfür sind z.B. Variahilitäten (der Untersuchungsobjekte oder Versuchsbedingungen), nicht kontrollierbare Meßfehler etc. Lösung: Das Einbeziehen des Zufalls in die ModelEerung und Auswertung. Stochastik ist die mathematische Disziplin zur ModelEerung und Untersuchung des Zufalls. Sie umfaßt die Wahrscheinlichkeitstheorie und die darauf aufbauende mathematische (deduktive) Statistik. Die Wahrscheinlichkeitstheorie beschäftigt sich mit: • der Konstruktion von Modellen für stochastische Vorgänge: Zufallsexperimente oder Zufallsbeobachtungen, • der Analyse solcher (stochastischer) Modelle, • der Berechnung von Wahrscheinlichkeiten für interessierende Ereignisse. Zu den Aufgaben der Statistik zählt die Planung und Auswertung konkreter Studien (Experimente, Beobachtungen). Die Auswertung beschäftigt sich primär mit • dem Schätzen unbekannter Modell-Parameter, • dem Testen von Hypothesen über Modell-Parameter. Und bei der Planung stehen im Vordergrund • Auswahl eines geeigneten Auswertungs-Modells nebst zugehörigem Design der Datenerhebung, • Kalkulation des erforderlichen Stichprobenumfangs, der eine zuverlässige statistische Auswertung erlaubt. Zu Beginn wollen wir einige typische Anwendungssituationen für stochastische Fragestellungen kennenlernen, die einerseits als Motivation der teilweise sehr abstrakten Methoden dienen sollen und andererseits später als Anwendungsbeispiele wieder aufgegriffen werden. Hierbei werden auch schon Begriffe verwendet (z.B. Zufallsvariablen, Erwartungswert und spezielle Verteilungen), die von der Schule be- kannt sein sollten und hier erst später formal definiert werden. Anwendungsbeispiele 0.1 0-2 1.10.08 Leukämiefälle im Umkreis des Kernkraftwerks Krümmel Der Kinderarzt M. Demuth berichtet in dem Preprint Leukämiemorbidität bei Kindern in der direkten Umgebung des Kernkraftwerks Krümel (Kassel 1991, Tabelle 1) von Leukämie-Erkrankungsfällen bei Kindern von 0 bis 14 Jahren in der Umgebung des Kernkraftwerks Krümmel und vergleicht die beobachteten Leukämiefälle mit den (unter Berücksichtigung der Bevölkerungsdichte) nach bundesdeutschem Durchschnitt zu erwartenden Fällen. Region Zeitraum Leukämiefälle beobachtet erwartet Samtgemeinde Elbmarsch 1990 1990-1991 1980- 1990 1980-1991 3 4 4 5 0.06 0.13 0.68 0.75 5-km-Radius um das Kernkraftwerk Krümme I 1990 1990-1991 1980- 1990 1980-1991 3 5 4 6 0.21 0.44 2.30 2.53 Tabelle 1: Leukämieerkrankungsfälle bei Kindern von 0-14 Jahren in der Umgebung des Kernkraftwerks Krümel (nach Demuth 1991). Die statistische Analyse dieser Daten soll klären, ob die Abweichungen der beobachteten Leukämiefälle von den erwarteten Fällen noch durch den Zufall zu erklären sind, oder ob bereits eine statistisch signifikante Erhöhung der Leukämie-Inzidenz vorliegt (Die Frage nach einem möglichen kausalen Zusammenhang zum Kernkraftwerk kann die Statistik nicht beantworten!). Hierbei geht man davon aus, daß die beobachtete Anzahl von Fällen (innerhalb einer Region und eines Zeitraums) eine Zufallsvariable X mit einer Poisson-Verteilung ist (vgl. Abb. 1), und vergleicht ihren Erwartungswert p, = E(X) mit dem nach Bundesdurchschnitt zu erwarteten Wert p, 0 (einer vergleichbaren Bevölkerungsgruppe). Ein solcher Vergleich kann durch eine statistischen Test erfolgen, bei dem man sich aufgrund der beobachteten Realisie- rung x von X zwischen den folgenden beiden Hypothesen entscheidet Nullhypothese: p, < p, 0 Alternative: (keine Erhöhung gegenüber Bundesdurchschnitt) 1 (Erhöhung gegenüber Bundesdurchschnitt). Eine andere (äquivalente) Möglichkeit des Vergleich besteht darin, daß man aus der Beobachtung x eine untere Konfidenzgrenze (t (x) für den Erwartungswert p, beu stimmt und sich im Fall (tu(x) < p, 0 für keine Erhöhung (Nullhypothese) entscheidet. Anwendungsbeispiele 0-3 1.10.08 Pofs(~)-VerteHllng : I' ~ P ois(~)- Verte1 1 ung : 0.44 70% 1.1 ~ 2.53 70% 60% 60% 50% 50% Qj -"' J::. ..240% c·a:; .J::. <> l!!30% _r_ ~ 20% 20% 10% 10'/o 0 2 4 Anzahl 6 8 10 0 2 4 6 8 10 Anzahl Abb .. 1: Histogramme der Poisson-Verteilung für zwei Erwartungswerte aus Tabelle 1. Schließlich kann man auch direkt überprüfen, wie wahrscheinlich (bzw. unwahrscheinlich) es ist, daß die beobachtete oder eine noch höhere Anzahl von Leukämie- fällen auftritt, wenn man den Bundesdurchschnitt zugrunde legt. Hierzu berechnet man für die Beobachtung x die Poisson-Wahrscheinlichkeit P{ X> x} unter der Annahme 1-L = 1-Lo' und wenn diese Wahrscheinlichkeit zu gering ist, glaubt man nicht mehr an einen Zufall. Die erforderlichen Methoden zur Analyse obiger Daten werden im Laufe des Kurses eingeführt. Anwendungsbeispiele 0.2 1.10.08 0-4 Asbestmessungen in Schulgebäuden Bei einer Asbestmessung soll festgestellt werden, wie hoch die Asbestfaserkonzentration). [in Fasern pro m 3 ] in dem untersuchten Innenraum ist, und ob der zulässige Grenzwert >. eingehalten wird oder nicht. Hierzu wird die Raumluft von ei0 nem Kompressor durch einen Filter angesaugt, in dem die Asbestfasern hängen bleiben. Ein Teil des Filters wird dann mikroskopisch ausgewertet, um die Asbestfasern dort zu zählen. Die Anzahl X der Asbestfasern in dem ausgewerteten Volumenanteil V [in m 3 ] ist dann eine Zufallsvariable 1 die (in guter Näherung) eine Poisson-Verteilung hat (vgl. Abb. 2). Ihr Erwartungswert p, = E(X) ist die im Volumen V erwartete Anzahl von Fasern und die erwartete Asbestfaserkonzentration [in Fasern pro m 3 ] ergibt sich zu ). = p, /V Ausgehend von einer beobachteten Anzahl x (als Realisierung von X) hat die statistische Analyse folgende Ziele: • Schätzung der Asbestfaserkonzentration A, • Bestimmung einer oberen Konfidenzgrenze ~ (x) für..\, 0 • Überprüfung, ob ein Grenzwert >. eingehalten wird oder nicht, d.h. Durchfüh0 rung eines statistischen Tests zur Entscheidung zwischen den Hypothesen Nullhypothese: A < >. Alternative: A > >. 0 0 (Grenzwert wird eingehalten) 1 (Grenzwert wird überschritten). In der Tabelle 2 sind Auszüge der Original-Protokolle von Messungen aus dem Jahr 1989 wiedergegeben. Die Methoden zur Berechnung der Vertrauens- bzw. Konfidenzgrenzen und die der "Bewertung" zu Grunde liegenden statistischen Tests werden in den Kapiteln 12 und 14 behandelt und in 12.6 bzw. 14.3 auf diese Daten angewandt. Anwendungsbeispiele 0-5 1.10.08 Me ß b e d i n g u n g e n 4.28 mA3 Volumendurchsatz (16.0 °C, 1013 hPa) effektive Filterfläche ausgewerte Filterfläche 350 Bildfelder bei 2500facher Vergrößerung 380 nunA2 l.36mmA2 Me ß e r g e b n i s s e insgesamt gezählte Fasern 0 Asbestfaser - Anzahlkonzentration 0 Fasern/mA3 1 95 Pasern/m"'3 obere Grenze des 95% - Vertrauensintervalls Nachweisgrenze (Poisson-Statistik) B e w e r t u n g In der geprüften Luftmenge wurden keine Asbestfasern gefunden. Die Nachweisgrenze liegt nach den Gesetzen der Poiseon - Statistik u n t e r 400 Fasern/mA3. (Asbest-Richtlinie Mai 1989) M e ß b e d i Volumendurchsatz (16.0 oc, n g u n g e n 3. 65 mA3 1013 hPa) effektive Filterfläche ausgewerte Filterfläche 420 Bildfelder bei 2500facher Vergrößerung Me ß e r g e b n i 380 mmA2 1. 64 mmA2 s s e insgesamt gezählte Fasern 2 Asbestfaser-Anzahlkonzentration 127 Fasern/rn" 3 obere Grenze des 95 %- Vertrauensintervalls (Poisson-Statistik) 460 Fasern/m"' 3 B e w e r t u n g Die gemessene Asbestfaser-Konzentration liegt empfohlenen Grenzwert von 500 Fasern/m" 3. u n t e r dem Mit 95%- iger Wahrscheinlichkeit wird nach der Poiseon-Statistik der empfohlene obere Grenzwert von 1000 um 540 Fasern/m" 3 (Erwartungswert) u n t e r s c h r i t t e n. M e ß b e d i Volumendurchsatz (16.0 oc, n g u n g e n 1013 hPa) effektive Filterfläche ausgewerte Filterfläche 360 Bildfelder bei 2500facher Vergrößerung M e ß e r g e b n i s s e insgesamt gezählte Fasern 8 52 0 Asbestfaser - Anzahlkonzentration obere Grenze des 95%-Vertrauensintervalls (Poisson - Statistik) B e w e r 380 mm"2 1.40 mm"2 t 1, 024 Fasern/rn~ 3 Fasern/m" 3 u n g Die gemessene Asbestfaser-Konze.ntration liegt unter dem geforderten Grenzwert von 1000 Fasern/m3 , bezogen auf den Zustand ~ der Sanierung . Tabelle 2: Protokollaus4züge von Asbestmessungen in Schulgebäuden {1989) . Anwendungsbeispiele 0-6 1.10.08 Pois(IJ}Verteil llng~ IJ =4,00 Pois(IJ)-Verteilung: 20% 20% 15% 15% ijj 'ijj ~ ~ _.!2 _Q ]10% f10% u = 8,00 .r: .r_ c c:: u 0 !!! !/) ..c .r_ "' 3: s:"' 5% 5% 0% ~ I 0 5 10 0% 15 20 25 k 1 0 5 Anzahl 10 15 20 2.5 Anzahl Abb. 2: Poisson-Verteilung der Anzahl von Asbestfasern zm Volumen V für zwez verschiedene Erwartungswerte f-L· 0.3 Wahlumfragen Um den unbekannten Stimmanteil p einer bestimmten Partei zu schätzen, werden n unabhängige Befragungen von Wahlberechtigten durchgeführt. Die Anzahl X der Befürworter dieser Partei unter den n Befragten ist eine Zufallsvariable mit Binomialverteilung B(n,p). Für eine "kleine" Partei (z.B. Die Grünen) mit p = 8% und eine "große" Partei (z.B. CDU) mit p = 40% sind die Wahrscheinlichkeiten für die möglichen Ergebnisse einer kleinen Umfrage mit n = 100 (z.B. eine telefonische Blitz-Umfrage) in Abb. 3 graphisch dargestellt. Die Ziele einer Wahlumfrage (vgl. Abb. 4) sind: • Schätzung des Stimmanteil p, • Bestimmung einer unteren Konfidenzgrenze • Überprüfung, ob ein Mindestanteil p 0 pu für den Stimmanteil p, überschritten wird, z.B. p = 5% bzw. 0 p =50% im Hinblick auf die 5%-Hürde bzw. eine absolute Mehrheit. Der zuge0 hörige statistische Tests soll sich für eine der beiden Hypothesen entscheiden Nullhypothese: Alternative: < p0 p>p 0 p (Stimmanteil nicht über p ) 1 0 (Stimmanteil über p ). Die Methoden hierzu werden im Laufe des Kurses erarbeitet. 0 Anwendungsbeispiele n = 100 Dichte von X mit B(n,p)-Verteil ung: p= 15% 0-7 1.10.08 • • p= 40°!. ·"äl10% -"' .<: .!.! c: ·~ .r:: r.> "' ~ "' !; 5% 0 ~ rh. ..I 0% 5 10 15 20 25 30 Anzahl ~ 35 40 45 50 55 60 65 Abb. 3: Dichten der B(n,p)-Verteilung für n = 100 und p = 8% bzw. p = 40%. Die markierte Fläche links entspricht der Wahrscheinlichkeit P{ X< 5 }, daß der Stimmanteil in der Stichprobe < 5% ist, obwohl der wahre Anteil in der Bevölkerung sogar p = 8% beträgt. Und die markierte Fläche rechts ist die Wahrscheinlichkeit P{ X> 50}, daß die Partei in der Umfrage mindestens 50% hat, obwohl ihr wahrer Anteil nur p = 40% ist (siehe auch Abschnitt 9.3.2). Abb. 4 (Sonntagsfrage): Bei einer Wahlumfrage von Infratest dimap im Februar 2002 ergaben sich bei n = 1300 Befragungen die nebenstehenden prozentualen Anteile (in Klammern: Änderungen gegenüber dem Vormonat). Neben diesen Anteilen ist man an unteren Konfidenzgrenzen interessiert, die den Stimmanteil in der Gesamtbevölkerung zuverlässig abschätzen. Für die kleinen Parteien Die Grünen bzw. die FDP will man z.B. wissen, ob sie trotz ihres Anteils von 6% bzw. 9% in der Umfrage bei einer Wahl an der 5%-Hürde scheitern würden (siehe auch Abschnitt 13.4.1). Quelle: www.infratest-dimap.dejsonntagsfrage Sonntagsfrage Welche Per!GI wCirdon Sie IYthklo, WQM am kan mmden Som ~ BundE>Siagsw<hl w:.e? SoFtStg a r.T:nl ~ 6 (·1) s I) Untersuchungsanlage Grundgesamtheit Wahlberechtigte Bevölkerung 1n Deutschland ab 18 Jahren Stichprobe: Reprasentative Zufallsauswah i/Randomstichprobe Erhebungsverfahren. Computerges!Otzte Telefonlf\terv!ews (CATIJ Fallzahl: 1.300 Befragte (900 West, 400 Ost) Erhebungszeitraum: 2 1. • 26. Februar 2002 Fehlertole ranz:. 1 ,2 ' bis 2.7" ' Prozentpunkte • bei einem Anteilswert von 5% .. bei einem Anteilswert von 50% DurchfC hrendes Institut: Infratest dimap Anwendungsbeispiele 0.4 0-8 1.10.08 Klinische Studie Zur Überprüfung der Wirksamkeit einer neuen - und typischerweise noch nicht zugelassenen - Behandlung einer spezifischen Krankheit wird eine klinische Studie mit n erkrankten Patienten durchgeführt (die hierfür ihr Einverständnis erklärt haben). Der Behandlungserfolg wird vorher gerrau definiert und kann z.B. das Überleben des Patienten nach einem Herzinfarkt oder die Rückbildung eines inoperablen Tumors sein. Von primärem Interesse ist dabei die unbekannte Erfolgswahrscheinlichkeit p der neuen Behandlung, d.h. die Wahrscheinlichkeit, daß sich bei einem zufällig ausgewählten Patienten der Behandlungserfolg einstellt, sowie der Vergleich von p mit der bekannten Erfolgswahrscheinlichkeit p einer Standardtherapie. Die 0 Ziele einer solchen der Studie sind daher: • Schätzung der Erfolgswahrscheinlichkeit p, • Bestimmung einer unteren und oberen Konfidenzgrenze pu und p0 für p, • Überprüfung, ob die neue Behandlung die gleiche Erfolgswahrscheinlichkeit hat wie die Standardbehandlung oder nicht, d.h. der zugehörige statistische Tests soll sich für eine der beiden Hypothesen entscheiden: Nullhypothese: p= p Alternative: p :;= p 0 0 (kein Unterschied bei neuer und Standardbehandlung) 1 (Unterschied bei neuer und Standardbehandlung). Die Anzahl X der Patienten, bei denen der Behandlungserfolg eingetritt, ist eine Zufallsvariable mit Binomialverteilung B(n,p). Als konkretes Beispiel betrachten wir jetzt eine neue Chemotherapie bei einem inoperablen Tumor, wobei die Rückbildung des Tumors als Erfolg angesehen wird. Die Standardtherapie habe nur eine Erfolgsrate von p = 10%, und aufgrund von Tierexperimenten erhofft man sich 0 eine Erfolgsrate der neuen Therapie von p = 30%. Die zugehörigen Binomialverteilungen sind in Abb. 5 dargestellt, sowohl für eine kleine Studie mit nur n = 25 als auch für eine größere Studie mit n = 100 Patienten. Hierbei fällt auf, daß sich beide Binomialverteilungen für n = 25 wesentlich stärker überlappen als bei n = 100. Aus diesen - und anderen intuitiv naheliegenden Gründen - werden die Schlußfolgerungen (für obigen Ziele) mit wachsendem Studienumfang n immer zuverlässiger. Während es aus statistischer Sicht optimal ist, ein möglichst großes n vorzusehen, sprechen andere Gründe wie z.B. hohe Kosten oder noch unbekannte Risiken der neuen Therapie für ein möglichst kleines n. Zur Planung einer klinischen Studie gehört daher ganz wesentlich auch eine statistische Fallzahlkalkulation, bei der das Anwendungsbeispiele 0-9 1.10.08 kleinste n bestimmt wird, mit dem die Studienziele noch hinreichend zuverlässig erreichbar sind (vgl. hierzu Abschnitt 13.5). Abb. 5: Dichte von X mit B(n ,p)-Vertellung : Studien mit n = 25 (rechts) und n = 100 (unten) Patienten - jeweils für die Erfolgsrate p = 10% der Standardtherapie und die erhoffte Erfolgsrate p = 30% der neuen Therapie. Auffällig ist die starke Überlappung beim genngeren P"' 10% 30% Dichten der B(n,p)-Verteilung zwe1er P"' 30% 25% ·'äj20% .J::. ""' .>! c ~15% ""' _c S:"' 10% Umfang n = 25 (deswegen sind dort 5% senkrechten Striche nicht mitgezeichnet) im Vergleich zum größeren Um- 0 2 4 6 B 10 12 Anzahl der Erfolge 14 16 1B fang von n = 100.. Dichte von X mit B(n,p)-Verteilung: p;. 10%0 15% 0 0 ~ i1hd-r J 0% n"' 100 P" 30"1< 5 10 15 20 25 30 35 Anzah l der Erfolge 40 45 50 55 60 65 Wahrscheinlichkeitsräume 1. 1-1 26.2.09 Wahrscheinlichkeitsräume Der Begriff des Zufalls wird in der Umgangssprache in verschiedenen Zusammenhängen benutzt. Im Rahmen der Stochastik beschäftigt man sich jedoch nur mit speziellen zufälligen Vorgängen, die typischerweise bei (wissenschaftlichen) Experimenten, Beobachtungen oder Studien auftreten. Ein solcher stochastischer Vorgang ist charakterisiert durch die folgenden drei Eigenschaften: • Es gibt mehrere mögliche Ergebnisse. Die Menge .f2 aller Ergebnisse heißt der Ergebnis- oder Stichprobenraum. • Das Ergebnis ist nicht exakt vorhersagbar und nicht reproduzierbar. • Der Vorgang ist (prinzipiell bzw. in Gedanken) wiederholbar. Ein Ereignis A ist eine Menge von Ergebnissen, also eine Teilmenge des Stichprobenraums: A C .f!. Man sagt, daß das Ereignis A bei einem Ergebnis w E .f2 eingetreten ist, wenn das Ergebnis w in A liegt, d.h w E A gilt. Ein Elementar-Ereignis A enthält nur ein Ergebnis aE.f2, d.h. A = {a}. Beispiele stochastischer Vorgang Ergebnisse Ereignisse (Beispiele) Werfen eines Würfels Zahlen: 1, 2, ... , 6 gerade Zahl: Roulette-Spiel Zahlen: 0, 1, ... , 36 Rot: { 2, 4, 6} {1,3, ... , 34,36} 1. Dutzend: { 1, 2, ... , 12} "Wahlsonntags-Frage" an Wahlberechtigten stellen alle zugelassenen Parteien Ampel-Koalition: Ziehen einer Kugel aus einer Urne mit markierten Kugeln alle verschiedenen Markierungen spezielle Markierung, z.B. schwarz1 weiß Messung eines Gewichts [kg] positive Zahlen Ubergewicht 1 Untergewicht { SPD, FDP, Grüne} Häufigkeits-Interpretation der Wahrscheinlichkeit Wird ein stochastisches Vorgang n-mal (unter gleichen Bedingungen) wiederholt, so stabilisiert sich für wachsendes n die relative Häufigkeit p (A) mit der ein Ereignis A n bei denn Wiederholungen eingetreten ist (empirisches Gesetz der großen Zahlen), vgl. auch Abb. 1. Der Grenzwert der Folge p (A) für n---+ oo wird als die Wahrscheinlichn keit P(A) für das Ereignis A angesehen. Wahrscheinlichkeitsräume 1-2 26.2.09 Abb. 1: Relative Häufigkeiten bei unabhängigen Wiederholungen für das RouletteEreignis Rot mit der Wahrscheinlichkeit p = gl . 37 oben: die ersten 50 (links) und 1000 (rechts) Wiederholungen, unten: alle 20 000 Wiederholungen mit vergrößerter Achse der relativen Häufigkeit. 100% 90% 80% 70% ·"Q) '=' .:.: 70% 60% '"' -"" """" "":J '"' I ::1 '" so•"l> J: SOo/'!J Q) Q) . > > "" ~ ~ 60% Q) Cl ~ 40% 40% 30% 30% 20% 20% 10% 10% 0% 0 5 10 15 20 25 30 35 40 45 50 0 Anzahl der Wiederholungen --------------------------------------- 51 % - - 400 600 800 1 .000 Anzahl der Wiederholungen 52% - 200 ------------------------------------------------------------ SO% ii) --5,49% ""~ I p ~~~-+--~~~--------------~~~~c-----------~~~~~~~--- p Q) > ::ffi 48% ~ 47% ------------------------------------------------------------------ 46% 45% ~~--~----~--~--~----~--~~--~--~----~~--~--~~--~~ 0 5 000 10.000 Anzahl der Wiederholungen 15.000 20.000 Wahrscheinlichkeitsräume 1-3 26.2.09 Diese Häufigkeits-Interpretation der Wahrscheinlichkeit P(A) kann aber nicht für eine streng mathematische Definition der Wahrscheinlichkeit verwendet werden. Deshalb wird der Begriff der Wahrscheinlichkeit nach A. N. Kolmogorov (1903-1987) hier axiomatisch eingeführt. Dabei zeigt sich, daß es bei überabzählbarem Ergebnisraum .f2 (z.B. einem Intervall reeller Zahlen) nicht immer möglich ist, allen Teilmengen AC .f2 auf sinnvolle Weise eine Wahrscheinlichkeit zuzuordnen. Deshalb wird die Wahrscheinlichkeit P(A) nur für Elemente eines geeigneten Systems d von Teilmengen definiert. 1.0 Mengensysteme Ein Mengensystem d über .f2 ist eine Menge von Teilmengen von D, also eine Teilmenge der Potenzmenge ~(D) von .f2. Wir wollen jetzt spezielle Mengensysteme d beschreiben, die sich zur Beschreibung aller relevanten Ereignisse eignen. Hierzu stellen wir zuerst einige Forderungen auf, die dann zur Definiton einer a-Algebra führen. Zunächst sollen das unmögliche Ereignis 0 (was nie eintritt) und das sichere Ereignis .f2 (was immer eintritt) zu d gehören. Weiter soll mit einem Ereignis A auch das Komplementär-Ereignis (Komplement) zu d gehören. Das Komplementär-Ereignis CA tritt gerrau dann ein, wenn A nicht eintritt. Schließlich sollen mit je zwei Ereignissen A und B auch die Vereinigung AU B und der Durchschnitt An B zu d gehören. Allgemeiner soll mit jeder Folge (An) von Ereignissen auch ihre Vereinigung UA nElN n : = { w E .f2 I es gibt ein n E W mit w E A } n und ihr Durchschnitt nA nElN n : = { w E .a I für alle n E w ist w E A } n zu d gehören. Die Vereinigung von Ereignissen tritt gerrau dann ein, wenn mindestens eins der beteiligten Ereignisse eintritt. Und der Durchschnitt von Ereignissen tritt gerrau dann ein, wenn alle beteiligten Ereignisse eintreten. Wahrscheinlichkeitsräume 1-4 26.2.09 Definition 1: Ein Mengensystem d C ~(D) heißt eine a-Algebra, wenn sie die folgenden Eigenschaften hat: (Al) 0 E d. (A2) d ist abgeschlossen gegen Komplemente: Für jedes A E distauch CA E d. (A3) d ist abgeschlossen gegen abzählbare Vereinigungen: Für jede Folge (A ) ausdistauch n UA nElN n E d. Unter Berücksichtigung der Rechenregeln über Komplemente (1) C.f2=0 C( U A (2) nElN n )= n CA nElN n C( , nA CCA= A, ' nElN n )= U CA nElN n erhält man eine alternative ("duale") Charakterisierung von a-Algebren. Definition 1 1: Ein Mengensystem d C ~(D) ist eine a-Algebra, wenn sie die folgenden Eigenschaften hat: (Al)' .f2 E d. (A2) d ist abgeschlossen gegen Komplemente: Für jedes A E distauch CA E d. (A3) 1 d ist abgeschlossen gegen abzählbare Durchschnitte: Für jede Folge (A ) ausdistauch n nA nElN n E d. Eine a-Algebra d ist insbesondere auch abgeschlossen gegenüber Vereinigungen, Durchschnitten und Differenzen je zweier Elemente (3) A,BEd =? AUE, AnB, A\B=AnCB E d. Damit ist d auch abgeschlossen gegenüber Vereinigung und Durchschnitt je endlich vieler Elemente. Man beachte jedoch, daß d nicht notwendig abgeschlossen ist ge- genüber beliebigen (also auch überabzählbaren) Vereinigungen oder Durchschnitten. Es mag zunächst verwundern, daß eine a-Algebra nicht auch alle ein-elementigen sogenannten Elementar-Ereignisse {w} enthalten muß - ein Gegenbeispiel hierfür Wahrscheinlichkeitsräume 1-5 26.2.09 ist die a-Algebra {0,.f2}. Ohne auf die Hintergründe hierfür einzugehen sei schon jetzt angemerkt, daß die hier konkret verwendeten a-Algebren auch stets alle Elementar-Ereignisse enthalten werden. Die Potenzmenge ~(D) ist offenbar die größte a-Algebra über D. Wenn der Ergebnisraum .f2 endlich oder abzählbar (d.h. höchstens abzählbar) ist, so verwenden wir hier immer diese a-Algebra d= ~(D). Dies ist auch der Grund dafür, daß in der Schule und vielen Lehrbüchern bei der Betrachtung höchstens-abzählbarer Ergebnisräume .f2 auf die Definition von a-Algebren verzichtet werden kann. Bei überabzählbarem Ergebnisraum .f2 - wie z.B. IR oder ein reelles Intervall - ist die Potenzmenge ~(D) jedoch "sehr umfangreich" und man schränkt sich daher auf geeignete a-Algebren d :;= ~(D) ein. Hierbei gibt man sich typischerweise ein "inte- ressierendes" nicht-leeres Mengensystem !?l3 C ~(D) vor, welche noch keine a-Algebra ist. Dann wird das System !?l3 zu einer a-Algebra erweitert, wobei die kleinste !?l3 umfassende a-Algebra gewählt und diese mit a(!?l3) bezeichnet wird. Formal ist a(!?l3) definiert als Durchschnitt aller a-Algebren d C ~(D) mit !?l3 Cd (es gibt mindestens ein solches d, und zwar d = ~( D)): a(!?l3)== n d dc~(D) a-Algebra fllJCd = {AIAEdjürjedea-Algebradc~(D)mit!?l3cd}. Es läßt sich (als Übung) zeigen, daß das so definierte a(!?l3) eine a-Algebra ist (auch wenn .f2 nicht überabzählbar ist). a(!?l3) heißt die von !?l3 erzeugte a-Algebra. Borel-Mengen in IR Für den Ergebnisraum .f2 =IR sind primär die Intervalle als Ereignisse von Interesse, wobei ein reelles Intervall I:;= 0 zu einem der folgenden vier Typen gehört: < a < b < oo , oo < a < b < oo , oo < a < b < oo , oo < a < b < oo . • offen: ( a , b) mit - oo • rechts-offen: [ a , b) mit - • links-offen: ( a , b] mit - • abgeschlossen: [ a , b] mit - Da die Menge J C ~(IR) aller reellen Intervalle keine a-Algebra ist (weil z.B. das Komplement eines Intervalles im allgemeinen kein Intervall ist), betrachten wir die von J erzeugte a-Algebra und bezeichnen sie mit lB: = a(J). Die Elemente BE lB werden zu Ehren des Mathematikers Emile Borel (1871-1956) auch Borel-Mengen ge- Wahrscheinlichkeitsräume 1-6 26.2.09 nannt. Die a-Algebra IB wird bereits von der Teilmenge J 10 aller offenen Intervalle erzeugt, d.h. IB = a(J 0 ), weil sich alle anderen Intervalle als abzählbare Dur- schnitte offener Intervalle darstellen lassen: [a,b) = n (a-1.n 'b), nElN (a,b] = n (a,b+l), n nElN [ a 'b l = n (a- ~ 'b+ ~). nElN IB wird auch noch von anderen Intervall-Mengen a-erzeugt, z.B. von der Menge Jj der links-unbeschränkten rechts-abgeschlossenen Intervalle (4) Jj = mit weil jedes offene Intervall durch Elemente aus (a, b) = (-oo,b) n c(-oo,a] { (- oo, b]I b E IR}, Jj wie folgt darstellbar ist: mit (-oo,b) = U (-oo,b-1.]. nElN n Neben den Intervallen sind auch die folgende Mengen reeller Zahlen Borel-Mengen, wie sich leicht zeigen läßt: • alle ein-elementigen Teilmengen (Elementar-Ereignisse) von IR, • alle endlichen und alle abzählbaren Teilmengen von IR, • alle offenen und alle abgeschlossenen Teilmengen von IR. Es taucht nun die Frage auf, ob es überhaupt Teilmengen von IR gibt, die nicht zu IB gehören. Obwohl dies mit ja zu beantworten ist, kann man solche Mengen nicht elementar angeben: es bedarf des (nicht-konstruktiven) Auswahlaxioms der Mengenlehre um die Existenz solcher nicht-Bore1-Mengen zu zeigen, worauf wir hier verzichten. Wenn wir im folgenden mit dem Ergebnisraum .f2 =IR arbeiten, so werden wir hier immer die a-Algebra d= IB der Bore1-Mengen verwenden. Oft ist der Ergebnisraum .f2 jedoch ein reelles Intervall, oder allgemeiner eine Borel- Menge. In diesem Fall verwenden wir stets die a-Algebra d= IBn aller Borel-Teilmengen von D, d.h. (5) IBn:= {Ben IBEIB} = IBn~(n). Man beachte, daß bei höchstens abzählbarem .f2 C IR die a-Algebra IBn gerrau die Potenzmenge ~(D) ist (weil jede Teilmenge von .f2 höchstens abzählbar). Wahrscheinlichkeitsräume 1.1 1-7 26.2.09 Wahrscheinlichkeitsmaße Den Elementen (Ereignissen) einer a-Algebra d über einem Ergebnisraum .f2 sollen jetzt Wahrscheinlichkeilen zugeordnet werden. Die folgenden Axiomatisierung des Wahrscheinlichkeitsbegriffs geht auf Andrey Kolmogorov (1903-1987) zurück. Definition: Ein Wahrscheinlichkeitsmaß P auf einer a-Algebra d über einem Ergebnisraum .f2 :;= 0 ist eine Abbildung P: d-----+ IR mit den Eigenschaften: (P1) P ist nicht-negativ: P(A) > 0 (P2) P ist normiert: P( .f!) = 1 . (P3) P ist a -additiv: Für jede Folge für alle A E d. (An E d) von paarweise disjunkten Mengen (d.h. Ai n Aj = 0 für alle i :;= j) gilt P( UA nElN n ) = 2: P(A ) . nElN n Das Tripel (D, d, P) wird als Wahrscheinlichkeitsraum (kurz: W-Raum) und das Wahrscheinlichkeitsmaß (kurz: W-Maß) auch als (Wahrscheinlichkeits-) Verteilung bezeichnet. Für ein Ereignis A E dheißt P(A) die Wahrscheinlichkeit (für das Eintreten) von A. Wir stellen zuerst einige elementare Folgerungen aus den Axiomen (P1) - (P3) zusammen. Zunächst hat das unmögliche Ereignis die Wahrscheinlichkeit Null (1) P(0) = 0. Weiter ist P endlich-additiv (2) Für paarweise disjunkte A1, ... , AKE d gilt: Das komplementäre Ereignis hat die (zu 1 komplementäre) Wahrscheinlichkeit (3) P(CA) = 1- P(A) für alle A E d. Die Werte von P liegen immer im abgeschlossenen Einheitsintervall [ 0, 1] (4) 0 < P(A) <1 für alle A E d. Die Wahrscheinlichkeit der Vereinigung zweier Ereignisse A, BE d ist (5) P(A UB) = P(A) + P(B)- P(AnB) < P(A) + P(B) Wahrscheinlichkeitsräume 1-8 26.2.09 Man beachte, daß dies für A nB = 0 ein Spezialfall von (2) mit K = 2 ist. Die Wahrscheinlichkeit einer beliebigen endlichen Vereinigung nicht notwendig disjunkter Ereignisse A , ... , AK E d läßt sich ebenfalls durch eine Additionsformel angeben 1 K (6) P( U Ak) k=l = 2:= 0~IC{l, ... /(} (-1)#1 - 1 -P( nA.), iEI z wobei #I die Anzahl der Elemente der Menge I bezeichnet. Zusätzlich ergibt sich aus (5) per Induktion die endliche Sub-Addititvität von P: (7) P( K K k=l k=l U Ak) < 2:= P(Ak). Weiter ist P monoton, weil (8) AcE P( A) < P(B) = P(B\A) + P(A) für alle A, BE d. Die obigen Eigenschaften eines Wahrscheinlichkeitsmaßes sind - mit Ausnahme der a-Additivität - bereits von relativen Häufigkeiten her bekannt und entsprechen damit den Eigenschaften des intuitiven Wahrscheinlichkeitsbegriffs. Die a-Additivität (P3) ist eine Verallgemeinerung der endlichen Additivität (2), die erst bei unendlichem Ergebnisraum .f2 eine (wichtige) Rolle spielt. Für endliches .f2 kann man man die Forderung (P3) sogar äquivalent durch (2) ersetzen1 weil dann für jede Folge (An) paarweise disjunkter Teilmengen von .f2 höchstens endlich viele A n :;= 0 sind. Wahrscheinlichkeitsräume (D, d,P) werden als Modelle für reale stochastische Vorgänge mit Ergebnisraum .f2 verwendet., wobei P(A) die Wahrscheinlichkeit eines Ereignisses A in Sinne der Häufigkeits-Interpretation quantifizieren soll. Die Wahl eines (zumindest approximativ) adäquaten Wahrscheinlichkeitsmaßes P für einen konkreten stochastischen Vorgang ist im allgemeinen nicht leicht. Wir stellen jetzt noch einige wichtige Eigenschaften eines Wahrscheinlichkeitsmaßes P auf (D, s1) zusammen, die sich auf eine Folge (An E d) von Ereignissen beziehen, und somit primär für unendliches .f2 von Bedeutung sind: (9) Wenn (An) aufsteigend ist, d.h. An cAn+l für allen, so gilt: P( U A n E lN n (10) ) = lim P(A ) n---+oo n (,,Stetigkeit von unten"). Wenn (An) abfallend ist, d.h. An+l cAn für allen, so gilt: n P( n E lNA n ) = lim n---+oo P(A ) n (,,Stetigkeit von oben"), Wahrscheinlichkeitsräume P( (11) 1-9 26.2.09 UA nElN n ) < 2:= P(A ) ("a -Subadditivität"). n nElN Man beachte, daß die rechte Seite in (11) nicht notwendig (absolut) konvergent sein muß (z.B. im Fall A = .f2 für alle n). Da der Reihenwert dann aber gleich oo ist, gilt n die Ungleichung trivialerweise. Abschließend zeigen wir noch ein Resulat über eine beliebige (nicht notwendig abzählbare) Familie disjunkter Ereignisse: (12) Bei einer beliebigen Familie (A. E d). I paarwezse disjunkter Ereignisse z zE haben höchstens abzählbar viele eine von 0 verschiedene Wahrscheinlichkeit) d.h. die Menge K = { k EI I P(Ak) > 0} ist höchstens abzählbar. Für eine höchstens abzählbare Indexmenge I ist das Resultat trivial. 1.2 Endliche Wahrscheinlichkeitsräume Als einfachsten Fall betrachten wir zunächst endliche Wahrscheinlichkeitsräume (D, d, P), d.h. der Ergebnisraum .f2 ist endlich und es ist d = ~(D). Aus der (endlichen) Additivität ergibt sich (1) 2:= P{w} P(A) = für A cn. WEA Folglich ist P bereits eindeutig durch die Elementar-Wahrscheinlichkeiten P{ w} aller Ergebnisse w E .f2 bestimmt, deren Summe 1 ergibt: (2) 2:= P{w} = 1. wED Ist umgekehrt eine nicht-negative Abbildung f: .f2-----+ [ 0, oo) gegeben mit (3) 2:= f(w) = 1, wED so läßt sich ein zugehöriges Wahrscheinlichkeitsmaß Pf definieren durch (4) für A eil, dessen Elementarwahrscheinlichkeiten Pf{ w} = f( w) durch f gegeben sind. Wahrscheinlichkeitsräume 26.2.09 1-10 Die Funktion f der Elementarwahrscheinlichkeiten wird auch als Zähldichte oder Wahrscheinlichkeitsfunktion von Pf bezeichnet. Typischerweise definiert man em Wahrscheinlichkeitsmaß P durch Angabe der zugehörigen Zähldichte P{-}. 1.2.1 Diskrete Gleichverteilung Wenn alle Ergebnisse gleich-wahrscheinlich sind, d.h. wenn (1) mit n = #f2, so heißt das Wahrscheinlichkeitsmaß P die diskrete Gleichverteilung auf f2. Die Wahrscheinlichkeit eines Ereignisses A ergibt sich dann als Quotient (2) _#A P(A)- #D. Die Gleichverteilung tritt typischerweise bei remen Glücksspielen (z.B. Roulette, Werfen von homogenen Würfeln, Zahlenlotto) auf. Diese Situationen lassen sich meist äquivalent durch ein Urnenexperiment beschreiben: aus einer Urne mit von 1 bis n durchnumerierten Kugeln wird zufällig eine Kugel gezogen und ihre Nummer notiert. Für n = 6 läßt sich so das Werfen eines homogenen Würfels charakterisieren. 1.2.2 Bernoulli-Verteilung Eine Wahrscheinlichkeitsverteilung auf dem zwei-elementigen Ergebnisraum f2 = {0, 1} ist vollständig bestimmt durch eine der beiden Wahrscheinlichkeiten (1) p:=P{1}, q : = P { o} = P(C {1}) = 1- p , die sich auch wie folgt darstellen lassen (2) für k E {0, 1}. Diese Verteilung heißt auch Bernoulli-Verteilung- nach Jakob Bernoulli (1654-1705)und wird mit B(1,p) bezeichnet, weil sie auch eine spezielle Binomialverteilung (vgl. 1.2.3) ist. Um triviale Fälle auszuschließen, werden wir bei Anwendungen stets implizit 0 < p < 1 voraussetzen, wenn nicht ausdrücklich p = 0 oder p = 1 zugelassen werden. Die Bernoulli-Verteilung findet immer dann Anwendung, wenn man sich nur für das Eintreten eines speziellen Ziel-Ereignisses E (oft als Treffer oder Erfolg bezeich- Wahrscheinlichkeitsräume 1-11 26.2.09 net) interessiert (z.B. ob ein Wähler einer bestimmten Partei seine Stimme geben würde). Codiert man das Eintreten durch die Zahl1 und den Nicht-Eintritt durch 0, so ist p =P(E) gerrau die Wahrscheinlichkeit des Ziel-Ereignisses E. 1.2.3 Binomial-Verteilung Die Binomialverteilung B(n,p) vom Umfang n E W mit Parameter 0 < p < 1 ist auf dem Ergebnisraum .f2 = {0, 1, ... , n} definiert durch die Zähldichte (1) (~)Pk b(kl n,p) := P{k} = (1-pt-k für k = 0, 1, ... , n. Diese Binomial-Wahrscheinlichkeiten lassen sich für 0 < p < 1 schrittweise vorwärts (d.h. für k = 0, 1, ... , n) oder rückwärts (d.h. für k = n, n-1, ... , 0) berechnen mit n (2) b(Oin,p) q (3) b(kln,p) n-k+l p -k-. (4) b(nln,p) p. mit q=1-p q. b(k-1ln,p) für k = 1, ... , n n Die Wahrscheinlichkeiten b ( k In, p) sind für k = 0, 1, ... zuerst anwachsend - solange k < n p gilt - und dann für k > n p wieder abfallend (vgl. z.B. Kap. 0, Abb. 3-4). Für n = 1 ergibt sich die Bernoulli-Verteilung. Wie später noch gerrauer ausgeführt wird, beschreibt die Binomial-Verteilung die Wahrscheinlichkeiten für die Häufigkeit mit der ein spezielles Ziel-Ereignis E bei n unabhängigen Wiederholungen eintritt, wobei p = P(E) die Wahrscheinlichkeit dieses Ziel-Ereignisses E ist. Beispiele für solche Anwendungen sind die Wahlumfragen in 0.3 oder die klinische Studien in 0.4. Wie bei der Bernoulli-Verteilung setzen wir bei Anwendungen implizit 0 < p < 1 voraus, wenn nicht ausdrücklich p = 0 oder p = 1 zugelassen werden. 1.2.4* Relative Häufigkeiten Wir haben bereits bemerkt, daß die Eigenschaften (P1) - (P3) für relative Häufigkeiten gelten und wollen dies jetzt präzisieren. Hierzu sei M eine beliebige nichtleere Menge und x = (xl' ... , xn) E Mn ein n- Tupel von Elementen aus M. Auf der Menge Wahrscheinlichkeitsräume 1-12 26.2.09 .f2 = { x , ... , x } aller verschiedenen Elemente des Tupels x läßt sich das Wahrx n 1 scheinlichkeitsmaß P der relativen Häufigkeiten definieren durch die Zähldichte X (1) P { x .} : = 1... # x z n {k = 11 ••• 1 n I xk = x.} z (relative Häufigkeit des Werts x. im Tupel (x , ... , x ). z 1 n Die Wahrscheinlichkeit einer Teilmenge AC .f2 ist dann gegeben durch X Px (A) : = 1..n · # (2) {k = 11 ••• 1 n I xk E A} (relative Häufigkeit der x-Werte in A). P wird auch als die empirische Verteilung von x bezeichnet. Wenn alle Komponenx ten von x verschieden sind, so ist P natürlich die Gleichverteilung auf .f2 . X 1.3 X Abzählbare Wahrscheinlichkeitsräume Wir wollen jetzt abzählbare Wahrscheinlichkeitsräume (D, d,P) betrachten, d.h. der Ergebnisraum .f2 ist abzählbar und es ist d = ~(D). Typische Beispiele für ein sol- ches .f2 sind die natürlichen Zahlen W = {1, 2, ... } oder die nicht-negativen ganzen Zahlen W = Z + = {0, 1, 2, ... }. 0 Für endliches bzw. abzählbares AC .f2 ergibt sich mit der endlichen bzw. a-Additi- vität (1) 2:= P{w} P(A) für AC .f!. WEA wobei die Schreibweise bereits andeutet, daß es (auch bei abzählbarem A) nicht auf die Reihenfolge der Summation ankommt (dies ergibt sich aus dem Umordnungssatz für absolut konvergte Reihen). Folglich ist ?bereits eindeutig durch die ElementarWahrscheinlichkeiten P{ w} aller Ergebnisse w E .f2 bestimmt., wobei (2) 2:= P{w} 1. = wED Ist umgekehrt eine nicht-negative Abbildung f: .f2-----+ [ 0, oo) gegeben mit (3) 2:= f(w) = 1, wED so läßt sich ein zugehöriges Wahrscheinlichkeitsmaß Pf definieren durch (4) P/A) : = 2:= f(w) wEA für A eil, Wahrscheinlichkeitsräume 1-13 26.2.09 dessen Elementarwahrscheinlichkeiten Pf{ w} = f( w) durch f gegeben sind. Die Funktion f der Elementarwahrscheinlichkeiten wird auch als Zähldichte oder Wahrscheinlichkeitsfunktion von Pf bezeichnet. Typischerweise definiert man em Wahrscheinlichkeitsmaß P durch Angabe der zugehörigen Zähldichte P{-}. Da die abzählbaren Wahrscheinlichkeitsräume vieles mit den endlichen Wahrscheinlichkeitsräumen gemeinsam haben, faßt man sie zu den diskreten Wahrscheinlichkeitsräumen zusammen: (f2, d,P) heißt diskret, falls f2 höchstens abzählbar und d = ~(f2) ist. 1.3.1 Poisson-Verteilung Die auf Sirneon Poisson (1781-1840) zurückgehende Poisson-Verteilung Pois(p,) mit Parameter p, > 0 ist auf dem Ergebnisraum f2 = W = {0, 1, 2, ... } definiert durch die 0 Zähldichte (1) p ( k 11-L) : = P{ k} für k = 0, 1, ... Die Poisson-Wahrscheinlichkeiten lassen sich schrittweise für k = 0, 1, 2, ..... wie folgt berechnen (2) (3) für k > 1. Die Folge dieser Wahrscheinlichkeiten p ( k ;p,) ist für k = 0, 1, 2, ... zuerst anwachsend solange k < p, gilt, und dann für k > p, wieder abfallend (vgl. z.B. Kap. 0, Abb. 1-2). Die Poisson-Verteilung wird als Modell verwendet für die Anzahl von Eintritten eines interessierenden Ziel-Ereignisses in einer spezifizierten Grundgesamtheit, wie z.B. die Anzahl der Leukämieerkrankungen von Kindern in einer Region innerhalb eines Zeitraums (vgl. Abschnitt 0.1). Hierbei müssen allerdings die einzelnen Ereignisse zufällig und unabhängig voneinander eintreten (was z.B. für Grippe-Erkrankungen in einer Region nicht zutrifft, weil diese sich durch Ansteckung ausbreiten und somit nicht voneinander unabhängig auftreten). Der Parameter p, (der sich später als der Erwartungswert der Verteilung herausstellen wird) entspricht dabei der (im Durchschnitt) zu erwartenden Anzahl von Eintritten. Das Auftreten der Poisson- Wahrscheinlichkeitsräume 1-14 26.2.09 Verteilung kann auch aus anderen Annahmen hergeleitet werden, die bei konkreten Anwendungen plausibel erscheinen (vgl. Abschnitt 6.2.4 oder 9.3.2). In der Praxis können bei solchen Anwendungen die (zufälligen) Anzahlen von Ereignissen nicht beliebig große Zahlen k annehmen, weil die Grundgesamtheit (z.B. die Anzahl aller Kinder einer Region) beschränkt ist. Dennoch kann man hier in guter Näherung von einer Poisson-Verteilung ausgehen, weil die Poisson-Wahrscheinlichkeiten p ( k ;p,) extrem klein werden, wenn k (im Verhältnis zu p,) groß wird, so daß man sie bei praktischen Berechnungen vernachlässigen kann. Eine weitere typische Anwendung der Poisson-Verteilung liegt vor, wenn abzählbar viele "Punkt-Partikel" zufällig und unabhängig voneinander im Ra um lR 3 (oder in der Ebene lR 2, auf der Zahlengeraden lR) verteilt sind. Die Anzahl der Partikel in einer zufällig ausgewählten Teilregion V läßt sich durch eine Poisson-Verteilung beschreiben. Hierbei ist p, die (im Durchschnitt) zu erwartende Partikelzahl in V und entspricht der Konzentration der Partikel. Obwohl bei konkreten Anwendungen immer nur endlich viele Partikel in beschränkten Teilmengen von lR 3 (bzw. lR 2 oder lR) zufällig verteilt sind, ist die Poisson-Verteilung auch dann noch ein angemessenes Modell. Beispiele für solche Anwendungen der Poisson-Verteilung sind z.B. folgende Anzahlen: Asbestfasern in einem Stichprobenvolumen V (vgl. 0.1), Rosinen im Kuchen, Druckfehler pro Seite etc. 1.4 Reelle Wahrscheinlichkeitsmaße mit Dichten Wir wollen jetzt auch überabzählbare Eregbnisräume .f2 betrachten, wobei wir zunächst nur den Fall betrachten, daß .f2 = (a, ß) C lR ein offenes reelles Intervall und d= lB.ft die a-Algebra aller Borel-Teilmengen von .f2 ist. Weiter wollen wir hier zunächst nur solche Wahrscheinlichkeitsmaße P auf d betrachten, die eine stetige Dichte besitzen. Eine stetige Wahrscheinlichkeitsdichte (kurz: Dichte) auf .f2 ist eine nicht-negative stetige Funktion f: .f2-----+ [0, oo), deren (Lebesgue-)Integral über dem In- tervall .f2 = (a, ß) gleich 1 ist: Wahrscheinlichkeitsräume 1-15 26.2.09 y Dichte y=f(x) von P ß 1 1 f(x) dx (1) bzw. Q 1 f(x) dx = 1. [2 Wir setzen jetzt (ohne Beweis) das fol· gende Resulat aus der Wahrscheinlich· a~ b~ X: Abb. 1: Dichte und Wahrscheinlichkeit keitstheorie voraus: Theorem: Zu jeder stetigen Wahrscheinlichkeitsdichte f: .f2-----+ [0, oo) gibt es genau ein Wahrscheinlichkeitsmaß Pf auf lB [2! so daß für jedes Intervall (a, b] C .f2 gilt b Pf( a, b] = 1 f(x) dx (2) (vgl. Abb. 1). a Zusatz 1: Die Wahrscheinlichkeit einer beliebigen Borel-Menge B C .f2 ist hierbei das Lebesgue-Integral von f über der Menge B (3) PjB) = 1 f(x) dx. B Zusatz 2: Das Theorem und der Zusatz 1 gelten gelten auch für jede meßbare (vgl. 2.2 Def 1) - also nicht notwendig stetige - Wahrscheinlichkeitsdichte f Insbesondere haben alle Elementar-Ereignisse die Wahrscheinlichkeit Null (4) für alle w E .f2. Dies ist zunächst überraschend und unterscheidet überabzählbare von höchstens ab- zählbaren Wahrscheinlichkeitsräumen. Bei letzteren konnten wir ein Wahrscheinlichkeitsmaß P sogar durch die Angabe aller Elementar-Wahrscheinlichkeiten P{ w} definieren. Aber bei überabzählbarem .f2 bilden die Elementarereignisse {w} eine überabzählbare disjunkte Familie von Ereignissen, von denen nach 1.1 (12) höchstens abzählbar viele eine von Null verschiedene Wahrscheinlichkeit haben. Bei einem durch eine Dichte f spezifizierten Wahrscheinlichkeitsmaß Pf spielen daher die Elementar-Wahrscheinlichkeiten (4) keine Rolle, sondern die Wahrscheinlichkeiten (2) für Intervalle sind von primärem Interesse. Die Wahrscheinlichkeit eines Intervalls hängt nicht davon ab, ob die Randpunkte zum Intervall dazugehören oder nicht b (5) P [a,b] =P [a,b) =Pf(a,b) =Pf(a,b] = 1f(x)dx füra<b. 1 1 a Wahrscheinlichkeitsräume 26.2.09 1-16 Insbesondere kann man auch den Raum .f2 durch Hinzunahme eines oder beider der Randpunkte a und ß (sofern diese nicht ± oo sind) erweitern zu einem der In- tervalle (a, ß], [a, ß) oder [a,ß]. Das Theorem gilt auch in diesem Fall noch und das zugehörige Wahrscheinlichkeitmaß ist nur eine Fortsetzung des obigen Wahrscheinlichkeitsmaßes Pr Vergleicht man die Definition des Wahrscheinlichkeitmaßes Pf in (3) mit den entsprechenden Definitionen 1.2 (4) bzw. 1.3 (4) für endliches bzw. abzählbares D, so stellt man fest, daß statt der dortigen Summe hier ein Integral steht. Im Rahmen der Maßtheorie lassen sich Summen ebenfalls als Integrale (bzgl. des abzählenden Maßes) auffassen und dies erlaubt dann eine gemeinsame Behandlung von Wahrscheinlichkeitmaßen, die durch eine Dichte f definiert sind. Zum Integral-Begriff: Bei den obigen und allen folgenden Betrachtungen mit Integralen liegt hier stets das Lebesgue-Integral (nach Henri Lebesgue 1875-1941) zugrunde, welches das sogenannte Riemann-Integral (nach Bernhard Riemann, 1826-1866) verallgemeinert. Das Riemann-Integral ist nur für stetige Funktionen über kompakten reellen Intervallen [a, b] definiert und stimmt dann mit dem Lebesgue-Integral überein. Damit man auch ohne Kenntnis des Lebesgue-Integrals die wesentliche Integrale interpretieren und bestimmen kann, wollen wir kurz erläutern, wie man das Integral für stetige Funktionen über einem beliebigen reellen Intervall und über endliche Vereinigungen von Intervallen auf das Riemann-Integral zurückführen kann (zur Veranschaulichung vgl. Abb. 2). Wenn eine stetige Funktion f auf dem halb-offenen Intervall (a, b] definiert ist (wobei auch a =- oo zugelassen ist), so ergibt sich das Integral über (a, b] wie folgt durch "stetige Fortsetzung": (6) b 1f(x) dx = lim a cl a b 1f(x) dx ("c l a" bedeutet "c---+ a mit c > a"). c Analog erhält man das Integral über dem halb-offenen Intervall [a, b) bzw. dem offen Intervall (a, b) wennf dort definiert und stetig ist (auch für b = oo): b (7) 1f(x) dx a lim d 1f(x) dx dj b a bzw. b (8) 1f(x) dx a lim lim d 1f(x) dx. cla dj b c ("d I b" bedeutet "d---+ b mit d < b") Wahrscheinlichkeitsräume 1-17 26.2.09 Abb. 2: Eine im Nullpunkt unstetige Funktion als Beispiel für (6)-(10) 1 vgl. auch 4.4.2 Abb 4zu (6): wähle (a,b] als (0,5] oder (-oo,-1]. zu (7): wähle [a, b) als [ -5, 0) oder [1, oo). zu (8): wähle (a,b) als (-oo,O) oder (O,oo). zu (9): wähle K = 2,11 = (- oo, 0), 12 = (0, oo). zu {10): wählen= 1, (a, b) = (- oo, oo) 1 c = 0. 1 -5 0 5 Damit sind die Integrale in (1), (2) und (5) auf das Riemann-Integral zurückführbar. Für das Integral in (3) ist dies auch einem wichtigen Speziall noch möglich. Wenn die Menge B eine Vereinigung endlich vieler disjunkter Intervalle 1 , ... ,IK ist, so gilt 1 (9) Jf(x) dx Jf( x) dx + .... + Jf( x) dx , B I1 IK wobei die rechte Seite wieder auf Riemann-Integrale zurückführbar ist. Um das Wahrscheinlichkeitsmaß Pf jedoch auf allen Borel-Teilmengen von .f2 (d.h. auf IB D) durch (3) zu definieren, wird das Lebesgue-Integral benötigt. Allerdings werden wir hier nur konkrete Wahrscheinlichkeiten PjE) für den Fall bestimmen, daß Bein Intervall oder eine endliche disjunkte Vereinigung von Intervallen ist, und hierfür ist das Riemann-Integral ausreichend. Abschließend betrachten wir noch den Fall, daß eine Funktion f: (a,b)----+ [0, oo) in höchstens endlich vielen Punkten c1 < c2 < ... < cn von (a, b) unstetig ist. Dann läßt sich das Integral über (a,b) zerlegen, indem man über die offenen Teilintervalle (a,c1), (c1, c2), ... , (cn,b) integriert, auf denen f jeweils stetig ist (und somit das Riemann-Integral verwendet werden kann, zur Veranschaulichung vgl. Abb. 2) b (10) Jf(x) dx a c1 = J f(x) dx c2 + b J f(x) dx .... + Jf(x) dx. a Eine Funktion f: .f2----+ [0, oo) mit höchstens endlich vielen Unstetigkeitsstellen heißt eine Wahrscheinlichkeitsdichte, wenn sie die Bedingung (1) erfüllt, und das obige Theorem gilt auch noch für solche Wahrscheinlichkeitsdichten. Das durch (2) gegebene Wahrscheinlichkeitsmaß Pf ändert sich nicht, wenn man die Funktionswerte der Dichte f in den endlich vielen Unstetigkeitststellen abändert. Es ist zweckmäßig, die Wahrscheinlichkeitsräume 1-18 26.2.09 Dichte f in ihren Unstetigkeitsstellen gleich 0 zu setzen, und eine solche Dichte wollen wir als kanonische Dichte bezeichnen (sie ist nach 4.3 sogar eindeutig bestimmt). Obwohl wir es hier primär mit stetigen Dichten zu tun haben werden, führen uns bereits elementare Operationen von stetigen Dichten zu solchen, die in endlich vielen Punkten unstetig sind (vgl. hierzu die Bemerkung nach 4.4.2 (6)). In der Maß- und Wahrscheinlichkeitstheorie definiert man noch allgemeiner eine Wahrscheinlichkeitsdichte als eine meßbare Funktion f: D-----+ [0, oo) (vgl. 2.2 Def 1) mit der Eigenschaft (1) und beweist dort das Theorem sogar für meßbare (statt ste- tige) Dichten. 1.4.1 Normal-Verteilung Die mit Abstand bedeutendste Verteilung auf .f2 = (- oo, + oo) =IR ist die Normal- verteilung N(p,, a 2) mit den Parametern p, E IR und a > 0. Ihre stetige Wahrscheinlichkeitsdichte ist gegeben durch (1) f(x) 1 ---·e _ _!_ (~)2 2 a für xE IR. .. nd ri:JI 2 Dichte:yo=f(x) J y X o~~~=-~~~-+-~+-~-+-~~~~~~ p-4a p-3o p-2o p-o fi+O p+2o p+3o p+4o Abb. 1: Dichte f( x) der Normalverteilung N(p,, a 2 ) als Funktion von x (untere Achse) und als Funktionf(u) der Standardisierung u=(x-p,)fa (obere Achse). Wahrscheinlichkeitsräume 1-19 26.2.09 Man kann (z.B. unter Verwendung der Gamma-Funktion, vgl. 6.2.4) zeigen +oo J (2) f( x) dx = 1 -00 Die Funktion! (vgl. Abb. 1 oder einen 10-DM-Schein) ist eine Gauß)sche Glockenkurve (nach Carl Friedrich Gauß, 1777-1855) mit einem Maximum in x = p, und den Wendepunkten x = p, ± a. Auf Bedeutung und Anwendungen der Normalverteilung gehen wir erst später ein. (vgl. aber Abb. 2 und 3). Im Fall p, = 0 und a = 1 liegt die Standard-Normalverteilung N(O, 1) vor, deren Dichte wir hier mit cp bezeichnen: (3) cp(x) 1 .e 1 2 --x für xE IR. 2 /2i Geburtsgewicht '[kg] Normalverteilungsdrehte mit Histogramm Geburtsgewicht lkg] Normalverteilungsdrehte mit Histogramm Jungen Mädchen 0 2 J.1 = 3 .44 a= 0 .49 J.1= 3.30 a=0,45 3 4 5 6 0 2 3 4 5 6 Abb. 2: Histogramme des Geburtsgewichts aller 1974 in der Bundesrepublik Deutschland geborenen Kinder (Quelle: Statistisches Bundesamt). Die "ange- paßte" Dichte einer Normalverteilung (jeweils für Mädchen und Jungen getrennt) stellt bis auf den unteren Gewichtsbereich ein zufriedenstellendes Modell dar. Wahrscheinlichkeitsräume JJ.-2a j.i-2a J.l+2a jJ. 1-20 26.2.09 Normal-Dichte 648 Mädchen J-1=53.28 a= 2.59 JJ p + 2a Normal-Dichte 648 Jungen J-1=53.64 a= 2 .53 44 46 48 50 52 54 56 58 60 62 64 44 46 48 50 52 54 56 58 60 62 64 Größe: Kind (Kontrolle) [Zoll] Größe: Kind (Kontrolle) [Zoll} Abb. 3: Histogramme der Körpergröße von Kindern im Alter von 10 Jahren aus einer amerikanischen Studie über Kindesentwicklung mit "angepaßter" Dichte einer Normalverteilung. Quelle: J.L. Hodges, D. Krech, R.S. Crutchfield (1975). StatLab: an empirical introduction to statistics. McGraw-Hill, New York. 1.4.2 Exponential-Verteilung Die Exponential-Verteilung Expo(>.) mit Parameter ). > 0 ist auf dem Intervall .f2 = (0, oo) definiert durch die stetige Wahrscheinlichkeitsdichte (vgl. Abb. 4): für t> 0. (1) Wie wir später noch zeigen werden, eignet sich die Exponentialverteilung zur Modellierung einer Lebensdauer (wenn kein Alterungsprozeß stattfindet) oder einer Wartezeit (vom Eintritt eines zufälligen Ereignisses bis zum nächsten Eintritt), wo- bei 1-L = 1/>. die durchschnittliche (erwartete) Lebensdauer bzw. Wartezeit ist. 1.4.3 Stetige Gleichverteilung Die stetige Gleichverteilung SG( a, ß) mit a .f2 = (a, ß) der Länge iJ. = <ß ß- a definiert durch die lichkeitsdichte (vgl. Abb. 4): (1) 1 f(x) = iJ. ist auf dem offenen Intervall für a < x < ß. konstante (stetige) Wahrschein- Wahrscheinlichkeitsräume 1-21 26.2.09 Die Wahrscheinlichkeit eines Intervalls (a, b) C .f2 hängt dann nur noch von der Intervalllänge (aber nicht von seiner Lage) ab b- a (2) P (a,b) = ~ für a < a < b< ß. Die stetige Gleichverteilung ist ein Modell für das "zufällige Ziehen eines Punktes" aus dem Intervall .f2. Anwendungen sind z.B. ein "stetiges Glücksrad (Roulette)" mit einem Zeiger, der nach Stillstand einen "zufälligen Winkel" (zur Nullmarkierung) im Bereich von a = 0 bis ß = 27r anzeigt. Oder der seit Beginn einer vollen Stunde verstrichene Bruchteil einer Stunde bis zum Eintritt eines Ereignisses (z.B. Anruf in einer Notzentrale), wobei .f2 = (0,1) ist. Streng genommen kann bei diesen Anwendungen auch einer der beiden die Randpunkte von .f2 als Ergebnis eintreten, was aber keine Rolle spielt, weil jedes Einzelereignis die Wahrscheinlichkeit Null hat. Man kann allerdings auch die stetige Gleichverteilung auf das Intervall [a, ß] oder [a, ß) fortsetzen. Die stetige Gleichverteilung SG(O, 1) ist von großer theoretischer und praktischer Bedeutung, weil sich jede reelle Verteilung (d.h. mit Träger in lB) durch eine geeignete Transformation aus SG( 0, 1) erzeugen läßt (vgl. 4.4.5), was z.B. zur Erzeugung von Zufallszahlen nach einer vorgegeben Verteilung (z.B. Exponentialverteilung) ausgenutzt wird. Dichte der Exponentlaiverteilung mit Erwartung swert J.l. 0 Abb. 2J1 4: 4p 6J1 Dichte det stetigen GleichverteiiLmg SG(a,ß) a links: Dichte der Exponentialverteilung Expo(>.) mit p, = 1/>.. rechts: Dichte der stetigen Gleichverteilung SG( a, ß). ß Zufallsvariablen und ihre Verteilungen 2. 17.10.15 2-1 Zufallsvariablen und ihre Verteilungen Unser Ausgangspunkt ist wieder ein Zufallsvorgang, der durch einen Wahrscheinlichkeitsraum (f2, d,P) modelliert wird. Oft interessiert man sich primär nur für einen gewissen Aspekt eines Ergebnisses w E f2. Zum Beispiel kommt es bei einigen Spielen mit mehreren Würfeln nur auf die Augensumme und nicht auf einzelnen gewürfelten Zahlen an (vgl. auch 2.3.1). Und ein Roulette-Spieler, der auf das Ereignis Rot gesetzt hat, interessiert sieht nicht sonderlich für die gespielte Zahl, sondern will nur wissen ob sie rot ist, d.h. ob er gewonnen hat. Bevor wir Zufallsvariablen formal definieren, betrachten wir das letzte Beispiel in allgemeinerer Form. 2.1 Indikatorfunktion Wir interessieren uns nur für das Eintreten eines Ziel-Ereignisses EE d- z.B. beim Roulette-Spiel das Ereignis Rot. Kodieren wir den Eintritt bzw. Nicht-Eintritt von E durch die Zahlen 1 bzw. 0, so läßt sich dies formal durch die Indikatorfunktion I E: f2-----+ { 0, 1} von E beschreiben (1) Ij,{w) = { ~ falls falls w EE w \tE (Eist eingetreten), (Eist nicht eingetreten). Statt des gesamten Wahrscheinlichkeitsmaßes P sind dann nur noch die Wahrscheinlichkeit der Ereignisse {IE = 1} A E und {IE = 0} A CE von Interesse. Die so- genannte Verteilung (im Sinne der folgenden Definition 2) der Indikatorfunktion IE ist die Bernoulli-Verteilung B(1, p) auf {0, 1} mit p = P(E). 2.2 D Definition einer Zufallsvariable und ihrer Verteilung Wir wollen jetzt den Übergang von einem Wahrscheinlichkeitsraum (f2, d,P) zu einem neuen und typischerweise einfacheren Wahrscheinlichkeitsraum allgemein beschreiben. Zunächst wird der Übergang auf einen neuen Ergebnisraum f2 1 :;= 0 durch eine Abbildung X: f2-----+ f2 1 formalisiert. Weiter betrachten wir eine a-Algebra d 1 C ~(f2 1 ) auf f2 1, die alle interessierenden Ereignisse enthalten soll. Für jedes solche A 1 E d (1) 1 wollen wir dem Ereignis {XEA 1 } =={wEf21X(w)EA 1 } (Urbild von A 1 unter X) Zufallsvariablen und ihre Verteilungen 2-2 17.10.15 die Wahrscheinlichkeit P(x-1 [ A'l) zuordnen. Das setzt aber voraus, daß das Urbild x-1 [A'] in J?tliegt, weil P nur dort definiert ist. Dies führt zur folgenden Definition. Definition 1: Eine Abbildung X: .f2 ------d/ 1 heißt meßbar bzgl. der a-Algebren J?t (auf D) und J?t' (auf D'), wenn (2) T 1[A'] E J?t für alle A' E J?t'. In der Maßtheorie werden die Elemente von J?tbzw. J?t' auch als meßbare Teilmengen von .f2 bzw. D' bezeichnet (weil auf ihnen Maße definiert werden). Mit dieser Terminologie ist eine Abbildung gerrau dann meßbar, wenn Urbilder meßbarer Mengen wieder meßbar sind. Ist (wie hier) auch ein Wahrscheinlichkeitsmaß P auf J?t definiert, so nennt man eine meßbare Abbildung X: .f2------+ D' auch eine Zufallsvariable mit Werten in D' oder ein Zufallselement (zufälliges Element) in D'. Obwohl die Meßbarkeit von X eine wesentliche Voraussetzung für eine Zufallsvariable ist, wird sich noch herausstellen daß die hier betrachteten und alle praktisch relevanten Abbildungen X meßbar sind. Für höchstens abzählbares .f2 mit d= ~(D) ist sogar jedes X meßbar. Wir verwenden im folgenden häufig die suggestive Schreibweise ))X: (D, J?t, P)-----+ (D', J?t') ist eine Zufallsvariable" und meinen damit, daß (D, J?t, P) ein Wahrscheinlichkeitsraum und X meßbar bzgl. J?t, J?t' ist. Für eine solche Zufallsvariable X lassen sich allen Ereignissen der Form (1) auch Wahrscheinlichkeiten gemäß P zuordnen. Definition 2: Für eine Zufallsvariable X: (D, J?t, P)-----+ (D', J?t') definiert (3) für A' E J?t' ein Wahrscheinlichkeitsmaß PX auf J?t'. PX heißt die Verteilung von X oder das Bildmaß von P unter X. Übliche Bezeichnungen für diese Verteilung sind: (4) PX = Px-1 = L(X) Schreibweise: x,..__,p X (cL' steht für das englische Law). (X ist verteilt wie oder gemäß PX) Der Nachweis, daß PX ein Wahrscheinlichkeitsmaß ist, basiert auf den folgenden Eigenschaften des Urbild-Operators x-1 Zufallsvariablen und ihre Verteilungen (5) x-1[0]=0, (6) x-1 [CE]= cx-1 [BJ, (7) Für eine beliebige Indexmenge I gilt: (8) B und B disjunkt 1 17.10.15 2-3 2 Die Verteilung der Identität id: (.f2, d, P)-----+ (.f2, d) ist natürlich Pid = P. Folglich gibt es zu jedem Wahrscheinlichkeitsmaß P auf (.f2, J2t) auch (mindestens) eine Zu- fallsvariable mit Werten in .f2, deren Verteilung gerade P ist. 2.3 Reelle Zufallsvariablen Wenn bei einer Zufallsvariablen X: (.f2, J2t)-----+ (f2 1, d menge f2 1 E lB und d 1 1 ) der Bildraum eine Bore1- = lBD, die a-Algebra der Borel-Teilmengen von f2 1 ist, so spricht man auch von einer reellen Zufallsvariablen. So ist z.B. die Indikatorfunktion I E aus 2.1 (1) eine reelle Zufallsvariable mit Bernoulli-Verteilung L(I~ = B(1, p) und p=P(E). Bei konkreten Zufallsvorgängen in der Praxis gibt man oft nur die interessierende reelle Zufallsvariable X mit ihrer (modellierten) Verteilung an, z.B. (vgl. Kapitel 0): • die Anzahl X der Leukämiefälle (pro Region und Zeitraum): L(X) =Pois(p,), • die Anzahl X der Asbestfasern (im Stichprobenvolumen)L(X) = Pois(p,), • die Anzahl X der Stimmen für eine Partei in einer Wahlumfrage: L(X) =B(n,p), • die Anzahl X von Patienten einer klinischen Studie, bei denen der Behandlungserfolg eingetreten ist: L(X) = B( n, p). Wenn bei Anwendungen nur noch die Verteilung einer speziellen Zufallsvariablen X von Interesse ist, so wird oft nur (ein Modell für) die Verteilung L(X) = PX angegeben und der zugrunde liegende Wahrscheinlichkeitsraum (.f2, d,P) wird nicht mehr explizit erwähnt. Lediglich das Symbol P in Wahrscheinlichkeiten der Form P {XE A 1} erinnern noch an das Wahrscheinlichkeitsmaß P. Wenn A 1 ein Intervall ist, so verwendet man auch die suggestiven Schreibweisen wie z.B. (1) P{a<X<b} == P{XE[a,b]} = P{wE.f!ia<X(w)<b}, Zufallsvariablen und ihre Verteilungen P{X=a} == P{XE{a}} 2-4 17.10.15 = P{ wEil I X(w) =a}. In der Maßtheorie wird gezeigt, daß X: fl-----+ D'mit D' E IB gerrau dann meßbar ist, wenn x-1[A] E d für jedes offene Intervall Ac IR gilt. Wenn auch der Definitionsbe- reich f2 c IR ein Intervall ist mit der a-Algebra d= IBn so sind insbesondere folgende Funktionen (aber nicht nur diese) meßbar • alle stetigen Funktionen X: D-----+ D', • alle Funktionen X: f2-----+ D' mit endlich vielen Unstetigkeitsstellen, • alle monotonen (wachsenden oder fallenden) Funktionen X: D-----+ D'. Die einfachste nicht-meßbare Funktion ist übrigens die Indikatorfunktion JA einer Menge A C IR, die nicht-Borelsch ist, d.h. mit A \t IB (und wie bereits erwähnt, läßt sich eine solche Menge nicht elementar angeben). Alle Begriffe, die ursprünglich für eine Verteilung P definiert sind1 überträgt man kommentarlos auch auf eine Zufallsvariable X und meint dabei ihre Verteilung PX Zum Beispiel ist mit der Dichte von X die Dichte der Verteilung PX gemeint. Um- gekehrt überträgt man auch Begriffe und Definiton für eine Zufallsvariable X, die nur von ihrer Verteilung PX abhängen, kommentarlos auf die Verteilung, z.B. die Verteilungsfunktion in 4.1 oder der Erwartungswert sowie die Varianz in Kapitel 7. Fortsetzung und Einschränkung Die bisher betrachteten Verteilungen wie z.B. die Binomial-, Poisson- oder Exponentialverteilungen sind auf einer Teilmenge f2 1 von IR definiert. Manchmal ist es aber zweckmäßig, diese Verteilungen auf ganz IR fortzusetzen. Hierzu betrachten wir statt (IR, IB) und (D', IBn,) etwas allgemeiner eine Menge f2 mit einer a-Algebra d über f2 sowie eine Teilmenge D' E d von f2 mit der eingeschränkten a-Algebra (2) d'== dn~(D') = {AEdiAcD'}. Für ein Wahrscheinlichkeitmaß P' auf (D', d'), ist die Fortsetzung P' von P' auf (D, J2t) definiert als Bildmaß von P' unter der Inklusion D'-----+ D, d.h. durch: (3) P'(A) ==P'(AnD') füralleAEJ?t. P' ist ein Wahrscheinlichkeitsmaß mit den Eigenschaften (4) P'(A') = P'(A') für alle A' E d', (5) P'(D') = 1 bzw. P'(D\D') = 0 0 Zufallsvariablen und ihre Verteilungen Die Fortsetzung P1 ist 2-5 17.10.15 zwar auf auf der umfassenden a-Algebra d definiert, aber trotzdem nach (3) durch seine Einschränkung auf d 1 vollständig bestimmt. Wir betrachten jetzt umgekehrt ein Wahrscheinlichkeitsmaß P auf (.f2, J2t) mit P(f2 1 ) = 1 (6) P(f2\f2 1 ) = 0. bzw. Ein solches .f2 1 mit (6) wird als ein Träger (engl.: support) von P bezeichnet, und man sagt auch, p ist auf n I konzentriert. Es gilt dann P(A) = P(Anf2 1 ) (7) für alle A E d, und somit ist P bereits vollständig bestimmt durch seme Einschränkung P 1 =PI d 1 auf d 1 • Die Fortsetzung von P 1 auf dergibt wegen (7) wieder das ur- sprüngliche Wahrscheinlichkeitsmaß P. Insgesamt entsprechen also die Wahrscheinlichkeitsmaße P 1 auf (f2 1, d 1 ) via Fort- setzung bzw. Einschränkung eineindeutig den Wahrscheinlichkeitsmaßen P auf (.f2, J2t) mit Träger f2 1• In diesem Sinn werden wir für (.f2, J2t) =(IR, IB) z.B. die Binomialverteilung B(n,p) nicht nur als eine Verteilung auf ihrem Träger f2 1 = {0, ... , n} sondern auch als eine Verteilung auf ganz IR auffassen, die wir nach der folgenden Definition eine diskrete Verteilung ist. Definition 3: Ein Wahrscheinlichkeitsmaß P auf (.f2, d) heißt diskret, wenn es einen höchstens abzählbaren Träger f2 1 E dbesitzt, d.h. P(f2 1 ) = 1. Für ein diskretes Wahrscheinlichkeitsmaß P auf (IR, IB) ist die Menge aller Ergebnisse mit echt positiver Wahrscheinlichkeit (8) TP=={xEIRIP{x}>O} EIB der (bzgl. der Inklusion "c") kleinste Träger von P. Der Träger TP heißt auch der minimale oder kanonische Träger von P. Wenn wir im folgenden kurz von dem Träger eines diskreten Wahrscheinlichkeitmßes bzw. einer diskreten Verteilung P sprechen, so ist damit immer der minimale Träger TP gemeint. Betrachten wir also die Binamialverteilung oder die Poissonverteilung als Verteilung auf ganz IR, so ist {0, ... , n} der (minimale) Träger von B(n,p) und W der (minimale) Träger von Pois(p,). 0 Zufallsvariablen und ihre Verteilungen 2-6 17.10.15 Wenn das Wahrscheinlichkeitsmaß P auf (IR, IB), das durch eine Dichte definiert ist, so ergibt sich in (8) die leere Menge TP = 0, und wir geben erst in 4.3 ein minimales Trägerintervall von P an. 2.3.1 Augensummezweier Würfel • Das Werfen zweier Würfel kann durch den Ergebnisraum .f2 = {1, ... , 6} x {1, ... , 6} beschrieben (vgl. Abb. 1) und im Falle homogener Würfel durch die Gleichverteilung P auf .f2 modelliert werden, d.h. jedes (j, k) E .f2 hat die Wahrscheinlichkeit ~- Beim Spiel Die Siedler von Catan ist z.B. nur die Augensumme relevant, die einer reellen Zufallsvariablen X mit Werten in D' = {2, ... , 12} entspricht. Die Verteilung der Augensumme ist in Abb. 2 dargestellt. Abb.J -. Der Ergebnisraum für das Werfen eines roten und eines grünen Würfels. Die beiden Ergebnisse ( 1 . "") ._.. (1, 6): roter Würfel = 1, grüner Würfel = 6 (6, 1): roter Würfel= 61 grüner Würfel= 1 stimmen nicht überein (das ist auch dann noch der Fall, wenn beide Würfel die gleiche Farbe haben und diese Ergebnisse optisch nicht unterscheidbar sind.) • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • I Augensummezweier homogener Würfel • (6 , I I 2 3 4 5 Augenzahl roter Würfel 1 6 Augensummezweier homogener Würfel .20 20 - "g' ~ 15 • 6~ lll ::T - e - su:0 - Q_ ::J; - !!1_ 4~ 1-- 0 ::T :>;" ;-- .....-- - 1-- I 0 0 2 3m: 1-- 4 6 8 10 Augensumme 12 c ~ 15 e e:.. ·,;,:w - :§ 10 c Q) s· _r: 2-' 1= (tl "W n -;::;' ~ 0 <I) s: 5 I 0 14 0 2 I 4 6 8 10 Augensumme 12 14 Abb. 2: Die Verteilung der Augensumme X zweierhomogener Würfel als Histogramm (links) und als Stabdiagramm (rechts). Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3-1 1.12.15 3. Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3.1 Bedingte Wahrscheinlichkeit Zahlenlotto "6 aus 49" Die Ziehung beim Zahlenlotto läßt sich durch eine (diskrete) Gleichverteilung modellieren auf dem Ergebnisraum n = { w c {1, ... , 49} #w = 6 } mit 1 #il = (~) ~ 14·106 0 Die Wahrscheinlichkeit, daß ein fester Tip w E .f2 eines Spielers bei der nächsten 0 Ziehung "6 Richtige" erzielt (d.h. das w gezogen wird) ist 0 p { w 0} = ~[2 ~ 7 ° w-8 0 Angenommen, der Spieler verfolgt die Ziehung "live" und hat nach Ziehung der ersten fünf Zahlen bereits "5 Richtige". Die Wahrscheinlichkeit, daß er auch noch "6 Richtige" erzielt beträgt jetzt h, weil hierzu nur noch die fehlende Zahl seines Tips aus den verbleibenden 44 Kugeln gezogen werden muss. D Wie das Lotto-Beispiel zeigt, kann sich die Wahrscheinlichkeit für ein Ereignis dramatisch ändern, wenn man zusätzliche Informationen mitberücksichtigt. Wir wollen das durch den Begriff der bedingten Wahrscheinlichkeit formalisieren. Ausgangspunkt ist wieder ein Wahrscheinlichkeitsraum (D, d,P). Definition 1: Die bedingte Wahrscheinlichkeit von A E d unter der Bedingung BE d ist für P(B) > 0 definiert durch (1) P(A IB) = P(AnB). = P(B) Bei der (auf B) bedingten Wahrscheinlichkeit von A wird nur der in B liegende Teil von A berücksichtigt (vgl. Abb. 1), und die Wahrscheinlichkeit dieses Durchschnitts A nB wird auf die Wahrscheinlichkeit P(B) der Bedingung B normiert. Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 1.12.15 3-2 G B B Abb.J: Allgemeiner Fall Spezialfall: A ist in B enthalten Die bedingte Wahrscheinlichkeit P(A IB) entspricht dem Flächenanteil von An B an der Fläche von B1 während P(A) der Flächenanteil von A an der Gesamtfläche .f2 ist. Man erkennt hier auch1 daß P(B IA) und P(A IB) im allgemeinen verschieden sind. Multipliziert man eine bedingte Wahrscheinlichkeit mit der Wahrscheinlichkeit ihrer Bedingung, so ergibt sich wieder eine unbedingte Wahrscheinlichkeit: (2) P(A IB). P(B) = P(A nB). Wegen (3) P(AIB) = P(AnBIB) sind die auf B bedingten Wahrscheinlichkeiten bereits eindeutig durch alle P( CI B) mit C C B bestimmt. Für festes BE d ist das Mengensystem aller in B enthaltenen Ereignisse (4) dB == dn ~(B) = { CEdl CcB} eine a-Algebra über B. Faßt man B als einen neuen Ergebnisraum auf, so definiert die auf B bedingte Wahrscheinlichkeit ein Wahrscheinlichkeitsmaß, d.h. (5) P( -I B) : dB-----+ IR ist ein Wahrscheinlichkeitmaß auf (B, dB) . Insbesondere gelten (6) CcB * (7) P(BIB) = 1, P(0IB) = o. P(C) P(CIB) P(B) Als Verallgemeinerung von (2) läßt sich die Wahrscheinlichkeit des Eintritts endlicher vieler Ereignisse A , ... , An E d schrittweise durch bedingte Wahrscheinlichkei1 ten berechnen (8) P(A1 nA 2 n ... nAn) P(A 1) · P(A 2 A 1) · P(A 3 A 1 n A 2 ) 1 1 · .... · P(An A 1 n A 2 n ... n An_1 ) 1 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3-3 1.12.15 Für absteigende Ereignisse vereinfacht sich dies zu (9) Diese Zerlegung bildet die Grundlage für die Berechnung von Wahrscheinlichkeiten in einem "Baum" (Grafen), in dem man Ereignisse durch Punkte (Knoten) und Inklusionen durch Zweige (Kanten) darstellt. Die Wahrscheinlichkeit eines Endknotens wird dann durch Multiplikation der Wahrscheinlichkeit des Startknotens mit den bedingten Wahrscheinlichkeiten aller am Pfad beteiligten Kanten berechnet. So läßt sich (1 0) z.B. für n = 6 so darstellen: (10) Zahlenlotto "6 aus 49" (Fortsetzung) Bezeichnet A. das Ereignis, daß bei der i-ten gezogenen Kugel bereits "i Richtige" z für den Tip w vorliegen, so ergibt sich die Wahrscheinlichkeit für "6 Richtige" als 0 9 Produkt der untenstehenden Brüche zu P(AJ = 1 j (~ ). Al A3 A2 A5 A4 A6 ·------~·~----~·------~·~----~·------~· 4 5 3 2 1 6 49 47 48 45 46 44 D Eine praktische Methode zur Berechnung der Wahrscheinlichkeit für ein Ereignis A besteht darin, eine vollständige "Fallunterscheidung" nach endlich (oder abzähl bar) vielen "Fällen" (Bedingungen) B. durchzuführen, wobei man dann nur die Wahrz scheinlichkeiten P(B .) aller Bedingungen sowie die bedingten Wahrscheinlichkeiten z P(A IB .) bestimmen muß. z Satz von der totalen Zerlegung: Wenn die Familie (B. E d). I mit höchstens abzählbarer Indexmenge I paarweise z disjunkt ist mit .f2 = (11) zE U B. und P(B .) > 0 für alle i E I iEI z P(A) = 2:= iEI z P(A IB.) ·P(B.) z z 0 1 so gilt für jedes A E d Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 1.12.15 3-4 Aus den Wahrscheinlichkeiten P(A), P(B) und P(A IB) läßt sich auch die umgekehrte bedingte Wahrscheinlichkeit P(B IA) - nach Thomas Bayes (1702-1761) - bestimmen: P(BIA) = P(A IB) P(B) P(A) 0 (12) 3.1.1 für P(A) > 0 (Formel von Bayes). Wartezeiten und Exponential-Verteilung Wir betrachten eine reelle Zufallsvariable T mit Werten in (0, oo), die wir als Warte- zeit bis zum Eintreten eines interessierenden Ereignisses interpretieren, z.B. bei einem Produkt die Zeit bis zum Eintritt eines Defekts oder seine Lebensdauer. Wenn T eine Exponential-Verteilung Expo( >.) (vgl. 1.4.2) besitzt, so gilt (1) P { T > t} = 00 J A e-).. x dx = e-).. t für alle t > 0. t Die bedingte Wahrscheinlichkeit für { T > s + t} unter der Bedingung { T > s} ist (2) P{T>s+t I T>s} = P{T>t} für alle s, t > 0 . Für eine Wartezeit T drückt (2) eine "Gedächtnislosigkeit" aus. Die bedingte Wahrscheinlichkeit, nach Ablauf der Zeitspanne s erneut die Zeit t warten zu müssen, hängt nicht von s ab, und entspricht der Wahrscheinlichkeit von Anfang an die Zeit t warten zu müssen. Und für eine Lebensdauer T besagt (2), daß kein ,,Alterungsprozeß" auftritt: die Wahrscheinlichkeit nach Ablauf von s Jahren weitere t Jahre zu leben, hängt nicht vom aktuellen Alter s ab. Man kann zeigen, daß die Eigenschaft (2) die Exponentialverteilung wie folgt cha- rakterisiert. Wenn (2) für eine reelle Zufallsvariable T mit Werten in (0, oo) gilt, und die Wahrscheinlichkeit G(t) =P{T>t} eine stetige Funktion G auf (O,oo) ist, so ist T Expo(.A)-verteilt mit A =-log G(1). Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3.2 1.12.15 3-5 Stochastische Unabhängigkeit von Ereignissen In einem Wahrscheinlichkeitraum (f2, d,P) soll jetzt die stochastische Unabhängig- keit von Ereignissen definiert werden. Hierzu betrachten wir zunächst zwei Ereignisse A,BE d. Wenn die auf B bedingte Wahrscheinlichkeit von A mit der unbedingten Wahrscheinlichkeit von A übereinstimmt, d.h. wenn P(A IB) = P(A), so könnte man A und B als unabhängig ansehen. Ersetzt man die bedingte Wahrscheinlichkeitkeit durch ihre Definition 3.1 (1), so gelangt man zu folgender Definition der stochastische Unabhängigkeit, die auch für P(B) = 0 gilt: Definition 1: A, BE dheißen stochastisch unabhängig, wenn gilt (1) P(AnB)=P(A)·P(B). Für P(B) (2) > 0 ergibt sich sofort die äquivalente Charakterisierung P(A IB) = P(A), A B stochastisch unabhängig 1 und für P(B) = 0 ist jedes A von B unabhängig: (3) P(B) = 0 A B stochastisch unabhängig 1 Die Unabhängigkeit bleibt erhalten wenn man zu komplementären Ereignissen übergeht, gerrauer gilt: A1 B stochastisch unabhängig ::::} (4) CA 1 B stochastisch unabhängig, A1 CE stochastisch unabhängig, CA CE stochastisch unabhängig. 1 Die Definition der stochastischen Unabhängigkeit läßt sich auf eine indizierte Familie (A. E d) . I mit beliebiger Indexmenge I:;= 0 wie folgt erweitern. z zE Definition 2: (A.z E d).zE I heißt stochastisch unabhängig , wenn für jede nicht-leere endliche Teilfamilie K CI gilt: Man beachte, daß (5) für eine einelementige Menge K = { k} trivialerweise gilt. Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 1.12.15 3-6 Für eine zwei-elementige Indexmenge I= {1,2} ist die stochastische Unabhängigkeit von A , A äquivalent zur Definition gemäß (1). 1 2 Für eine stochastisch unabhängige Familie (A.). I sind insbesondere je zwei Ereigz zE nisse Ai' Ak stochastisch unabhängig. Umgekehrt folgt aus der paarweise Unabhängigkeit je zweier Ereignisse einer Familie nicht die Unabhängigkeit der gesamten Familie, wie folgendes Beispiel zeigt. Gegenbeispiel: Auf .f2 = {1, ... , 8} betrachten wir die Ereignisse A1 = {1, 2, 3, 4} , A2 = {1, 2, 5, 6} , A 3 = {3, 4, 5, 6}, die paarweise je zwei Elemente gemeinsam haben. Für die Gleichverteilung P ergibt sich daher die paarweise stochastische Unabhängigkeit, weil für i ;= k. Aber (A1,A 2, A 3 ) sind nicht stochastisch unabhängig, weil Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3.3 1.12.15 3-7 Produkte diskreter Wahrscheinlichkeitsräume Bei praktischen Anwendungen spielen unabhängige Wiederholungen eines stochastischen Vorgangs eine wichtige Rolle. Etwas allgemeiner betrachten wir jetzt eine Anzahl n E W (nicht notwendig gleicher) Zufallsvorgänge, die jeweils durch einen diskreten Wahrscheinlichkeitsraum (.f2 ., d., P.) mit i = 1, ... , n modelliert werden, d.h z z z .f2. ist höchstens abzählbar, und es ist d. = ~(.f2 .). Produkte mit nicht-notwendig abz z z zählbaren Räumen .f2. werden erst in 4.9 behandelt. - Gesucht ist nun ein Modell z für das simultane und voneinander unabhängige Ausführen aller n Vorgänge. Der Ergebnisraum des Simultanvorgangs ist offenbar der Produktraum (vgl. Abb. 1) n (1) n := .TI nz = .(21 X .(22 X X nn = { (wl, w2, ... , w n ) I w z E nz für alle i} ° 000 0 ° 0 z= 1 Qz ~----~----------~-----------, ...... i ·······-···· 3 Abb 1: Produktraum zweier Räume und das simultane Ereignis A1 x A2 als Durchschnitt der Einzelergebnisse { 1r1 EA1} = A1 x f2 2 und { 1r2 EA:z} = .f21 x A 2. Da .f2 als endliches Produkt höchstens abzählbarer Räume wieder höchstens abzählbar ist, können wir d= ~(.f2) als Menge aller Ereignisse des simulutanen Vorgangs verwenden. Gesucht ist jetzt noch ein Wahrscheinlichkeitsmaß P auf d, welches die Unabhängigkeit der Einzelvorgänge modelliert. Hierzu definieren wir zunächst das gesuchte Wahrscheinlichkeitsmaß P und zeigen dann, daß es die gewünschte Eigenschaft hat. Da .f2 höchstens abzählbar ist, läßt sich P wie folgt durch durch seine Zähldichte definieren: Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 1.12.15 3-8 Die Wahrscheinlichkeit eines Simultanergebnisses ist also das Produkt der Wahrscheinlichkeiten aller Einzelergebnisse. Dieses Wahrscheinlichkeitsmaß P heißt das Produktmaß von P , ... , Pn und 1 (f2, d,P) heißt auch der Produktraum. Als suggestive Bezeichnung verwendet man n (3) p = n TIP. 1 z (Produktmaß), TI1(f2 z., d.,P.) z z (f2, d,P) z= (Produktraum). z= 0 0 In Verallgemeinerung von (2) ist für beliebige Ereignisse A E d , ..., An E dn der 1 1 Einzel-Vorgänge die Wahrscheinlichkeit des gemeinsamen Eintretens das Produkt der einzelnen Eintrittswahrscheinlichkeiten n n P(TIA.) 1 z (4) z= 0 TI1P.(A.) z z bzw. z= 0 Wir wollen uns jetzt überlegen, welche Ereignisse aus d unter P unabhängig sein sollten, damit der Produktraum ein Modell für das unabhängige Ausführen der Einf2-----+ f2. ist eine Zufallsvariable (weil z z d= ~(f2) gilt) und ordnet jedem Simultanergebnis w = (wl' w2 , ... , wn) die i-te Kom- zelexperimente ist. Die i-te Projektion 1r.: ponente w. , also das Ergebnis des i-ten Vorgangs, zu z (5) , w , ... , w ) = w .. 1 2 n z 1r .( w z Für ein Ereignis A. E d. des i-ten Vorgangs beschreibt daher z z (6) { 1r. E z A.} = { (w1, w2, ... , w n ) I w z. E A.z } z das Ereignis des Simultanvorgangs, für das A. beim i-ten Teilvorgang eingetreten z ist und die Ergebnisse aller anderen Teilvorgänge beliebig seien können. Für das Produktmaß P stimmt die Wahrscheinlichkeit von { 1r. E A.} beim Simultanvorgang z z mit der Wahrscheinlichkeit P.(A.) für das Eintreten von A. bei i-ten Teilvorgang z z z überein: (7) für jedes A. E d. und jedes i. z z P{ 1r.EA.} = P.(A.) z z z z Das gleichzeitige Eintreten von Ereignissen A E 1 gang ist dann gegeben durch das Ereignis (vgl. n (8) 7r. E A.} = A x A x ... x A = . z z n 1 2 z= 1 n{ ~' ... , Abb. 1) n TI A z. . . z= 1 An E dn beim Simultanvor- Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 1.12.15 3-9 Wenn nun die Einzelvorgänge voneinander unabhängig sind, dann sollten die Ereignisse { 1r E A }, ... , { 1rn E An} stochastisch unabhängig sein, und dies ist für das Pro1 1 duktmaß P auch der Fall, d.h. für jedes 0 ;= K C {1, ... , n} gilt 3.3.1 Bernoulli-Wiederholungen und Binomialverteilung Wir spezialisieren jetzt die obigen Betrachtungen auf den Fall n unabhängiger Wiederholungen eines Bernoulli-Vorgangs, d.h. die Wahrscheinlichkeitsräume (fl.,d.,P.) z z z stimmen für i = 1, ... , n überein, wobei f2. = { 0, 1} und P. die Bernoulli-Verteilung z z B(1, p) ist. Die beiden möglichen Ergebnisse des Bernoulli-Vorgangs interpretieren wir als den Eintritt (1) oder das Ausbleiben (0) eines interessierenden Ziel-Ereignisses (Treffer, z.B. Erfolg). Der Produktraum der Ergebnisse ist dann die Menge f2 = {0, 1} n aller n- Tupel mit Komponenten 0 oder 1. Für das Produktmaß P=B(1,pt ist die Wahrscheinlichkeit für ein Ergebnis (w , ... , wn) E f2 gegeben durch 1 (1) P{(w 1,w 2, ... ,wn)} = pk(1-pt-k mit n k= # {i = 1, ... , n I w.z= 1} = 2:: w.z = : w+. i=l (Generell deutet ein Pluszeichen im Index eine Summe über diesen Index an). Meist interessiert bei einem Ergebnis w = (wl' ... , w n) nur wie oft das Ziel-Ereignis bei denn Wiederholungen eingetreten ist1 d.h. wie viele Einsen w enthält (wobei die Position dieser Einsen in w gleichgültig ist). Dies läßt sich formal durch eine Zufallsvariable X :f2-----+ {0, 1, ... , n} beschreiben mit n (2) X(w 1, ... ,w) = w+ = l:w .. n . z z=l Die Verteilung von X ist die Binomialverteilung B(n,p), d.h. es gilt (3) P{X=k} = b(kln,p) = (~)Pk (1-pt-k für k = 0, 1, ... , n. In diesem Sinne ist die Binomialverteilung die Verteilung der Anzahl X der Treffer - bei einer Trefferwahrscheinlichkeit p - unter n unabhängigen Wiederholungen. Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3.3.2 1.12.15 3-10 Produktmaß von Gleichverteilungen Für jedes i = 1, ... n sei jetzt .f2. endlich und P. die Gleichverteilung auf .f2 ., d.h. es ist z (1) P.{w.} =l_ z z z z für alle w . E .f2. z m. 2 z mit m. = z #.f!.,z n Dann gilt für den Produktraum .f2 = n (2) m := #.f! = n TI .f2. . 1 z z= TI #.f2.z = .TI1m.z . 1 z= und das Produktmaß P = n z= TI P. ist die Gleichverteilung auf D, weil . 1 z z= (3) Werfenzweier Würfel: • Beim Werfen von n = 2 Würfeln ist .f2. = {1, 2, 3, 4, 5, 6} die Ergebnismenge für den z i-ten Würfel mit i = 1, 2. Die Ergebnismenge für das Werfen mit beiden Würfeln ist der Produktraum (vgl. auch 2.3.1 Abb. 1) Für homogene Würfel ist die Verteilung der Augenzahlen durch die Gleichverteilung Pi auf .f2i gegeben. Das Produktmaß P=P1 xP2 ist dann eine Gleichverteilung auf .f2 und modelliert das Werfen mit zwei homogenen Würfeln, bei dem jedes Ergebnis aus .f2 die Wahrscheinlichkeit ~ hat. D Verteilungsfunktionen und Dichten 4-1 7.3.16 4. Verteilungsfunktionen und Dichten 4.1 Verteilungsfunktionen reeller Zufallsvariablen Für eine reelle Zufallsvariable X sind hauptsächlich Intervall-Wahrscheinlichkeiten von Interesse, d.h. solche der Form P {XE B}, wobei B C IR ein Intervall ist. Wir wollen jetzt zeigen, daß sich alle Intervall-Wahrscheinlichkeiten bereits aus Wahrscheinlichkeiten der Form P {X< x} für alle x E IR bestimmen lassen. Definition Für eine reelle Zufallsvariable X heißt die Funktion F: IR-----+ [0, 1] mit (1) F(x) == P{X<x} = PX(-oo,x] für xE IR. die Verteilungsfunktion von X. Da F nur über die Verteilung PX von X abhängt, wird F auch die Verteilungsfunktion von PX genannt. Die Verteilungsfunktion F einer Zufallsvariablen X hat folgende wichtige Eigenschaften (hierbei steht "x l a" für "x---+ a und x > a") (2) F ist monoton wachsend: F(a) < F(b) a<b (3) F ist rechts-stetig: (4) F(- oo) : = lim x---+-oo für alle a, b E IR. lim F(x) = F(a) xta F(x) o, für alle a E IR. F( + oo) : = lim x---++oo F(x) 1 Die Verteilungsfunktion F ist im allgemeinen nicht links-stetig, aber wegen der Monotonie existieren die linksseitigen Grenzwerte ("x I a" steht für "x---+ a und x < a") (5) F(a-) == lim F(x) = PX(-oo,a) = P{X<a} xja für alle a E IR. Als monotone Funktion ist Fauch meßbar. Weiter gilt: (6) P{X=a} = F(a) -F(a-) für alle a E IR. Für beliebige a < b lassen sich die Intervall-Wahrscheinlichkeiten für X unter Verwendung der Verteilungsfunktion F wie folgt berechnen: Verteilungsfunktionen und Dichten (7) 4-2 7.3.16 P{a<X<b} F(b)- F(a) , P{a<X<b} F(b -) - F(a -) , P{a<X<b} F(b) - F( a -) , P{a<X<b} F(b -)- F(a) Die VerteilungsfunktionFist zwar im allgemeinen nicht stetig, aber es gilt: (8) F ist in a stetig (9) F hat höchstens abzählbar viele Unstetigkeitsstellen. P{X=a} = 0, In der Wahrscheinlichkeitstheorie wird sogar gezeigt (worauf wir hier verzichten): Theorem: Zu jeder reellen Funktion F mit den Eigenschaften {2) - (4) gibt es genau eine Verteilung P auf (IR, IB) mit Verteilungsfunktion F, d.h. (10) F(x) = P(- oo, x] für alle x E IR. Folglich kann man eine Verteilung P auch durch Spezifikation ihrer Verteilungsfunktion definieren. Wir werden im folgenden nur zwei Typen von reellen Zufallsvariablen betrachten: solche mit einer diskreten Verteilung und solche mit einer Wahrscheinlichkeitsdichte. Andere als diese beiden Typen werden in praktischen Anwendungen nur sehr selten zur ModelEerung verwendet und deshalb hier nicht weiter behandelt. 4.1.1* Quasi-Inverse einer Verteilungsfunktion Die Verteilungsfunktion F: IR-----+ [ 0, 1] einer reellen Zufallsvariablen X besitzt im allgemeinen keine Umkehrfunktion, weil sie weder injektiv noch surjektiv zu sein braucht. Man kann aber eine Quasi-Inverse F-: (0, 1)-----+ IR definieren durch (1) (Quasi-Inverse von F). F-(p) == inf{xEIR lp::;F(x)} Für alle 0 < p < 1 und x E IR gelten dann die grundlegenden Eigenschaften: (2) p < F(F-(p)) , (3) F-(F(x)) < x, (4) F-(p) <X (5) F(F-(F(x)) = F(x) . {} p::; F(x) , Verteilungsfunktionen und Dichten 4-3 7.3.16 Weiter ergibt sich (6) F- ist monoton wachsend und links-stetig. (7) F ist stetig in F- (p) F(F-(p)) = p für alle 0 < p < 1. (8) F ist streng wachsend F-(F(x)) = x für alle x E IR. Als monotone Funktion ist F- auch meßbar. - Falls F stetig und streng wachsend ist, so ist F [IR]= (0,1) und F-ist die Umkehrfunktion (Inverse) von F. 4.2 Verteilungsfunktionen diskreter Zufallsvariablen Eine reelle Zufallsvariable X: .f2-----+ IR heißt diskret, falls ihr Bild (1) T:= X[D] = {X(w) I wEil} c IR höchstens abzählbar ist. Im folgenden sei X diskret und somit TE IB. Dann ist T ein Träger (der Verteilung) von X- die Verteilung von X ist also diskret - und es gilt (2) P{XE T} = 1 (3) P{XEB} = P{XEBn T} für BE IB. Die Zähldichte f: T-----+ [ 0, 1] der Verteilung von X ist definiert durch (4) f(x) = PX{x} = P{X=x}. Es ist zweckmäßig, die Zähldichte auch auf ganz IR fortzusetzen, wobei - in Übereinstimmung mit (4) - natürlich f(x) = 0 für x (/:. T gilt. Die Verteilungsfunktion F: IR-----+ [ 0, 1] von X läßt sich mit f darstellen als (5) F(a) = 2: f(x) . xET x<a F stellt eine monoton wachsende Treppenfunktion dar, die gerrau auf dem Träger ihre "Sprungstellen" hat (vgl. Abb. 1). Die "Sprunghöhe" von F im Punkt a (6) F(a) -F(a-) = P{X=a} = f(a) für aE T, ist gerrau die zugehörige Elementar-Wahrscheinlichkeit der Verteilung von X. Verteilungsfunktionen und Dichten 4.2.1 7.3.16 4-4 Einpunkt-Verteilung, Dirac-Verteilung Für eine konstante reelle Zufallsvariable X mit Wert a E IR ist der Träger T = { a}. Wegen (1) P{ X= a} = 1 heißt die Verteilung von X eine Einpunkt-Verteilung oder Dirac-Verteilung in a nach Paul Dirac (1902-1984) - und wird mit Dirac(a) bezeichnet. Ihre Verteilungsfunktion F springt im Punkt a von 0 auf 1 (vgl. Abb. 1) und entspricht somit der Indikatorfunktion (vgl. 2.1) des Intervalls [a1 oo), d.h. F =I[a,oo )" 4.2.2 Binomial-Verteilung Wenn X eine B(n,p)-Verteilung hat mit Träger T={0,1, ... ,n} so ergibt sich die Verteilungsfunktion F von X mit der Zähldichte b(-1 n,p) aus 1.2.3 zu (vgl. Abb. 1) Int(a) (1) F(a) = 2:: b(iln,p) mit Int(a) = Max{iEWii<a}, aEIR. i=O Speziell für die Sprungstellen von F ergibt sich k (2) F(k) 2:: b(i I n,p) für k = 0, 1, ... , n , i=O (3) F(k-) F(k-1) für k = 1, ... , n . 4.2.3 Poisson-Verteilung Wenn X eine Pois(p,)- Verteilung hat mit Träger T = W , so ergibt sich die Vertei0 lungsfunktion F von X mit der Zähldichte p(-IJ-L) aus 1.3.1 zu (vgl. Abb. 1) Int(a) (1) F(a) = 2:: p(ilp,) mit Int(a) = Max{iEWii<a}, i=O Speziell für die Sprungstellen von F ergibt sich k (2) F(k) 2:: p(i 1~-L) i=O (3) F(k-) F(k-1) für k E W. aEIR. Verteilungsfunktionen und Dichten 4-5 7.3.16 Abb. 1: Dichten und Verteilungsfunktion einiger diskreter Verteilungen (Sprungstellen sind durch einen Punkt • besonders gekennzeichnet) 1,0 Dichte der Einpunktverteilung Dirao(a) Verteilungsfunktion der Einpunktverteilung Dirac(a) 1,0 0,5 0,5 a a Dichte von B(n, p) für n= 5, p = 0,4 Verteilungsfunktion von B(n,p) für n= S, p= 0,4 1,0 1,0 0,5 0,5 I I -1 0 l . I I I I 4 5 6 7 8 I 2 3 -1 0 2 3 4 5 6 7 8 -1 0 2 3 4 5 6 7 8 Dichte von Pois(u) für J.l "" 1, 5 1,0 1,0 0,5 0,5 -1 0 2 l l 3 4 5 6 7 8 Verteilungsfunktionen und Dichten 4.3 7.3.16 4-6 Stetige Zufallsvariablen mit Dichten Wir betrachten jetzt eine reelle Zufallsvariable X: .f2-----+ IR, deren Bild (1) D' == X[D] = {X(w) I wEil} C IR ein reelles Intervall ist mit den Randpunkten (2) < a == inf D' sup D' ==ß. Weiter gehen wir davon aus, daß die Verteilung PX von X durch eine Wahrschein- lichkeitsdichte f: D'-----+ [ 0, oo) mit höchstens endlich vielen Unstetigkeitsstellen gegeben ist, d.h. für jedes Intervall (a, b] CD' gilt (3) b P { a <X< b} = PX ( a, b] = 1f( x) dx . a Die Zufallsvariable X heißt dann stetig (verteilt) mit der (Lebesgue-) Dichte f (weil ihre Verteilungsfunktion stetig ist, vgl. unten). Die Verteilung PX ist nach (3) bereits bestimmt durch die Einschränkung der Dichte f auf das offene Intervall (4) T = (a,ß) = n'o = X[.ar (offener Kern des Bildes von X). Das offene Intervall T, d.h. der offene Kern des Bildes von X, ist dann ein Träger der Verteilung von X. Es spielt keine Rolle, welchen Wert die Dichte f auf den beiden Randpunkte a und ß annimmt (sofern diese zum Bild D' gehören). Die Dichte läßt sich zu einer meßbaren Funktion auf ganz IR fortzusetzen, indem man sie auf dem Komplement desTrägersT gleich Null setzt (5) f(x) : = 0 für alle x \t T. Dann läßt sich die durch (3) gegebene Verteilung PX interpretieren als eine Verteilung auf (IR, lB), was manchmal von Vorteil ist. Man beachte allerdings, daß die so fortgesetzte Dichte f: IR-----+ [0, oo) nicht notwendig in den Randpunkten a und ß von T stetig ist, aber insgesamt in höchstens endlich vielen Punkten unstetig ist. Für die Verteilungsfunktion F von X gilt dann a (6) F(a) = 1 f(x) dx für a E (a,ß) (X a 1 f(x) dx für a E IR -= wobei die letzte Darstellung die Fortsetzung der Dichte f auf IR verwendet. Insbesondere ist F stetig auf T und sogar auf ganz IR, weil Verteilungsfunktionen und Dichten F( a) = 0 für a < a, (7) 7.3.16 F(b) = 1 4-7 für b > ß. Folglich nimmt die (monoton wachsende) Funktion F außerhalb des offenen Intervalls (a,ß) nur die Werte 0 und 1 an. Man beachte, daß (7) auch im Fall a =-oo und/oder ß = oo nach 4.1 (4) gilt. - In den Stetigkeitsstellen x von f (auch für x \t T) ist die Verteilungsfunktion differenzierbar (8) für alle Stetigkeitsstellen x von f. F '(x) = f(x) Insbesondere ist die Dichte f auf ihrem Stetigkeitsbereich eindeutig bestimmt als Ableitung der zugehörigen Verteilungsfunktion F. Ist umgekehrt nur die Verteilungsfunktion gegeben, so erhält man die zugehörige (kanonische) Dichte wie folgt. Satz: Die Verteilungsfunktion FY einer Zufallsvariablen Y sei auf IR stetig und die Menge D = { y E IR I Fist in y nicht stetig differenzierbar} sei endlich. Dann ist für y \tD } für y ED (9) (kanonische Dichte) die (kanonische) Dichte von Y 1 und f Y ist höchstens auf D unstetig. Zusatz: Andert man f Y auf D beliebig ab1 so bleibt es eine Dichte von Y. Bei den bisher betrachteten stetigen Verteilungen haben wir stets das offene Trägerintervall (a, ß) vorher spezifiziert. Wir wollen jetzt das (genauer: das minimale) Trägerintervall unter Verwendung der Verteilungsfunktion F einer stetigen Verteilung P auf IR rekonstruieren und definieren hierzu (10) aF=inf {xEIRIF(x)>O} E [-oo,+oo), ßF=sup{xEIRIF(x)<1} E (-oo,+oo]. Dann gilt (11) und somit ist (aF' ßF) ein Trägerintervall von P. Es ist auch das kleinste Trägerintervall, weil für jedes- oo < a 1 < ß' < + oo gilt: (12) P(a',ß') = 1 a' -< a F < ßF< ß'. Deshalb wird (aF' ßF) auch als kanonisches oder minimales Trägerintervall von P bezeichnet. Bei den bisher betrachteten stetigen Verteilungen haben wir auch von Anfang an dieses minimale Intervall gewählt. Verteilungsfunktionen und Dichten 4-8 7.3.16 Abb. 2: Stetige Dichten und Verteilungsfunktionen der Verteilungen: SG( a, ß)~ Expo( >.) mit fL = 1/\ N(tt, a 2 ). Dichte der stetigen Gleichverteilung SG(a ,ß) Verteilungsfunktion von SG(a,ß) 1,0 ~--- 1//1 0 ,5 a Dichte der Exponentlaiverteilung mit Erwartungswert 11 ß Exponentlai-Verteilungsfunktion mit Erwartungswert 11 1,0 0,5 2p 0 4p Dichte von N(u,o2 ) 6p 2p 0 4p 6p 1.0 1/2o 0 .5 p-40 I \ p-20 I p + 2o p+4a Verteilungsfunktionen und Dichten 4-9 7.3.16 4.3.1 Stetige Gleichverteilung X sei eine reelle Zufallsvariable mit dem Träger T = ( a, ß) und stetiger Gleichver- teilung SG( a, ß), wobei a < ß und L1 = ß- a. Die Verteilungsfunktion F von X ist stetig auf ganz IR und steigt im Intervall [a, b] linear von 0 auf 1 an (vgl. Abb. 2): (1) 1 F(x) = L1 (x- a) < x < ß. für a 4.3.2 Exponential-Verteilung X sei eine Zufallsvariable mit Träger T = (0, oo) und Exponential-Verteilung Expo(>.). Die Verteilungsfunktion F von X ist gleich Null auf dem Intervall (- oo, 0], und auf T ist F gegeben durch (vgl. Abb. 2) (1) F(t) = 1- e-"\ t für t> 0. 4.3.3 Normal-V erteil ung U sei eine reelle Zufallsvariable mit Trä- Dichte von N(o ~ 1) 0.4 ger T =IR und Standard-Normalverteilun9 N(O, 1). Die Dichte cp von U bzw. N(O, 1) ist (1) 1 cp( x) = - - . e y'2i -l.x2 0 .2 2 und die Verteilungsfunktion P von U bzw. N(O, 1) ist (vgl. Abb. 3a) -2 1,0 a (2) <I>(a) = Jcp(x) dx. I I sen, aber die Funktion liegt tabelliert vor· ter-Programmen zur Verfügung. 4 I I I 0 ,8 Dieses Integral läßt sich nicht explizit lö- matischen sowie statistischen Compu- 2 Vertei lungsfunktion von iN(o, 1) 1 O,Q -00 (vgl. Anhang) und steht in vielen mathe- .a 0 ..".-----------,----=--~ 0 ,7 I I I 0,6 'i I I 0 5 ~ 0,4 0,3 ( ) ..:}--<tl--'-a--'-----------1 0 ,2 0 ,1 4 ~ a 0 2 Abb.3a: Dichte und Verteilungsfunktion der Standard-Normalverteilung. 4 Verteilungsfunktionen und Dichten 4-10 7.3.16 P ist eine stetige "sigmoide" Kurve, die um den Punkt ( 0, ~ ) drehsymmetrisch ist: (3) <!>(- a) = 1- <!>( a) für a E IR. Sei jetzt X eine reelle Zufallsvariable mit (allgemeiner) Normalverteilung N(p,, a 2 ). Mit den Resultaten des Abschnitts 4.4.1 ergibt sich, daß die sogenannte Standardisierung U = .l[xp,] von X eine Standard-Normalverteilung N(O, 1) besitzt, und die a stetige Verteilungsfunktion F von X bzw. N(p,, a 2 ) gegeben ist durch (vgl. Abb.2) (4) F(x) = <!>(; [x- p,]) für xE IR. Verteilungsfunktionen und Dichten 4.4 4-11 7.3.16 Dichten transformierter Zufallsvariablen Eine reelle Zufallsvariable X: .f2-----+ IR läßt sich unter Verwendung einer meßbaren Abbildung g :X[D]-----+ IR "transformieren" in eine neue Zufallsvariable g(X) : = g oX: .f2 ~ X[n] ~IR. (1) Wichtige Beispiele solcher Transformationen sind: • lineare Transformation: g(X)=a+ßX, • Potenzen: g(X) = xn' nEW • Absolutbetrag: • Potenzen des Absolutbetrags: g(X) = g(X) = lXI, IXIr, r>O • Exponentialfunktion: g(X) = ex' • Logarithmus: g(X) =log X. ß;=O für X> 0 Wenn X eine diskrete Zufallsvariable ist, so ist auch jede Transformation g(X) wieder diskret, und die Verteilung von g(X) ist durch die Zähldichte gegeben P{g(X)=z} = P{XEg-1 [{z}l}, (2) z E IR. Beispiel: Binomialverteilung Die Anzahl X der Treffer bei n unabhängigen Wiederholungen und Treffer-Wahrscheinlichkeit p ist nach 3.3.1 die binomialverteilt: L(X) = B(n,p). Oft ist statt der Anzahl X die relative Häufigkeit der Treffer von Interesse, also - 1 X ==-X =g(X) n X hat mit den Träger { .k I k = 0, ... , n} und die Zähldichte ist dort nach (2) gegeben n durch P {X = .k} = P {X= k} = b( k I n, p), n X ist eine umkehrbare Umskalierung von X= n X. k = 0, ... , n. D Wir betrachten jetzt den Fall, daß X eine stetige Zufallsvariable mit einer Dichte f X (gemäß 4.3) ist und wollen Dichte von g(X) für spezielle Transformationen g bestimmen. Verteilungsfunktionen und Dichten 4-12 7.3.16 Satz 1 (Monotone Transformationen stetiger Zufallsvariablen) X sei eine stetige Zufallsvariable mit Träger Tx= (ax,ßx) Verteilungsfunktion 1 Fx und Dichte fx: T x-----+ [0, oo), und die Menge D der Unstetigkeitsstellen vonfx sei endlich. Weiter sei g: TX-----+ IR eine stetig-differenzierbare und streng monotone (wachsende oder fallende) Funktion. (a) Für streng wachsendesgergibt sich die Verteilungsfunktion von g(X) aus für zEg[Txl = (g(ax),g(ßx)) Fg(X)(z) = Fx(g-\z)) Fg(X)(g( ax)) = 0, (b) Fg(X)(g(ßx)) = 1. Für streng fallendes g ergibt sich die Verteilungsfunktion von g(X) aus Fg(X)(z) = 1- Fx(g-\z)) für zEg[Txl = (g(ßx),g(ax)) Fg(X)(g(ßx)) = o, (c) Fg(X)(g( ax)) = 1. Ist N = {g' = 0} endlich, so ist eine Dichte von g(X) auf g[Txl gegeben durch f)g-\z)) (i) für zEg[Tx] \g[N], lg'(g-1(z)) I für zEg[N], 0 und fg(X) ist höchstens auf der endlichen Menge g [DUN] unstetig. 4.4.1 Lineare Transformationen stetiger Zufallsvariablen Es sei X: .f2-----+ IR eine stetige Zufallsvariable mit Verteilungsfunktion FX und einer Dichte fx:IR-----+[O,oo), die höchstens endlich viele Unstetigkeitsstellen hat. Für festes a, ß E IR mit ß :;= 0 erfüllt die lineare Transformation g :IR-----+ IR mit (1) g(x) = a + ßx für xE IR, die Voraussetzungen von Satz 1 und die Inverse von g ist gegeben durch (2) für zE IR. Die linear transformierte Zufallsvariable schreiben wir suggestiv als (3) g(X) = a + ßX. Verteilungsfunktion und Dichte von a (4) ß>O =? + ßX ergeben sich aus Satz 1: für zEg[ T], Verteilungsfunktionen und Dichten 4-13 7.3.16 (5) ß<O =? Fex +ßX(z) 1- Fx(ß (z- a)) (6) ß;z::.O =? frx+ßX(z) l~l·fx(ß (z- a)) für zEg[ T], Normalverteilung: Jede Normalverteilung N(p,, a 2 ) ist eine lineare Transforma- tion der Standard-Normalverteilung N(O, 1), weil (7) L(U) = N(O, 1) L(p, + a U) L(X) = N(p,, a 2 ) L(; [X- p,l) 2 = N(p,, a ) , = N(O, 1) . Stetige Gleichverteilung: Jede stetige Gleichverteilung SG( a 1 ß) mit L1 = ß- a > 0 ist eine lineare Transformation der Gleichverteilung SG(O, 1), weil (8) L(a + L1 U) = SG(a,ß). L(U) = SG(O, 1) Exponentialverteilung: Jede Exponentialverteilung Expo(>.) ist eine Umskalierung der Standard-Exponentialverteilung Expo(1) weil (9) L(~ L(U) = Expo(1) U) = Expo(>.). 4.4.2 Absolutbetrag und Potenzen stetiger Zufallsvariablen Es sei X wieder : .f2-----+ IR eine stetige Zufallsvariable mit Verteilungsfunktion FX und einer Dichte fx: IR-----+ [0, oo), deren Menge D der Unstetigkeitsstellen höchstens endlich ist .. Für den Absolutbetrag lXI und das Quadrat X2 ergeben sich Verteilungs- funktion und Dichte auf dem Träger (0, oo) wie folgt: (1) (2) FIXI(y) = Fx(Y) - Fx(- y) für y > 0, FIXI(y) =0 für y < 0. !IXI(y) = f jy) + f X(- y) !IXI(y) =0 (3) für y > 0, für y < 0. FX2(y) Fx(\/Y) -Fx(- VY) für y > 0, Fx2(Y) 0 für y < 0. Verteilungsfunktionen und Dichten (4) 4-14 7.3.16 2 ~ · Vx( h) +1x(- h) J für y > 01 0 für y < 0. Man beachte, daß die Dichten fiX I und fX 2 höchstens endlich viele Unstetigkeitsstellen haben, weil dies für f X der Fall ist. Zum Nachweis von (1) - (4) bestimmen wir allgemeiner für r > 0 die Verteilungsfunktion und Dichte von (5) (6) IX Ir: FIXIr(Y) Fx(yl/r) _ Fx(_ yl/r) für y > 0, FIXIr(Y) 0 für y < 0. JIXIr(Y) ; y(l-r)/r[Jx(yl/r) !IXIr(Y) 0 + f)-yl/r)] für y > 0, für y < 0. Mit f X hat auch die Dichte JIXI r höchstens endlich viele Unstetigkeitsstellen. Für r = 1 ergeben sich (1) - (2) und für gerades r = n E W erhalten wir als Verallgemeinerung von (3) - (4) die Verteilungsfunktion und Dichte von (7) (8) xn = IXIn Fxn(Y) Fx(yl/n) _ Fx(_ yl/n) für y > 0, n gerade, Fxn(Y) 0 für y < 0, n gerade. fxn(Y) ~y(l-n)/n[Jx(yl/n) für y > 01 n gerade fxn(Y) 0 für y < 0, n gerade. + f)-yl/n)] 1 Für ungerades n > 1 ist die Potenzfunktion g(x) = xn auf IR streng wachsend mit der Inversen g-\y) = yl/n, wobei g-\- y) =- yl/n für y > 0 gesetzt wird. Für die Verteilungsfunktion und Dichte von g(X) =Xn ergeben sich (9) Fx(yl/n) für y E IR n > 1 ungerade. (10) ~ y(l- n)/n Jx(yl/n) für y E IR, y ;= 0, n > 1 ungerade. Da Fxn in y = 0 nicht differenzierbar ist, setzen wirfxn(O) = 0, und dort kann f xn auch unstetig sein, wie das folgende Beispiel zeigt. Verteilungsfunktionen und Dichten 4-15 7.3.16 Beispiel: Normalverteilung Für X'""'"' N(O, 1) ist die Dichte f X 3 von X 3 auf ihrem Träger IR im Punkt 0 unstetig und die Verteilungsfunktion FX 3 ist dort nicht differenzierbar (vgl. Abb. 3b), weil Dies ist einer der Gründe, warum wir (in 1.4 und 4.3) auch Dichten mit endlich vie- len Unstetigkeitsstellen zugelassen haben. - Dagegen hat die Verteilung des Quadrats X 2 auf ihrem Träger (0, oo) eine stetige Dichte, aber die zugehörige (Gamma-)Verteilung wird erst in. 8.3.3 (3) angegeben. -5 0 5 -5 0 5 0+-~~~~~--~~~--~~~ -5 0 5 Abb 3b: Vergleich der Dichten (oben) und Verteilungsfunktionen (unten) von N(0,1) und N(0,1) 3 -bei jeweils gleicher Skalierungen der Achsen links: Dichte f X und Verteilungsfunktion FX von X,.....__ N(0,1). rechts: Dichte f X 3 und Verteilungsfunktion FX 3 von X 3 '""'"'.N(0,1) 3. Im Punkt 0 ist f x 3 unstetig und Fx 3 nicht differenzierbar (vgl. Text). Verteilungsfunktionen und Dichten 4-16 7.3.16 4.4.3 Log-Normalverteilung Für eine Zufallsvariable U mit Standard-Normalverteilung N(O, 1) und reelle Parameter a, ß, r E IR mit ß> 0 betrachten wir die Zufallsvariable (1) X=a+ßU. mit Die Verteilung von Z heißt eine Log-Normalverteilung, weil die Verteilung des (um r 2 geschifteten) Logarithmus X= ln(Z- r) eine Normalverteilung N( a,ß ) ist. Der Trä- ger von Z ist das Intervall (/, oo). Mit der streng wachsenden Transformation (2) r + erx+ßu g(u) == für u E IR und ihrer Inversen (3) für z> r ergeben sich die Verteilungsfunktion F und Dichtefz der log-Normalverteilungaus 2 der Verteilungsfunktion P und Dichte cp von N(O, 1) zu (4) für z> r. Die Dichtefunktionfz stellt eine "schiefe" Glockenkurve dar (vgl. Abb. 4-5) Dichten der Log-Normal-Vertei lung für verschiedene Werte von {3 (\ \ o~L_~~~----~----~~=-~===-~ 1 1+2a Abb.4: Dichten der log-normalverteilten Zufallsvariablen Z = r + a eß u aus 4.4.2 (1) mit a = ea. und N(0,1)-verteiltem U für verschiedene Werte von ß. Man beachte, daß r und a bzw. a bereits in der Skalierung der Achsen berücksichtigt sind. - Eine weitere Darstellung von log-normal-Dichten findet sich in 7.6 Abb. 2. Verteilungsfunktionen und Dichten J.1 4-17 7.3.16 j.1-2o J.1+2o Log-Normal-Dichte: Schiefe= 1.30 648 Mädchen J.1 + 2o J.1 Log-Normal-Dichte: Schiefe= 1.1 9 648 Jungen J.1=70 .95 J.1=70 .90 1/ \ 0=14.98 0= 12.83 1\ \ \ I 0 20 40 60 80 100 120 140 Gewicht: Kind (Kontrolle) [Pound ] f.1-2o 0 I J I I ~ I I 20 40 60 80 100 120 140 Gewicht: Kind (Kontrolle) [Pound ] J.l J1 + 2o J1+2o I Log-Normal-Dichte: Schiefe=0.49 i296 Kinder J1 ':28.28 / \ 7 0 - 5 .99 \ ,.., \ 1/ \ ~ f I 0 I I I I 50 100 150 200 250 300 Gewicht: Mutter (Geburt) [Pound] I J I \ I I I 10 20 30 40 50 Alter: Mutter (Geburt) [Jahr] Abb. 5: Histogramme mit "angepaßter" Dichte einer Log-Normalverteilung für Daten aus einer amerikanischen Studie über Kindesentwicklung: Gewicht der Kinder im Alter von 10 Jahren, das Gewicht der Mutter sowie das Alter der Mutter (bei Geburt des Kindes). Quelle: J.L. Hodges, D. Krech, R.S. Crutchfield (1975). StatLab: an empirical introduction to statistics. McGraw-Hill, New York. Die Parameter p, (Erwartungswert), a (Standardabweichung) und die Schiefe e3 werden erst in Kap. 7 erläutert und die hier angegeben Werte sind die jeweiligen Schätzungen (vgl. Kap. 8). Verteilungsfunktionen und Dichten 4-18 7.3.16 4.4.4 Weibull-Verteilung Für eine Zufallsvariable X mit L(X) = Expo(1) betrachten wir für a, '"Y > 0 die transformierte Zufallsvariable Y = a ·X 111 . Die Verteilung von Y ist die nach Waloddi Weibull (1887-1979) benannte Weibull-Verteilung W( a, '"Y), deren Dichte- und Verteilungsfunktion sich mit Satz 1 leicht aus denen der Exponentialverteilung bestimmen lassen. Die Dichte ist in Abb. 6 für '"Y = 0.5, 1 und 1.5 dargestellt . 1/ a 0 a 2a 3a Abb.6: Dichte der Weibull-Verteilung W( a, '"Y) für '"Y = 0.5, 1 und 1.5 (der Skalenparameter a ist in der Skalierung der Achsen berücksichtigt). Die Weibull-Verteilung wird oft für die ModelEerung einer zufälligen Lebensdauer Y verwendet. Im Gegensatz zur Exponential-Verteilung (die hier als Spezialfall '"Y = 1 enthalten ist) kann mit der Weibull-Verteilung sowohl für '"Y > 1 ein "(positiver) Alte- rungsprozeß", d.h. (1) P{Y>s+t I Y>s} < P{Y>t} für alle s, t > 0, als auch für '"Y < 1 "negatives Altern" modelliert werden, d.h. (2) P{Y>s+t I Y>s} > P{Y>t} für alle s, t > 0. Lediglich für '"Y = 1 (d.h. Exponentialverteilung) wird "kein Altern" modelliert: (3) P{Y>s+t I Y>s} = P{Y>t} für alle s, t > 0. Verteilungsfunktionen und Dichten 4-19 7.3.16 4.4.5* Erzeugung von Zufallszahlen Die Verteilung einer reellen Zufallsvariablen X mit Verteilungsfunktion F läßt sich unter Verwendung der Quasi-Inversen F- vonFauch aus der stetigen Gleichverteilung SG(0,1) erzeugen: (1) F-(U) hat F als Verteilungsfunktion L(U) = SG(O, 1) Für jede vorgegebene Verteilung L(X) mit Verteilungsfunktion F läßt sich daher aus einer SG(O, 1)-verteilten Zufallsvariablen U durch Transformation mit der Quasi-Inversen F- eine Zufallsvariable Z = F-(U) mit der vorgegeber Verteilungsfunktion F erzeugen. Man benutzt dieses Verfahren zur Erzeugung von Zufallszahlen für eine vorgegebene Verteilung, indem man Zufallszahlen u , u , .... gemäß SG(O, 1) 1 2 erzeugt (was im Rechner besonders einfach und schnell möglich ist) und diese dann mit F- transformiert zu x = F-( u ), x = F-( u ), ..... 1 4.5 1 2 2 Zufallsvektoren Bei komplexeren stochastischen Vorgängen interessiert man sich typischerweise für mehrere reelle Zufallsvariable und für die möglichen Zusammenhänge dieser Zufallsvariablen. Bei einem (zufällig ausgewählten) Neugeborenen sind z.B. das Geburtsgewicht X 1, die Geburtsgröße X 2 und die Schwangerschaftsdauer X 3 von primärem Interesse für die Reife des Kindes und es besteht ein starker Zusammenhang zwischen diesen drei Zufallsvariablen. Die statistische Analyse des Zusammenhangs der drei Zufallsvariablen läuft auf die Untersuchung der Verteilung des Zufalls-Tripels (X ,X ,X ) hinaus. 1 2 3 Allgemeiner betrachten wir auf einem Wahrscheinlichkeitsraum (f2, d,P) endlich viele reelle Zufallsvariablen X.: f2 -----+ lR mit i = 1, ... , n. Die n Abbildungen X , ... ,X z 1 n lassen sich zu einer Abbildung zusammenfassen (1) X:=(X , ... ,Xn): f2-----+ lRn mit (2) X(w) = (X1(w), ... , Xn(w)) für w E f2. 1 Unter Verwendung der Projektionen 1r.: lR n-----+ lR für i = 1, ... , n mit z (3) 1r.(x , ... , x ) = x. z 1 n z Verteilungsfunktionen und Dichten 4-20 7.3.16 läßt sich (2) auch äquivalent schreiben als (4) 1r.oX=X. z für alle i = 1, ... ,. n . z Um die Abbildung X: .f2-----+ IR n als Zufallsvariable auffassen zu können, benötigen wir noch eine a-Algebra d C ~(IR n) bzgl. der X meßbar ist. Da die volle Potenzmenge d=~(IRn) hierfür "zu groß" ist, wollen wir jetzt (analog zum Fall n = 1) eine geeignete a-Algebra d "interessierender" Ereignisse definieren. 4.5.1 Mehrdimensionale Borel-Mengen Zur Konstruktion einer geeigneten a-Algebra auf IR n betrachten wir n Bore1-Mengen B , ... , B E lB, wobei wir B. als ein "Ereignis" für X. interpretieren. Das simul1 n z z tane Eintreten aller dieser Ereignisse für den Vektor X entspricht dann (analog den Überlegungen für simultane Vorgänge in 3.3) der Produktmenge n (1) iD1Bi = B1 xB2 x ... xBn mit B1, ... ,Bn E lB. Die Menge ggn aller Produktmengen der Form (1) ist noch keine a-Algebra, weil z.B. das Komplement einer Produktmenge im allgemeinen keine solche mehr ist. Die kleinste gJ umfassende a-Algebra wird mit lBn = a(gJn) bezeichnet und ihre Elemente BE lBn werden auch (n-dimensionale) Borel-Mengen genannt. Insbesondere ist jede höchstens abzählbare Menge B C IR n eine Borel-Menge. Außerdem enthält lBn alle offenen und alle abgeschlossenen Teilmengen des IR n_ Von besonderem Interesse sind Produktmengen von reellen Intervallen n (2) fli. = I 1 xi2 x ... xin mit Intervallen I 1, ... ,In ciR, . z z= 1 die man auch als n-dimensionale Intervalle bezeichnet. Die Menge ._yn aller n-dimensionalen Intervalle - d.h. von der Form (2) - erzeugt ebenfalls die a-Algebra lBn, d.h. lBn = a(.fn) ist die kleinste ._yn umfassende a-Algebra auf IRn. Das Produkt von Intervallen der Form (a.,b.] CIR wird auch wie folgt bezeichnet z z (3) n (a,b] == fl(a.,b.] = {(x1, ... ,x )EIRnla.<x.<b.fürallei}. i =1 z z n z z z wobei a = (a , ... ,an) und b = (b , ... , bn). Weiter ist es zweckmäßig, die Ordnungsrela1 1 Verteilungsfunktionen und Dichten tionen (4) < und < von IR 4-21 7.3.16 ))komponentenweise auf IR n fortzusetzen 11, d.h. wir definieren a<b :{} a<h :{} < b.z za. < b. z z a. für alle i = 1, ... , n , für alle i = 1, ... , n . Dies ist keine totale Ordnung) d.h. für a :;= b gilt nicht notwendig a < b oder a > b, ein Gegenbeispiel für n = 2 liefert a = (0, 1) und b = (1, 0). - Mit dieser Notation ist (a,b] = {xEIRnl a<x<b}, (5) und die n-dimensionalen Intervalle [a, b], [a, b) und (a, b) sind analog definiert. Es ist sinnvoll, hierbei auch n a. = z ± oo bzw. b. = ± oo zuzulassen, z.B. z (- oo, b] : = .TI (- oo, bz.] = { (x1, ... , x n ) E IR n I - oo < x.z < b.z für alle i } . z= 1 Die Menge ßt aller Intervalle der Form (6) erzeugt auch alle Bore1-Mengen d.h (6) lBn = a(ßt)· 4.5.2 Die Verteilung von Zufallsvektoren Für einen Wahrscheinlichkeitsraum (.f2, d,P) und Abbildungen X.: .f2 -----+IR mit z i = 1, ... , n wird in der Maß- und Wahrscheinlichkeitstheorie gezeigt (1) X= (X , ... ,Xn) : .f2-----+ IRn meßbar bzgl. d, lBn 1 X. : .f2 -----+ IR z meßbar bzgl. d, lB für alle i = 1, ... , n. Ein solches meßbares X heißt auch ein (reeller) Zufallsvektor. Für .f2 C IR m ist nach (1) insbesondere jede stetige Abbildung X meßbar. Die Verteilung L(X) des Zufallsvektors X im IR n wird auch als gemeinsame Verteilung der Zufallsvariablen X , ... ,X bezeichnet. Und die Verteilung 1 n zelnen Komponente X. in IR heißt auch die Randverteilung von X .. z L(X.) einer einz z Die Verteilungsfunktion eines Zufallsvektors ist analog zum Fall n = 1 definiert. Definition: Für einen Zufallsvektor X heißt die Funktion F: IR n-----+ [0, 1] mit (1) F(x): = P{ X< x} = PX(-oo, x] die Verteilungsfunktion von X oder Verteilungsfunktion von P x· Die Verteilungsfunktion F des Zufallsvektors hat analoge Eigenschaften wie im ein- Verteilungsfunktionen und Dichten 4-22 7.3.16 dimensionalen Fall, die wir aber hier nicht im einzelnen aufführen. Insbesondere ist die Verteilung von X bereits eindeutig durch ihre Verteilungsfunktion F bestimmt. 4.6 Diskrete Zufallsvektoren Ein Zufallsvektor X : .f2-----+ IR n heißt diskret, falls sein Träger T: = X [ .f2] höchstens abzählbar ist. Im folgenden sei X diskret und somit TE IBn. Die Verteilung P X von X ist durch die Zähl-Dichte f: T----+ [ 0, 1] mit (1) j( x) = PX { x} = P { X = x} für x E T, nach 1.3 bereits vollständig bestimmt, weil (2) 2:= f(x) P{XEB} = Px(B) = xEBnT 4.6.1 Multinomial-Verteilung Motivation und Auftreten: Bei einem Zufallsexperiment betrachten wir eine Zerlegung des Ergebnisraumes .f2 in K disjunkte Ereignisse A , ... , AK 1 K (6) .f2 = UAk' k=l mit positiven Wahrscheinlichkeiten (7) pk == P(Ak) E (0, 1). Ein Beispiel hierfür ist die Befragung einer Person bei einer Wahlumfrage (vgl. 0.3) wobei die Ereignisse A , ... , AK die K zugelassenen Parteien repräsentieren und pk 1 der Stimmanteil der Partei Ak ist. Ein weiteres Beispiel ist das Werfen eines (nicht notwendig homogenen) Würfels, mit K = 6 möglichen Elementar-Ereignissen A1 ={1}, ... , A6 = {6} und den zugehörigen Wahrscheinlichkeiten pk =P{k}. Wir führen jetzt n unabhängige Wiederholungen des Zufallsexperiments durch z.B. n = 1300 Befragungen bei der Wahlumfrage. Bezeichnet Xk die Anzahl der Wiederholungen, bei denen das Ereignis Ak eingetreten ist (also z.B. die Stimmen für die Partei Ak), so interessieren wir uns jetzt für die Verteilung des K-dimensionalen Zufallsvektors X= (X1'" .. ,XK). Die Komponenten von X sind nicht stochastisch unabhängig, weil ihre Summe gleich n ist: X+= n. Wie wir später (in 6.1.2) zeigen werden, handelt es sich hierbei um eine Multinomial-Verteilung M K( n, p) mit K Klas- Verteilungsfunktionen und Dichten 4-23 7.3.16 sen, dem Umfang n und dem Wahrscheinlichkeitsvektor p = (p , ... , pK). Im folgenden 1 wird diese Verteilung formal definiert. Zusammenhang zur Binomialverteilung: Im Spezialfall K = 2 haben w1r nur zwei disjunkte Ereignisse A und A = CA , die wir als "Treffer" und "Nicht-Treffer" 1 2 1 interpretieren können. Dann ist p die Treffer- und p = 1- p die Nicht-Treffer1 2 1 Wahrscheinlichkeit. Die Anzahl X der Treffer ist B(n,p )-verteilt und die Anzahl 1 1 X 2 =n-X1 der Nicht-Treffer ist B(n,p 2)-verteilt. Das Paar X=(X1,X2) ist wegen X 1 + X2 = n bereits vollständig durch eine seiner beiden Komponenten bestimmt, und jede Komponente ist binomialverteilt. Die Multinomialverteilung ist daher eine Verallgemeinerung der Binomialverteilung (vgl. hierzu auch 6.1.2) Definition: Die Multinomial-Verteilung MK(n,p) mit K E W ,,Klassen 11, wobei K> 1, vom Umfang n E W ist eine K-dimensionale diskrete Verteilung auf dem Träger Ihre Zähldichte ist durch einen K-dimensionalen Wahrscheinlichkeitsvektor P = (p , ... ,pK) E (0,1)K, d.h. p += 1, gegeben 1 (2) f (x) n = n! K 1 X k=l xk. k TI -,. p k Speziell für n = 1 besteht der Träger T gerrau aus denK Einheitsvektoren 1 (3) Tl = { el' ... , eK} (4) ek = (ekl) E IRK wobei mit ekl = 8kl für alle k, l ( 8 = Kronecker-Symbol) und die Zähldichte vereinfacht sich zu (5) 4.7 für alle k = 1, ... , K. Stetige Dichten für zweidimensionalen Verteilungen Analog zu den Dichten aus 1.4 betrachten wir jetzt zweidimensionale stetige Dichten. Eine zwei-dimensionale stetige (Wahrscheinlichkeits-) Dichte auf einem offenen zweidimensionalen Intervall T = (al'ß ) x (a ,ß 1 2 ) C IR 2 2 ist eine nicht-negative stetige Funk- tion f: T------+ [0, oo), deren (Lebesgue-)Integral über T gleich 1 ist: Verteilungsfunktionen und Dichten ßl ß2 Jf(x 1,x2) d(x1,x2) (1) 4-24 7.3.16 = 1 J J bzw. T a1 f(x 1,x2 ) dx 2 dx1 = 1 a2 In der Wahrscheinlichkeitstheorie wird gezeigt (worauf wir hier verzichten): Theorem: Zu jeder stetigen Wahrscheinlichkeitsdichte f: T-----+ [0, oo) gibt es genau ein Wahrscheinlichkeitsmaß Pf auf IBT = {BE IB 2 1 B C T} 1 so daß für jedes zwei- dimensionale Intervall ( a, b] = (a , b ] x (a , b ] C T gilt 1 1 1 2 b1 b2 (2) P (a,b] =P ((a1,b1] x(a 2,b 2 ]) = 1 1 J J f(x 1,x2)dx2 dx1 . al a2 Zusatz: Die Wahrscheinlichkeit einer beliebigen zweidimensionalen Borel-Menge B C T ist dann das Lebesgue-Integral von f über der Menge B Falls T :;= IR 2 ist, so setzt man die Dichte auf ganz IR 2 fort durch (4) und erhält dann äqivalent zu (1) +oo +oo (5) J J bzw. -00 -00 f(x 1,x2 ) dx 2 dx1 = 1. Wenn P die Verteilung eines Zufallsvektors X= (X ,X ): (.f2, d,P)-----+ IR 2 ist, so 1 2 1 heißt X ein stetiger Zufallsvektor mit der (stetigen) Dichte f Die Verteilungsfunktion FX von X ergibt sich aus (2) und (4) zu XI (6) FX( x1, x 2 ) = X2 J J -00 -00 f( u 1, uJ du 2 du 1 Intervall-Wahrscheinlichkeiten der Form (2) lassen sich mit FX berechnen zu Und die Dichte f erhält man (auf T) durch zweifache partielle Differentiation (8) f(x 1, x 2) ri für (x1, x 2 ) E T. = ßx/)x F X(x1, x 2) 2 Die Verteilungsfunktionen F bzw. F von X bzw. X sind gegeben durch 1 2 1 2 Verteilungsfunktionen und Dichten 4-25 7.3.16 b1 (9) F 1 (b 1 ) =P{X1 <b 1 } = 1 j 1 (x 1)dx1 al ßl b2 F2(b2)=P{X2<b2}= 1 f2(x2)dx2 j 2(x2 ) = mit a2 1 al f(x 1, x2) dx1 . In der Maß- und Wahrscheinlichkeitstheorie ergibt sich hieraus, daß j bzw. j Dich1 1 ten von X bzw. X sind. Da wir jedoch (in 1.4 und 4.3) nur Dichten eingeführt ha1 2 ben, die in höchstens endlich vielen Punkten unstetig sind, werden wir bei Bedarf zusätzlich zur Stetigkeit von f noch voraussetzen, daß für i = 1, 2 die Dichten f. auf z dem Träger T. = (a ., ß ) in höchstens endlich vielen Punkten unstetig sind. z z 1 Zum Integral-Begriff: Bei den obigen und den folgenden Betrachtungen liegt hier wieder das Lebesgue-Integral zugrunde. Wir wollen kurz erläutern, wie man das Le2 besgue-Doppel- Integral in (3) von meßbaren Funktionen f: IR -----+ IR schrittweise auf Lebesgue-(Einfachjintegrale und unter zusätzlichen Bedingungen (die hier bei den hier konkret zu berechnenden Integralen erfüllt sind) sogar auf das Riemann-Integral zurückführen kann. Wir betrachten in (3) zunächst für den Fall, daß B = I x I ein Produkt zweier In1 2 tervalle I , I C IR ist. Dann läßt sich das Doppel-Integral sukzessive auf zwei ver1 2 schiedene Arten auf Einfach-Integrale zurückführen (10) 1 f(x1,x2) d(x1,x2) = ~X~ (11) 1 [ 1 f(x1, x 2) dx 2 ]dx1 ~ = ~ 1 [ 1 f(x1,x2) dx1 [dx 2 . 12 11 Insbesondere ergibt sich auch (2) für die Intervalle I.= (a ., b.]. z z z Wir geben jetzt eine zu (10) analoge Darstellung für solche BE lB 2, die sich durch "Schnitte" parallel zur x -Achse wie folgt disjunkt zerlegen lassen (vgl. Abb. 7) 2 (12) B= U{x1}xB2(x1) mit x 1 EB1 B = 'n)BJ E lB 1 (Bild vonBunter der 1. Projektion 1r 1 :IR 2 -----+IR) Dann läßt sich nach dem Satzes von Fubini (der hier nicht bewiesen wird) das Doppel-Integral in (3) durch Einfach-Integrale berechnen Verteilungsfunktionen und Dichten 4-26 7.3.16 Alternativ läßt sich BE IB 2 durch "Schnitte" parallel zur x -Achse disjunkt zerlegen 1 (14) B = U B1(x2) x { x2 } mit x 2 EB2 B = 2 7r 2 [ B] E IB (Bild von B unter der 2. Projektion 1r 1 2 : IR -----+ IR) (vgl. Abb. 7), so ergibt sich aus dem Satzes von Fubini analog (13) (15) Jf(x 1,x2 ) d(x1,x2 ) = B J [ J f(x 1, x~ dx1 ] dx 2 . B2 B 1(xi) Insbesondere stimmen die Integrale in (13) und (15) überein, wenn sowohl (12) als auch (14) gelten- z.B. für B=I xi nach (10) oder für dieEllipseBin Abb. 7. 1 2 bi1:1f - - - - - - - - - - - - a, x, Abb. 7: Für eine Ellipse B sind die Schnitte parallel zur x 2-Achse (links) nach {12) und die Schnitte parallel zur x1-Achse {rechts) nach {14) jeweils Intervalle. Das Doppel-Integral in (13) bzw. (15) läßt sich auch unter Verwendung des Riemann-Integrals bestimmen, wenn in eine der beiden Darstellungen sich das innere und das äußere Integral als Riemann-Integrale berechnen lassen. Letzteres ist ins- besondere dann der Fall, wenn der Integrand eine stetige Funktion und der Integrationsbereich ein Intervall ist (vgl. Abb. 7) - oder etwas allgemeiner, wenn der Integrand in höchstens endlich vielen Punkten unstetig ist und der Integrationsbereich eine disjunkte Vereinigung von Intervallen ist. Verteilungsfunktionen und Dichten 4.7.1 4-27 7.3.16 Zweidimensionale Normalverteilung 2 Für J.L=(p,1,p, 2 ), a=(a1,a 2 )EIR mit a 1,a 2 >0 sowie eE IR mit -1<e<1 ist die 2x2-Matrix (1) positiv-definit (d.h. xTEx> 0 für alle x E IR 2 mit x :;= 0) mit der Inversen (2) Die zweidimensionale Normalverteilung NiJ.L, E) ist gegeben durch die zweidimensionale stetige Wahrscheinlichkeitsdichte f: IR 2 -----+ (O,oo) mit (3) ----;.=~1=== (4) . exp {- J (2'nl· Det(E) 2 ul - 2 e ul u2 2 + u2 } 2 [ 1- e2] 1 u. = [x.-p,.]a-:- z z z z mit für i = 1, 2. Grafisch stelltfeine (drei-dimensionale) Glocke mit Maximum in x = Jl bzw. u dar (vgl. Abb. 8). Die Menge der Argumente, aufdenenfeinen festen Wert y 0 =0 > 0 an- nimmt, also der Schnitt der Kurve parallel zur (x ,x )-Ebene, ist eine Ellipse (vgl. 1 2 Abb. 9). Wenn ein Zufallsvektor X= (X ,X 1 2 ) : (.f2, d, P)-----+ IR 2 eine zweidimensionale Nor- malverteilung N 2(Jl, E) besitzt, so sind seine beiden Komponenten Xi: .f2-----+ IR jeweils (eindimensional) normalverteilt L(X.) =N(p,.,a?) z z z (5) für i = 1, 2. Die Umkehrung hiervon gilt nicht, d.h. es gibt gemeinsame Verteilungen von X, die keine zweidimensionale Normalverteilung sind, obwohl beide Randverteilungen L(X ) 1 und L(X 2 ) eindimensionale Normalverteilungen sind (auf ein Beispiel verzichten wir). Verteilungsfunktionen und Dichten 4-28 7.3.16 g=-0.8 g=-0.6 g= O g= + 0.6 0 Abb. 8: Dichten f der zweidimensionalen Normalverteilung für verschiedene (2 bei gleicher Achsen-Skalierung. Der Vorzeichenwechsel von (2 =- 0.6 zu (2 = + 0.6 entspricht einer 90°-Drehung bzw. einer Richtungsänderung der x1- oder x2- Achse. Für wachsendes lr2l wird die Glocke steiler und zieht sich stärker zusammen über der Geraden x2 = p, 2 + a 2a:t1 [ x1 - p,1] für (2 > 0 bzw. x2 = p, 2 - a 2a:t1 [x1 - p,1] für (2 < 0. Die folgende Abb. 9 zeigt einige horizontale Schnitte durch obige Dichten (analog den Höhenlinien auf topografischen Karten). Insbesondere sind die Standardisierungen U.=[X.-p,.]a-:-1 für i=l, 2 wieder N(O,l)z z z z verteilt. Hieraus - und aus (4) - ergibt sich, daß p,l' a , p, , und a nur Skalierungs-Pa1 2 2 rameter sind, während der sogenannte Korrelationskoeffizient (2 (wie wir in 7.8.3 noch sehen werden) den Zusammenhang beider Komponenten X und X beschreibt (vgl. 1 Abb. 9 und 10). 2 Verteilungsfunktionen und Dichten J12+4o:r 11z+2o, ~ 7.3.16 4-29 1 -;;-1-m-l -;;;-t-;;;-l -;;-l-;;;;-1~1 ;:;;;;; I 1 / Abb. 9: Horizontale Schnitte durch die Dichten f der zweidimensionalen Normalverteilungen aus Abb. 8. Die Schnittkurven sind Ellipsen und wurden so gewählt, daß die Wahrscheinlichkeit (unter der Normalverteilung) für das Innere der Ellipse die Werte von 10% (innen) bis 99,9% (außen) annimmt. Für e < 0 (oben links und rechts) liegt eine negative Korrelation vor: die Wahrscheinlichkeit für die beiden (durch p,1 und p, 2 definierten) Quadranten links-oben und rechts-unten ist größer als die der beiden anderen Quadranten - und für e > 0 (rechts unten) ist es genau umgekehrt (positive Korrelation). Für wachsendes Iei werden die Ellipsen schmaler und ziehen sich stärker über der jeweiligen Diagonalen zusammen. Lediglich im Fall e = 0 (links unten) liegt keine Korrelation vor. - Die zusätzlich eingezeichneten Punkte sind 500 per Computer erzeugte Realisierungen der jeweiligen Normalverteilung. Verteilungsfunktionen und Dichten 4-30 7.3.16 Stallab-Oal@n: 648 M3:dchen, 641 Jungen 15 - , - - - - - - - - - - - - - - - - - - - - - - , '5 ~ ~ ~"' "' ~ ~ ...o --_._ -_ ,..,.. ,.,. __ ,..,. ~ -_.. '" -_ ..,. "" _ ..,.,. 45 _ ..., - :KJ.:90% <O 16 18 20 22 26 14 16 Geburbigr6ße(?ol] 18 '2D 22. 24 26 Ge~9J6ße- [Zo l ~ Abb. 10: Beobachtete Datenpunkte zum Zusammenhang von Geburtsgröße und Geburtsgewicht (links) bzw. Körpergröße im Alter von 10 Jahren (rechts) aus einer amerikanischen Studie über Kindesentwicklung (vgl. auch 1.4.1 Abb. 3) Quelle: J.L. Hodges, D. Krech, R.S. Crutchfield (1975). StatLab: an empirical introduction to statistics. McGraw-Hill, New York. Da die Geburtsgröße nur auf einen halben Zoll gerrau bestimmt wurde liegen alle Punkte auf den zugehörigen senkrechten Geraden. Die Ellipsen sind (wie in Abb. 9) Schnitte einer "angepaßten" zweidimensionalen Normalverteilungsdichte. Der Zusammenhang von der Geburtsgröße zum Geburtsgewicht (links) ist offenbar stärker als der zur Körpergröße im Alter von 10 Jahren, was sich im höheren Betrag von e wiederspiegelt. - Die Parameter p,1, p, 2 (Erwartungswerte), a 1, a 2 (Standardabweichungen) und der Korrelationskoeffizient e werden erst in Kap. 7 erläutert und die hier angegeben Werte sind die jeweiligen Schätzungen (vgl. Kap. 8) .. 4.8 Dichten mehrdimensionaler Verteilungen Analog zu den zweidimensionalen Dichten aus 4.7 betrachten wir jetzt mehrdimensionale Dichten. Eine n-dimensionale stetige (Wahrscheinlichkeits-) Dichte auf einem of- fenen n-dimensionalen Intervall T = (a, ß) = (a , ß ) x ... x (an' ßn) C IR n ist eine 1 1 nicht-negative stetige Funktion f: T-----+ [0, oo), deren (Lebesgue-)Integral über T gleich 1 ist (1) 1 Jf(x) dx 1 bzw. mit T In der Wahrscheinlichkeitstheorie wird wieder gezeigt (worauf wir hier verzichten): Verteilungsfunktionen und Dichten 4-31 7.3.16 Theorem: Zu jeder stetigen Wahrscheinlichkeitsdichte f: T-----+ [0, oo) gibt es genau ein Wahrscheinlichkeitsmaß Pf auf IBT = {BE IBn IB C T} 1 so daß für jedes n-dimensionale Intervall ( a, b] = (a , b ] x ... x (an' bn] C T gilt 1 1 n Pf ( a, b] = Pf ( .TI (az., bz.] ) = z= 1 (2) b1 bn 1 ... 1 f( x1, ... , x n ) dxn ... dx1 .. al an Zusatz: Die Wahrscheinlichkeit einer beliebigen n-dimensionalen Borel-Menge B C T ist dann das Lebesgue-Integral von f über der Menge B (3) PjB) = 1f(x) dx. B Falls T :;=IR n ist, so setzt man die Dichte auf ganz IR n fort durch (4) f(x): = 0 für xt1.T und erhält dann äqivalent zu (1) (5) 1 f(x) dx = 1 ]Rn bzw. J. . 1f(xy··, xn) dxn ... dx1 = 1. 1R 1R Wenn die Verteilung eines Zufallsvektors X= (X , ... , Xn): (.f2, d,P)-----+ IRn mit Pf 1 übereinstimmt, so heißt X ein stetiger Zufallsvektor mit der Dichte f. In diesem Fall lautet (2) äquivalent (6) P{ a<X<b} Zum Integral-Begriff: Da wir hier wieder das Lebesgue-Integral zugrunde gelegt haben, wollen wir (analog zu Abschnitt 4.7) kurz erläutern, wie man das n-fache Lebesgue-Integral in (3) schrittweise auf Lebegue-Einfach-Integrale - und somit in Spezialfällen auch auf das Riemann-Integral zurückführen kann. Wenn sich BE IBn wie folgt disjunkt zerlegen läßt (7) B = U {x1 } xB2(x1) mit x 1 EB1 B = 'n)BJ E IB 1 (Bild vonBunter der 1. Projektion so gilt nach dem Satz von Fubini (der hier nicht bewiesen wird): 1r 1 :IRn-----+IR), Verteilungsfunktionen und Dichten 4-32 7.3.16 Damit ist das n- fache Integral auf das (n-1)-fache Integral in den Klammern [ ... ] sowie das (einfache) äußere Integral zurückgeführt. Das (n-1)-fache Integral läßt sich nun mit derselben Methode nach weiteren n- 2 Schritten auf Einfach-Integrale zurückführen. 4.8.1* Multivariate Normal-Verteilung Für einen Vektor Jl E IRn und eine symmtrische, positiv-definite nxn-Matrix Eist die Funktion f: IR n-----+ [ 0, oo), definiert durch (1) für x E IRn, eine stetige Wahrscheinlichkeitsdichte, wobei wir die Normierungseigenschaft 4.8 (1) hier nicht nachweisen wollen. Die hierdurch definierte Verteilung Pf auf IBn ist die n-dimensionale (oder multivariate) Normalverteilung N (Jl, E). Für n = 2 entspricht n dies der Definition aus 4.7.1, und für n = 1 erhält man die Definition der eindimen- sionalen Normalverteilung N(p,, a 2 ) mit a 2 = E. Wenn ein Zufallsvektor X= (X , ... , Xn) : (.f2, d, P)-----+ IR n eine n-dimensionale Nor1 malverteilung N (Jl, E) besitzt, so läßt sich zeigen, daß seine Komponenten n X.: .f2-----+ IR jeweils eindimensional normalverteilt sind mit z (2) L(X.) =N(p,.,a?) z z z mit 2 a. =E .., z zz wobei E .. > 0 das i- te Diagonal-Element der Matrix Eist. zz i = 1, ... , n Verteilungsfunktionen und Dichten 4.9 4-33 7.3.16 Endliche Produkte von Wahrscheinlichkeitsräumen In Verallgemeinerung der Betrachtungen aus 3.3 wollen wir jetzt Produkte von nicht notwendig diskreten Wahrscheinlichkeitsräumen konstruieren. Hierzu betrachten wir endliche viele Wahrscheinlichkeitsräumen (f2 ., d., P.) mit i = 1, ... , n. z z z 4.9.1 Spezialfall: reelle Wahrscheinlichkeitsräume Wir betrachten zunächst den Spezialfall, daß alle Ergebnisräume f2. Borel-Teilmenge z von IR sind und d. die zugehörige a-Algebra von Bore1-Mengen ist, d.h. z (1) ~=IBn.= {A f2.EIB, z cni AE IB} 1 für i = 1, ... , n. 2 Obwohl uns hier primär der Fall interessiert, daß alle Ergebnisräume f2. Intervalle z sind, wollen wir die Konstruktion des Produktraumes allgemein für beliebige Borel-Mengen f2. durchführen. Insbesondere sind also auch höchstens abzählbare z Mengen f2. zugelassen, und für solche wird sich hier natürlich derselbe Produkz traumwie in 3.3 ergeben. Auf dem Produkt der einzelnen Ergebnisräume n (2) f2 : = .TI f2.z = f2 x f2 x ... x f2 n = { (w , w , ... , w n ) I w z. E f2.z für i = 1, ... , n} 1 2 1 2 z= 1 ist zunächst eine geeignete a-Algebra d gesucht. Da f2 C IRn ist, können wir für d die a-Algebra aller n-dimensionalen Borel-Teilmengen von f2 wählen, d.h. Insbesondere enthält d alle Produktmengen der Form (4) für Man kann sogar zeigen (worauf wir hier verzichten), daß d die kleinste a-Algebra ist, die alle Produktmengen der Form (4) als Elemente enthält. Das gesuchte Produkt-Wahrscheinlichkeitsmaß P auf d soll folgende Bedingung für beliebige A E .521 , ... , An E dn erfüllen. Wir werden im nächsten Abschnitt se1 1 hen, daß es genau ein Wahrscheinlichkeitsmaß P mit dieser Eigenschaft gibt. Verteilungsfunktionen und Dichten 4-34 7.3.16 4.9.2 Allgemeiner Fall: beliebige Wahrscheinlichkeitsräume Im allgemeinen Fall sind jetzt .f2. beliebige Räume, also z.B. (aber nicht notwendig) z mehrdimensionale Bore1-Mengen .f2. E lR ni. Unser Ausgangspunkt ist daher z (1) (D ., d.,P.) Wahrscheinlichkeitsraum z z z für i = 1, ... , n. Auf dem Produkt der einzelnen Ergebnisräume n .f2 : = .TI .f2.z = .f21 x .f2 2 x ... x .f2 n = { (w1, w2, ... , w n ) I w z. E .f2.z für i = 1, ... , n} (2) z= 1 ist zunächst wieder eine geeignete a-Algebra d gesucht. Analog zur Definition der Bore1-Mengen überlegen wir zuächst, welche Teilmengen von .f2 relevant sind und deshalb in d liegen sollten. Dann definieren wir d als die von den relevanten Teilmengen erzeugte a-Algebra. Motiviert durch den Spezialfall 4.9.1 (2) betrachten wir das Mengensystem n f!ll== iD ~ = {A1 xA 2 x ... xAniA 1 E~, ... ,AnEdn} 1 (3) als relevant und die hiervon erzeugte a-Algebra ist die gesuchte a-Algebra d:= a(f!ll). (4) Im Spezialfall 4.9.1 stimmt dieses d mit der dortigen a-Algebra d überein, was sich aus der Bemerkung nach dem dortigen (4) ergibt. Das gesuchte Wahrscheinlichkeitsmaß P auf d läßt sich allerdings mit den hier zur Verfügung stehen Mitteln nicht explizit angeben, und wir verweisen daher auf das folgende Resultat aus der Maß- und Wahrscheinlichkeitstheorie. Theorem (Produktmaß endlich-vieler Wahrscheinlichkeitsmaße): Es gibt genau ein Wahrscheinlichkeitsmaß P auf (.f!, J?t), so daß für alle A E d , ... , 1 A Ed n n gilt: n (5) 1 P(TIA.) 1 z z= 0 n TI P.(A.) z= 1 z z bzw. 0 Man beachte, daß das Produktmaß P durch (5) zunächst nur auf dem relevanten Mengensystem f!Jl festgelegt ist. Und das Theorem besagt, daß sich P auf die von f!Jl Verteilungsfunktionen und Dichten erzeugte a-Algebra d 4-35 11.3.16 eindeutig fortsetzen läßt. Dieses Wahrscheinlichkeitsmaß P heißt das Produktmaß von P , ... , Pn und (f2, d,P) heißt auch der Produktraum. Als 1 suggestive Bezeichnung verwendet man wieder n (6) P = TI P. (Produktmaß), (f2, d,P) = z= 0 1 z n TI1 (f2z., d.,P.) z z (Produktraum). z= 0 Wenn alle f2. höchstens abzählbar sind, so ist d = ~(f2) und dieses Produktmaß z stimmt mit dem aus 3.3 überein, weil sich speziell für A. = { w .} in (5) die Zählz z dichte aus 3.3 (2) ergibt. Bezeichnet 1r.: f2-----+ f2. die i-te Projektion, definiert durch z z (7) 1r .( w z , w , ... , w ) 1 2 n = wz. , so ergeben sich hier (wie in 3.3) die folgende Eigenschaften für beliebige A E d , ... , 1 1 A Ed: n n (8) { 1r. E A.} : = 1r .-1 [A .] (9) P{ 1r.EA.} = P.(A.) z z z z n 7r. E A.} = A x A x ... x A 1 2 (10) z n{ i =l z z z z z { (w1, w2, ... , w n ) I w z. E A z. } n n TI z= 1 0 A. z 0 Da (8) und (9) für jedes A. E d. gelten ergibt sich für jedes i = 1, ... , n z z f2. ist meßbar bzgl. d und d . . z z (11) 1r. : f2-----+ (12) P. ist das Bildmaß von P unter 1r ., z z z d.h. 1 P. = P1r -:- = L(1r .). z z z Wenn nun die Einzelvorgänge voneinander unabhängig sind, dann sollten die Ereignisse { 1r E A }, ... , { 1rn E An} für beliebige A E d , ... , An E dn stochastisch unab- 1 1 1 1 hängig sein. Und dies ist für das Produktmaß P auch der Fall, d.h. für jedes 0 ;= K C {1, ... , n} gilt (13) Verteilungsfunktionen und Dichten 4.10 11.3.16 4-36 Abzählbare Produkte von Wahrscheinlichkeitsräumen Neben den oben behandelten endlichen Produkten reeller Wahrscheinlichkeitsräume sollen jetzt auch noch abzählbare Produkte solcher Räume eingeführt werden. Abzählbare Produkträume werden unter anderem als Modelle für unendliche Wiederholungen eines stochastischen Vorgangs benötigt. Ein erstes Beispiel hierfür ist die Herleitung der geometrischen Verteilung in 5.1.2. Den Ausgangspunkt bildet eine Folge (.f! n , d n ,PnnEm ) li.T von Wahrscheinlichkeitsräumenmi, die wir auch suggestiv als (Modelle für) stochastische Vorgänge interpretieren. Obwohl bei den meisten hiesigen Anwendungen alle Ergebnisräume .f2 n später eine Borel-Teilmenge von lR sein werden, wollen wir diesen Spezialfall nicht (wie in 4.9.1) vorab untersuchen, sonden gleich den allgemeinen Fall mit beliebigen Ergebnisräumen .f2. betrachten. z n enthält jetzt gerrau diejenigen Folgen w = (w n)nEmli.T aus der Vereinigung .f2 : = U .f2 bei denen das n-te Folgenglied in .f2 liegt, d.h. w E .f2 : oo nElN n n n n Der Produktraum (1) .f2:= TIn= {w=(w) li.TE.f!lNiw Ef2 fürallenEW}. n n nEm oo n n n E lN Man beachte, daß der Produktraum .f2 selbst dann nicht mehr abzählbar ist, wenn alle .f2. nur zwei Elemente enthalten, z.B. .f2. = {0, 1}, weil für Kardinalzahlen gilt z z lN lN card({0,1} ) = 2 = card(~(W)) > card(W). Eine geeignete a-Algebra auf dem Produktraum .f2 erhalten wir jetzt indem wir wieder eine Menge f!Jl relevanter Ereignisse A c .f2 spezifizieren und dann die von erzeugte a-Algebra verwenden. Zu jeder Folge (A E d) n (2) TI A = { w=(w) n E lN n f!Jl li.T von Ereignissen ist n nEm li.TE.f2 I w EA für alle nEW} n nEm n n ein n relevantes Ereignis im Produktraum. Die Menge relevanter Ereignisse ist dann (3) f!ll : = { TI A IA E d nElN n n n für alle n E W } , und die hiervon erzeugte a-Algebra (4) d= a(f!ll) ist unsere gesuchte a-Algebra auf dem Produktraum .f2. Um jetzt ein Wahrscheinlichkeitsmaß P auf d zu erhalten wollen wir zunächst Verteilungsfunktionen und Dichten 4-37 16.3.16 spezielle relevante Ereignisse der Form (3) betrachten, bei denen für ein festes n E W nur die ersten n Folgenglieder (w , ... , w n) in A x .... x An liegen müssen, während 1 1 w. E .f2. für i > n beliebig sein darf. Zur formalen Beschreibung solcher Ereignisse eig- z z nen sich die Projektionen (5) 1r. : .f2 -----+ .f2. z z 1rz.((w n )nEm l'>T) = w., z mit iEW. Die zugehörigen Ereignisse 1 { 1r.EA.} == 7r.[A.] = {(w) l'>T I w.EA.} z z z z n nEm z z (6) beziehen sich nur auf den i-ten stochastischen Vorgang, dessen Ergebnis w. in A. z z liegen soll. Mit den Projektionen läßt sich das Ereignis (2) auch wie folgt beschreiben TI (7) n {7r A = {wE.f217r (w)EA fürallenEW} = nElN n n nElN n n EA }. n Für festes n und A. = .f2. für alle i > n liefert (7) in diesem Fall z z n n oo n TIA.x TI .a. = {7r.EA}. z z= 1 z z=n z z =1 z Man nennt solche Ereignisse auch n-dimensionale Zylindermengen. Analog zur Ei- (8) 0 0 0 genschaft endlicher Produktmaße soll für das gesuchte Produktmaß P hier auch gel- ten: n P( n1{1r.EA}) z z n P{ 7r1EA1' ... , 7r EA } = z= 0 n n TI P.(A.) i= 1 z z 0 Das folgende Resultat aus der Maß- und Wahrscheinlichkeitstheorie (das wir hier nicht beweisen können) besagt, daß es genau ein Wahrscheinlichkeitsmaß P gibt, sodaß die obige Eigenschaft für alle n und alle A , ... ,An gilt. 1 Theorem (Produktmaß abzählbar-vieler Wahrscheinlichkeitsmaße): Es gibt genau ein Wahrscheinlichkeitsmaß P auf (.f!, J?t), so daß für alle n E W und alle A E J?t , ... , An E J?tn gilt: 1 1 n (9) P( n1{1r.EA}) z z z= 0 n P{ 7r1EA1' ... , 7rn EA n } = TI . z= 1 P.(A.) z z bzw. Verteilungsfunktionen und Dichten 4-38 11.3.16 Dieses Wahrscheinlichkeitsmaß P heißt das Produktmaß der Folge (Pn ) nEm li.T' und (.f2, d,P) heißt auch der Produktraum. Als suggestive Bezeichnung verwendet man wieder (10) TI P = P. (Produktmaß), nElN z TI (n, d,P) = nElN (n ., d.,P.) z z z (Produktraum). Wie bei den endlichen Produkten gelten auch hier für jedesiE W: n-----+ n z ist meßbar bzgl. d (11) 7r (12) P{ 1r.EA.} = P.(A.) z z z z (13) P. ist das Bildmaß von P unter 1r ., z z z 0 : 0 und d. z 0 für alle A.E d .. z z d.h. 1 P. = P1r -:- = L(1r .). z z z Wenn nun die Einzelvorgänge voneinander unabhängig sind, dann sollte jede Folge mit beliebigen (A n E d n ) nE li.T stochastisch unabhängig von Ereignissen ({1rn E A n}) nE li.T m m sein. Und dies ist für das Produktmaß P auch der Fall, d.h. für jedes 0 :;= K C W gilt: Stochastische Unabhängigkeit von Zufallsvariablen 5. 18.12.15 5-1 Stochastische Unabhängigkeit von Zufallsvariablen Die Unabhängigkeit von Zufallsvariablen ist ein zentraler Begriff der Stochastik. Wir definieren zunächst die Unabhängigkeit für endlich viele Zufallsvariablen. Definition 1: Eine endliche Familie von Zufallsvariablen X.:(fl,d,P)----+(fl!,d!) mit i=1, ... ,n heißt stochastisch unabhängig (bzgl. P), z z z wenn eine der beiden äquivalenten Bedingungen erfüllt ist: (U1) Für beliebige B E d{, ... , B n E d~ sind die Ereignisse 1 {X EB }, ... , {Xn EBn} stochastisch unabhängig. 1 1 (U2) Für beliebige B E d{, ... , Bn E d~ gilt 1 n P{X1EB1' ... ,Xn EBn } = TI P{X.EB.} z z . 0 z= 1 Man beachte daß alle Zufallsvariablen X. zwar auf dem gleichen Wahrscheinlichz keitsraum f2 definiert sind, aber ihre Wertebereiche fl. verschieden sein können. z Für reellwertige Zufallsvariablen läßt sich die stochastische Unabhängigkeit unter Verwendung der Verteilungsfunktionen scharakterisieren. Satz: Für i = 1, ... , n sei X.: fl----+ IR eine reelle Zufallsvariable mit Verteilungs- z funktion FX.' und FX sei die Verteilungsfunktion des Zufallsvektors 2 X= (X1, ... ,Xn). Dann sind X 1, ... , Xn genau dann stochastisch unabhängig wenn n P{X1 <a1, ... ,Xn <an} =.TI bzw. P{Xi<ai} z=1 für alle a1 , ...,an E.IR Aus (U1) ergibt sich, daß mit X1' ... ,Xn auch jede (endliche) Teilfamilie (Xk)kEK für K C {1, ... , n} stochastisch unabhängig ist. Dementsprechend erweitern wir die sto- chastische Unabhängigkeit auf beliebige Familien von Zufallsvariablen. Stochastische Unabhängigkeit von Zufallsvariablen 18.12.15 5-2 Definition 2: Für eine beliebige Indexmenge I:;= 0 heißt eine Familie von Zufallsvariablen X. :(.f!, J?t,P)-----+ (.f2 !, J?t!) mit i EI stochastisch unabhängig, z z z wenn für jede nichtleere endliche Teilmenge Kci die Teilfamilie (Xk)kEK stochastisch unabhängig ist, d.h. (U3) für alle Bk E J?t~, k EK. Aus der Definition ergibt sich sofort, daß mit einer Familie (X.). I auch jede durch z zE 0 :;= J CI gegebene Teilfamilie (X.). J stochastisch unabhängig ist. J JE Beispiel: Projektionen bei Produkträumen Für eine Familie (.f!i' ~,P)iEI mit endlicher oder abzählbarer Indexmenge I:;= 0 haben wir in 4.9 und 4.10 den zugehörigen Produktraum TI (n z., J?t.,P.) . I z z zE konstruiert. Dieser Produktraum sollte das unabhängige (und simultane) ausführen (n, J?t,P) = aller einzelnen "stochastischen Vorgänge" modellieren, und dies spiegelt sich darin wieder, daß die Familie der Projektionen (1r.: .f2 -----t .f2 .) . I stochastisch unabhängig z z zE ist - was sich sich unmittelbar aus 4.9 (13) und 4.10 (12) ergibt. D Insbesondere erhalten wir aus dem Beispiel den Existenzenzsatz: Für eine vorgegebene Familie (.f2 z., J?t.,P.). I von Wahrz z zE scheinlichkeitsräumen mit höchstens abzählbarer Indexmenge I:;= 0 existieren ein Wahrscheinlichkeitsraum (.f2, J?t,,P) und stochastisch unabhängige Zufallsvariablen X.: .f2-----t .f2. mit Verteilung L(X.) = P. für i EI. z z z z Neben endlichen Familien werden wir hauptsächlich abzählbare Familien (also Fol- gen) unabhängiger Zufallsvariablen betrachten. Hierbei gilt (1) (Xn ) nEm -r-.T stochastisch unabhängig {} Für jedes n E W sind X , ... , Xn stochastisch unabhängig. 1 Stochastische Unabhängigkeit von Zufallsvariablen 18.12.15 5-3 In der Definition 1 haben wir die stochastische Unabhängigkeit von Zufallsvariablen durch die Unabhängigkeit von Ereignissen beschrieben . Umgekehrt läßt sich die Unabhängigkeit von Ereignissen A , ... , An E d äquivalent durch die Unabhängigkeit 1 der zugehörigen Indikatorfunktionen I : .f2-----+ {0, 1} formulieren: A- 2 A , ... ,An stochastisch unabhängig (2) 1 I , ... , I Al 5.1 An {} stochastisch unabhängig. Stochastische Unabhängigkeit diskreter Zufallsvariablen Wir untersuchen den Unabhängigkeitsbegriff für Zufallsvariablen zunächst für dis- krete Zufallsvariable X.: (.f!, d, P)-----+ (.f2 !, d.) d.h. das Bild X. [.f2] ist höchstens abz z z z zählbar. Weiter sei ohne Beschränkung der Allgemeinheit X. surjektiv ist (andernz falls ersetze man .f2! durch X.[ .f2])~ d.h. z z .f2! = X. [.f2] ist höchstens abzähl bar, (1) z z d!=~(.f!!) z z füri=l, ... ,n. Die Verteilung von X. ist durch die Zähl-Dichtef. mit z z (2) f.(x.) = P{X. = x.} = PX {x.} z z z z i z für alle x. E .f2! z z charakterisiert. Und die Verteilung des n- Tupels n (3) X:= (X1' ... ,Xn ) : .a-----+ .TI .a~z =: .a' z= 1 ist ebenfalls eindeutig bestimmt durch ihre Zähl-Dichte f mit (4) Unter Verwendung der Dichten läßt sich die Unabhängigkeit wie folgt beschreiben. Satz: Diskrete Zufallsvariablen X , ... , Xn sind gerrau dann stochastisch 1 unabhängig, wenn gilt n (5) TI1f.(x .) z z z= 0 n TIP{X.=x.} z z z= 1 0 bzw. Stochastische Unabhängigkeit von Zufallsvariablen 5-4 18.12.15 Die Eigenschaft (5) besagt, daß das Produktmaß der Randverteilungen mit der gemeinsamen Verteilung von (X , ... ,Xn) übereinstimmt, d.h. es gilt 1 (6) n x1, ... , xn stochastisch unabhängig TI L(X.). z L(X1' ... ,Xn ) = . z= 1 5.1.1 Randomisierte klinische Vergleichsstudie Wir betrachten eine klinische Vergleichsstudie, bei der jeder Patient zufällig einem von zwei möglichen Behandlungsarmen zugeteilt wird ("Randomisierung"). Hierbei entspricht ein Behandlungsarm meist einer neuen Therapie (oder einem neuen Medikament), die man mit dem bisherigen Standard (oder einem Placebo) vergleichen will. Kodiert man beide Behandlungsarme durch eine Zufallsvariable X mit den Werten 1 (neu) und 0 (Standard), so hat X eine B(1,px)-Verteilung, wobei Px = P{X = 1} die Wahrscheinlichkeit für die Zuteilung zur neuen Behandlung ist. Typischerweise wird Px = ~ gewählt, aber wir wollen hier ein beliebiges Px betrachten. Von Interesse ist, ob ein (wohldefinierter) Behandlungserfolg eintritt oder nicht. Verwendet man eine Indikatorvariable Y für den Erfolg (Y = 1) bzw. Nicht-Erfolg (Y = 0), so hat Y eine B(1,py)-Verteilung mit Py=P{Y = 1} als Erfolgs-Wahrschein- lichkeit. Die gemeinsame Verteilung des Paares (X, Y) nimmt dann die vier Werte aus {0,1}x{0,1} an mit den Wahrscheinlichkeiten (vgl. Tab. 1) (1) für j, k E {0, 1} . pjk == P{X=j, Y=k} Wenn Behandlung X und Erfolg Y stochastisch unabhängig sind, so gilt (vgl. Tab. 1): (2) für j, k E {0, 1} . pjk = P{X=j}·P{Y=k} Unter der Unabhängigkeit sind die bedingten Erfolgs-Wahrscheinlichkeiten in beiden Behandlungs-Armen gleich der (unbedingten) Wahrscheinlichkeit py: (3) P{Y= 1IX=j} = P{Y= 1} = Py für j = 0, 1. Stochastische Unabhängigkeit von Zufallsvariablen 18.12.15 5-5 X Y=O Y=1 ~ X Y=O Y=1 ~ 0 Poo POl qx 0 qXqY qXpY qx 1 P1o Pn Px 1 pXqY PxPy Px ~ qy Py 1 ~ qy Py 1 Tabelle 1: Die gemeinsame Verteilung von X und Y im allgemeinen Fall (links) und bei stochastischer Unabhängigkeit von X und Y (rechts), wobei qX= 1- pX' qy = 1- Py· Man überlegt sich leicht, daß (3) sogar äquivalent zur Unabhängigkeit (2) ist. Mit einer solchen klinischen Studie will man herauszufinden, ob die Behandlung X und der Erfolg Y unabhängig sind oder nicht (was man erhofft). Hierzu werden bei i = 1, ... , n Patienten die Zufallsvariablen X. und Y. beobachtet, und man überprüft z z (mit geeigneten statistischen Methoden), ob sich die beobachteten relativen Erfolgs- Häufigkeiten in beiden Behandlungs-Armen stärker unterscheiden als unter der Unabhängigkeit (zufallsbedingt) plausibel ist. 5.1.2 Geometrische V erteil ung Warten auf den ersten Treffer: Ein Bernoulli-Experiment soll so lange wiederholt werden bis zum ersten Mal das interessierende Ziel-Ereignis (Treffer, z.B. ein "Erfolg") eintritt. Wir wollen die Verteilung für die Anzahl vorangegangener Nicht- Treffer (z.B. "Mißerfolge") bestimmen. Als Modell für die n-te Wiederholung verwenden wir den Wahrscheinlichkeitsraum (.f2 ,d,P) n n n mit .f2.={0,1}, z d n = ~(n ), n P = B(1,p) . n mit Treffer-Wahrscheinlichkeit 0 < p < 1. Der Produktraum (n,d,P) = TI nElN (n ,d ,P) n n n ist dann ein geeignetes Modell für abzählbar-unendlich viele unabhängige Wiedeholungen des Bernouilli-Experiments. Der Ergebnisraum enthält alle Folgen, die nur 0 oder 1 als Folgenglieder enthalten, d.h . .f2 = {0, 1} w_ Bezeichnen wir die n-te Projektion 7rn : n-----+ {0, 1} jetzt suggestiv mit X n ' so ist (Xn) nEm li.T eine Folge stachastisch unabhängiger Zufallsvariablen mit Stochastische Unabhängigkeit von Zufallsvariablen (1) 5-6 18.12.15 für allen E W L(X ) = B(1,p) n und wir interpretieren X = 1 als Treffer bei der n-ten Wiederholung. Die Anzahl Y n der Nicht-Treffer vor dem ersten Treffer ist dann als Funktion Y: .f2-----+ W U { oo} 0 definiert durch (2) Y(w) Min {k E wo I xk+1(w) = 1} Y Min {k E W0 I X k+ 1 = 1 } für w E .f2 bzw mit der Konvention Min 0 = oo. Insbesondere gilt für k E W (3) und Y=k Und aus der stochastischen Unabhängigkeit von X 1, ... , Xk+ 1 ergibt sich (4) P{Y=k} = p(1-p) k für k = 0, 1, ... Die Wahrscheinlichkeit, daß niemals ein Treffer eintritt (was Y = oo entspricht) ist gleich Null (5) P { Y = oo} = P {X = 0 für alle n E W } = 0 . n Dies liefert im Rahmen diskreter Zufallsvariablen erstmals em Beispiel für ein nicht-leeres Ereignis { Y = oo} ;= 0 mit Wahrscheinlichkeit Null. Die durch (4) defi- nierte Verteilung auf W ist eine sogenannte geometrische Verteilung, die wir jetzt 0 formal einführen. Definition der geometrischen Verteilung: Die geometrische Verteilung Geo(p) mit Parameter 0 < p < 1 ist auf dem Ergebnisraum .f2 = W = {0, 1, 2, ... } definiert durch 0 die Zähldichte (vgl. Abb. 1) (6) g(k;p) := P{k} p (1- p) k für k = 0, 1, ... Die geometrischen Wahrscheinlichkeiten sind streng fallend (vgl. Abb 1) (7) g( 0 ;p) p g( k;p) q· g(k-1;p) für k > 1 mit q==1-p. Stochastische Unabhängigkeit von Zufallsvariablen 5-7 18.12.15 Dichte von Geo(p) für p = 0,25 Dichte von Geo(p) fü r p = 0,5 0,5 r- - 0 0 2 4 6 8 10 12 14 16 18 20 J 0 1. 2 4 6 8 I 10 12 14 16 18 20 Abb. 1: Dichten (als Histogramme) zweiergeometrischer Verteilungen. Für eine Zufallsvariable Y mit Geo(p)- Verteilung ergibt sich für k, l E W 0 < k} = 1 -l+ 1, (8) p{y (9) P{Y>k+ll Y>l} = P{Y>k}. p{y > k} = l' Interpretiert man Y als eine Wartezeit (mit diskreten Zeitpunkten) auf ein interessierendes Ziel-Ereignis, so drückt die Eigenschaft (9) - analog zu 3.1.1 (2) bei der Exponentialverteilung - wieder eine "Gedächtnislosigkeit" aus. In diesem Sinn ist die geometrische Verteilung das diskrete Pendant zur Exponential-Verteilung. Der Parameter p ist hierbei interpretierbar als bedingte Wahrscheinlichkeit für den Eintritt zum Zeitpunkt k unter der Bedingung daß bisher noch nichts passiert ist: (10) p = P{Y=k I Y>k} Stochastische Unabhängigkeit von Zufallsvariablen 5.2 18.12.15 5-8 Unabhängigkeit bei stetigen Zufallsvariablen mit Dichten Wir untersuchen den Unabhängigkeitsbegriff jetzt für reelle Zufallsvariablen X.: (.f!, d, P)-----+ IR mit i = 1, ... , n, wobei die Verteilung von X. eine Wahrscheinlichz z keitsdichte f.: IR-----+ [O,oo) besitzt. Dann läßt sich die stochastische Unabhängigkeit z wie folgt charakterisieren. Satz: Reelle Zufallsvariablen X. mit Dichten f. für i = 1, ... , n sind gerrau dann z z stochastisch unabhängig, wenn das Produkt f: IR n-----+ [0, oo) der Dichten, definiert durch n (1) f(x 1, ... ,x)== Tlf.(x.) n . z z z= 1 eine Wahrscheinlichkeitsdichte für den Zufallsvektor X= (X , ... ,Xn) ist. 1 Als Anwendung betrachten wir normalverteilte X , ... , Xn. 1 5.2.1 Normalverteilte Zufallsvariablen Für i = 1, ... , n sei X. eine reelle Zufallsvariable mit Normal-Verteilung N(p, ., a?). Wir z z z 2 2 setzen J.L=(p,l' ... , p,n)' a =(a;, ... ,a~) und E = diag(a ) sei die nxn Diagonalmatrix mit der Diagonalen a 2. Dann gilt: (1) xl' ... , xn stochastisch unabhängig L(X1, ... ,Xn ) = N n (J.L,E). Spezialfall n = 2: Insbesondere sind zwei normalverteilte Zufallsvariable X und 1 X gerrau dann stochastisch unabhängig, wenn (X ,X 2 1 ) 2 eine zwei-dimensionale Nor- malverteilung der Form N 2((p,l'p, 2), Diag(a~,a~)) besitzt, d.h. wenn in 4.7.1 (1) der Korrelationskoeffizient e= 0 ist. Die Dichtefund Verteilungsfunktion F von (X ,XJ sind für diesen Fall in Abb. 2 dargestellt (vgl. auch 4.7.1 Abb.1). 1 Stochastische Unabhängigkeit von Zufallsvariablen 18.12.15 5-9 Abb. 2: Die gemeinsame Dichte f (links) und Verteilungsfunktion F (rechts) von X= (X1,X2) mit stochastisch unabhängigen normalverteilten Komponenten L(XJ = N(p,i, a'f) für i = 1, 2. 5.3 Unabhängigkeit bei Zufallsvektoren Wir stellen weitere Eigenschaften der Unabhängigkeit von Zufallsvektoren zusammen. Zunächst sind Funktionen unabhängiger Zufallsvektoren wieder unabhängig: Satz 1: Für i = 1, ... , n sei X. : .f2-----+ IR ni ein Zufallsvektor und g. :IR ni-----+ IR mi z eine meßbare Abbildung. Dann gilt: (1) ... , X n z stochastisch unabhängig Wie bereits festgestellt wurde ist die Verteilung eines Zufallsvektors eindeutig durch seine Verteilungsfunktion bestimmt. Folglich muß sich die Unabhängigkeit von Zufallsvektoren auch über ihre Verteilungsfunktionen charakterisieren lassen. Der entsprechende Satz (den wir hier nicht vollständig beweisen können) besagt, daß Stochastische Unabhängigkeit von Zufallsvariablen 18.12.15 5-10 Zufallsvektoren gerrau dann unabhängig sind, wenn die gemeinsame Verteilungsfunktion das Produkt der Rand-Verteilungsfunktionen ist (vgl. Abb. 2): Satz 2: Für i = 1, ... , n sei X. : .f2-----+ IR mi ein m .-dimensionaler Zufallsvektor mit z z Verteilungsfunktion FX.' und FX sei die Verteilungsfunktion des Zufallsvek2 tors X= (X , ... ,Xn) der Dimension m +"Dann sind X , ... , Xn genau dann stocha1 1 stisch unabhängig wenn gilt n (2) Fx( a 1, ... , a ) = TI Fx.( a .) n i=l 2 z Wenn man unabhängige Zufallsvektoren in zwei oder mehrere Gruppen zu neuen Vektoren zusammenfaßt, so sind diese wieder unabhängig. Wir formulieren dieses Resultat nur für zwei Gruppen, aus dem man per Induktion das entsprechende Ergebnis für endlich viele Gruppen erhält. Satz 3: Für stochastisch unabhängige Zufallsvektoren X , ... , Xn und Y , ... , Y m 1 1 auf demselben Raum .f2 (aber nicht notwendig von gleicher Dimension) sind auch die beiden Zufallsvektoren X= (X , ... , Xn) und Y = (Y , ... , Y m) 1 1 stochastisch unabhängig. Folgerung: Für meßbare Abbildungeng: IR k-----+ IR k' und h: IRl-----+ IRl' (mit geeignetem k und l) sind auch die beiden Zufallsvariablen g(X) und h(Y) stochastisch unabhängig. Faltungen von Verteilungen 6. 6-1 8.3.16 Faltungen von Verteilungen Sind X, Y: (.f2, d, P)-----+ IR n zwei stochastisch unabhängige Zufallsvariablen, so heißt die Verteilung L(X + Y) der Summe X+ Y auch die Faltung der beiden Verteilungen L(X) und L(Y) und wird wie folgt bezeichnet (1) L(X) * L(Y) : = L(X + Y) für stochastisch unabhängige X, Y. Wir werden die Faltung zunächst für diskrete Verteilungen und anschließend für stetige Verteilungen mit Dichten allgemein bestimmen und dabei auch Faltungen von konkreten Verteilungen berechnen. 6.1 Faltung diskreter Verteilungen Seien X, Y: .f2-----+ IR n zwei stochastisch unabhängige diskrete Zufallsvariablen mit den (höchstens abzählbaren) Trägern (1) Dann hat die Summe Z =X+ Y den höchstens abzählbaren Träger und ihre Elementar-Wahrscheinlichkeiten sind gegeben durch (3) P{X+Y=z} = 2:= P{X=x}·P{Y=z-x} xETx 2:= P{Y=y} ·P{X=z-y} für zE Tz. yE Ty Unter Verwendung der Zähl-Dichtenfx 1 jy undfz von X, Yund Z mit f y(Y) (4) = P{ Y = Y} , fz(z) =P{Z=z} läßt sich (3) auch äquivalent schreiben als (3)' fz(z) = 2:= f)x) -fy(z- x) = 2:= fy(y) -f)z- y) xE Tx yE Ty für zE Tz. Die Summe über x E T x in (3) und (3) 1 kann zusätzlich durch die Bedingung z- x E T Y eingeschränkt werden, weil andernfalls der zweite Faktor des Summan- den Null ist. Und analog kann die Summe über y E T Y durch den Zusatz z- y E T X eingschränkt werden: Faltungen von Verteilungen (3) II 2:= f X (x) -fy (z- x) 2:= f y(y) -f)z- y) XE T für zE Tz. y E T, z-yE 7i z-xE~ 6.1.1 6-2 8.3.16 Binomial-Verteilung Die Binomial-Verteilung B(n,p) ist die n-fache Faltung der Bernoulli-Verteilung B(l,p) (1) B(n,p) = B(1,p) * .... * B(1,p) t ... n-mal ... t oder mit Zufallsvariablen formuliert (1) I Für stochastisch unabhängige xl' ... , xn mit B(1,p)- Verteilung gilt: n 4 l:=X.)z = B(n,p). 0 z=1 Die Faltung von Binomial-Verteilungen mit gleichem Parameter p ist wieder eine solche Die Faltung zweier Binomialverteilungen B(nl'p ) und B(n ,p ) mit p 1 2 2 1 :;= p 2 ist im allgemeinen keine Binomial-Verteilung1 was man bereits für n = n = 1 leicht er1 2 kennt. 6.1.2 Multinomial-Verteilung Die Faltungs-Eigenschaften der Binomial-Verteilung gelten allgemeiner auch für Multinomial-Verteilungen Zunächst ist die Multinomial-Verteilung MK(n,p) die nfache Faltung der Multinomial-Verteilung MK(1,p) MK(1,p) * .... * MK(1,p) t ... n-mal. . . t (1) MK(n,p) = (1) I Für stochastisch unabhängige n bzw. xl, ... , xn mit MK(1, p)- Verteilung gilt: 4.2:= XJ = MK(n,p). z=1 Die Faltung von Multinomial-Verteilungen mit gleichem Wahrscheinlichkeitsvektor p ist wieder eine solche Faltungen von Verteilungen 6-3 8.3.16 Die Faltung zweier Multinomial-Verteilungen MK(nl'p 1) und MK(n 2,p 2) mit p 1 :;= p 2 ist im allgemeinen aber keine Multinomial-Verteilung1 was man bereits für n = n = 1 und K = 2 leicht erkennt. 1 2 Die Randverteilungen der Multinomial-Verteilung sind Binomial-Verteilungen, d.h. (3) für k = 1, ... ,K. Für einen Zufallsvektor X= (X , ... , XK) mit Multinomial-Verteilung MK(n,p) sind 1 die Komponenten X , ... ,XK nicht stochastisch unabhängig, weil für k :;= l 1 Es gilt sogar mit Wahrscheinlichkeit 1 eine lineare Beziehung Speziell für K = 2 ist die jeweils zweite Komponente von p bzw. X durch die erste bereits bestimmt (5) für K= 2. Also ist X= (X ,X ) mit Multinomial-Verteilung Min,p) schon eindeutig be1 2 stimmt durch die erste Komponente X mit Binomial-Verteilung B(n,p ). In diesem 1 1 Sinn entspricht die Multinomial-Verteilung mit K = 2 einer Binomial-Verteilung. 6.1.3 Faltung von Poisson-Verteilungen Die Faltung von Poisson-Verteilungen ist wieder eine solche oder mit Zufallsvariablen formuliert (1) I Für stochastisch unabhängige xl "'Pois(p,l) und x2 "'Pois(p,2) gilt: Faltungen von Verteilungen 6-4 8.3.16 6.1.4 Negative Binomial-Verteilung Wir betrachten (wie in 5.1.2) eine Folge (X ) stochastisch unabhängiger B(1,p)-vern teilt er Zufallsvariablen, die wir als Indiaktorvariablen für ein Ziel-Ereignis ("Treffer") interpretieren, mit 0 < p < 1 als Treffer-Wahrscheinlichkeit ist. Für festes n E W ist die Anzahl Y der Nicht-Treffer bis zum n-ten Treffer definiert durch (1) Y=k xk +n = :{} 1 und Die Verteilung von Y hat dann die Zähldichte (2) Diese Verteilung auf W heißt auch die negative Binomial-Verteilung mit den Para0 metern n E W, p E (0, 1) und wird hier mit NB(n,p) bezeichnet. Man beachte, daß es prinzipiell möglich ist, daß niemals n Treffer eintreten (was Y = oo entspräche), aber die Wahrscheinlichkeit hierfür ist Null 00 (3) P{l:X.<n} 1 z = 0. z= 0 Speziell für n = 1 ergibt sich die geometrische Verteilung (4) Geo(p) = NB(1,p), und die negative Binomial-Verteilung NB(n,p) ist die n-fache Faltung der geometrischen Verteilung Geo(p) * .... * (5) NB(n,p) =Geo(p) (5)' Für stochastisch unabhängige Y , ... , Yn mit Geo(p)-Verteilung gilt: 1 n cL( 2:: Y.) = NB(n,p). Geo(p) t ... n-mal ... t 0 z=1 bzw. z Der Beweis verwendet die folgende Beziehung für Binomial-Koeffizienten k 'I\' (z n+_n -1) u 1 0 (6) i=O __ (k n+ n) f..ur n E 1\.11~T1 k E 1\.11~T . 0 Die Faltung von negativen Binomial-Verteilungen mit gleichem Parameter p ist wieder eine solche ist (7) Faltungen von Verteilungen 6-5 8.3.16 Dichte von NB(n,p) mit p=0.4 Dichte von NB(n,p) mit p=0.4 n= 1 n= 2 0.4 0 5 10 15 20 25 30 0 Dichte von NB(n,p) mit p = 0.4 5 10 15 20 25 30 25 30 Dichte von NB(n,p) mit p=0.4 0.4 0.4 n= 4 0 Abb. 1: 5 10 15 n=8 20 25 30 0 5 10 15 20 Dichten (als Histogramme) der negativen Binomial-Verteilung NB(n,p) mit p = 0,4 und verschiedenen Werten für n. Faltungen von Verteilungen 6.2 6-6 8.3.16 Faltung stetiger Verteilungen mit Dichten Seien X, Y: .f2-----+ IR zwei stochastisch unabhängige stetige Zufallsvariablen mit Trägern Tx = (a x, ß) C IR und T Y = (ay, ß y) C IR sowie den stetigen Dichten fx:Tx-----+[O,oo) undfy:Ty-----+[O,oo), die außerhalb der jeweiligen Träger konstant gleich Null gesetzt sind. Dann hat die Summe Z =X+ Y den Träger und die Wahrscheinlichkeitsdichte fz: Tz-----+ [0, oo) von Z ist dort gegeben durch (2) für zE Tz. Das erstes Integral über das Intervall (a X' ßx) kann zusätzlich durch die Bedingung z- x E T Y eingeschränkt werden, weil andernfalls der zweite Faktor des Integran- den Null ist. Analog kann das zweite Integral über (ay, ßy) durch z- y E Tx eingeschränkt werden. - Die auf IR fortgesetzte Dichte von Z läßt sich wie folgt schreiben +oo (2)' fiz) = 1 +oo fx(x) -fy(z- x) dx = -00 1 f y(y) -fx(z- y) dy für zE IR. -00 In der Maß- und Wahrscheinlichkeitstheorie wird die Dichtedarstellung (2) bzw. (2)' allgemeiner für meßbare (nicht notwendig stetige) Dichten f x und f Y hergeleitet. 6.2.1 Faltung von Normal-Verteilungen Die Faltung zweier Normal-Verteilungen ist wieder eine solche (1) mit Die Klasse der Normalverteilungen ist also abgeschlossen gegenüber Faltungen. Nach 4.4.1 (7) ist sie ebenfalls abgeschlossen gegenüber linearen Transformationen, d.h. (2) Für a, ß E IR mit ß ;= 0 gilt: L(X) = N(p,,a 2 ) Nach (1) ist auch eine beliebige Faltung von Normal-Verteilungen wieder eine solche (3) Für stochastisch unabhängige X , ... ,X mit L(X.) =N(p,.,a?) für alle 1 n z z z n n n i = 1, ... , n gilt: N( 2: p, z., 2: a?z ) . oi(l:X.) z z=1 z=1 z=1 0 0 0 Faltungen von Verteilungen 6.2.2 6-7 8.3.16 Faltung von Exponential- und Gamma-Verteilungen Wie wir gleich sehen werden ist die Faltung von gleichen Exponentialverteilungen keine Exponentialverteilung mehr. Zur Bestimmung einer solchen Faltung von Ex- ponentialverteilungen führen wir erst die allgemeinere Klasse der Gamma-Verteilungen ein. Die Gamma-Verteilung Gam(a,ß) mit den Parametern a,ß>O ist auf den Bereich ( 0, oo) C IR konzentriert, und besitzt dort die Dichte (vgl. Abb. 2) (1) für x>O. Hierbei ist r die nach Leonhard Euler (1707 -1783) benannte Eulersche Gamma- Funktion (vgl. Abb. 3 und Abschnitt 6.2.4) 00 (2) T(a)= Jta-le-tdt. 0 Durch Substitution t = ~ ergibt sich die fundamentale Dichte-Eigenschaft Die Dichte f( -I a,ß) von Garn( a,ß) für einige a. Man beachte, daß die Darstellung (wegen der Achsenskalierung) für jedes ß gilt. Abb. 3 (rechts): Die Eulersche Gamma-Funktion r (linke Skala) bzw. die LogGamma-Funktion Zn r (rechte Skala). Abb. 2 (links): Der Parameter ß ist ein Skalierungsfaktor1 weil (3) Gam( a,ß) = ß · Gam( a,1) bzw. L(X) = Gam( a,1) L(ß ·X)= Gam( a,ß) =? Faltungen von Verteilungen 6-8 8.3.16 und allgemeiner (4) für c>O. c · Gam( a,ß) = Gam( a,cß) Für ß = 1 ergibt sich die Standard-Gamma-Verteilung Gam ( a) : = Gam ( a, 1) mit der Dichte (5) f (z ) Q = f (z I a, 1) 1 = r(a) z a-1 -z für z>O. e 0 Der Parameter a bestimmt die Form der Dichte (vgl. Abb. 2) und wird deshalb als Formparameter bezeichnet. Wegen (6) für z> 0 beschreibt die Dichte f a für a < 1 eine streng fallende Kurve und für schiefe Glockenkurve mit einem Maximum in z (7) max a > 1 eine = a-1. Die allgemeine Dichte f( x I a,ß) für x>O ist von derselben Form wie fa und hat für a > 1 ihre Maximalstelle m x max = ß(a-1), vgl. Abb. 2. Für a = 1 ergibt sich eine Exponentialverteilung (8) 1 Gam(1,ß) = Expo(p ). Die Faltung zweier Gamma-Verteilungen mit gleichem Skalenparameter ß ist wieder eine solche Insbesondere ist die Faltung von Exponentialverteilungen mit gleichem Parameter A eine Gamma-Verteilung (10) Für stochastisch unabhängige X , ... ,X mit L(X.) =Expo(.A) für alle 1 n z n i = 1, ... , n gilt: l:X.) = Gam(n, .A-1). 4 0 z=l z Man beachte, daß Gam( n, ).- 1) für n > 1 keine Exponentialverteilung ist (vgl. Abb.2 für a =n=2 ). Die Verteilungsfunktion dieser Gam(n, .A-1)-Verteilung läßt sich mit Hilfe von Poisson-Wahrscheinlichkeiten berechnen: Faltungen von Verteilungen 1 P{ Gam(n, -A- ) (11) 6-9 8.3.16 < a} P{ Gam(n, 1) < a-A} n-1 -a>. 'I\' 1 ( ')i 1- e ·u ""'! a /\ z z=O 0 P{ Pois(a-A) 6.2.3 0 für a > 0. > n} Poisson-Verteilung und Poisson-Prozeß In verschiedenen Anwendungen interessiert man sich für die (absolute) Häufigkeit Xt mit der ein interessierendes Ereignis innerhalb eines festen Zeitabschnitts t eingetreten ist, z.B. die Anzahl der Leukämiefälle bzw. Asbestfasern in 0.1 Tab. 1 bzw. 0.2 Tab. 2. Wir wollen jetzt zeigen, daß eine solche Anzahl Xt unter gewissen Be- dingungen eine Poisson-Verteilung besitzt. Hierzu betrachten wir eine potentiell unendliche Folge von Ereignissen und modellieren deren Eintreten durch eine Folge (T n > 0) nEm-r-.T zufälliger Wartezeiten. ersten Ereignisses, und T n Hierbei ist T1 die Wartezeit bis zum Eintreten des soll die Wartezeit vom Eintreten des (n-1)-ten Ereignis bis zum n-ten Ereignis darstellen. Die gesamte Wartezeit (vom Beginn des Wartens) bis zum Eintreten des n- ten Ereignisses ist dann (1) S == T +. ..+ T n 1 n für nE W, und der Vollständigkeit halber setzen wir Für einen festen Zeitpunkt t > 0 betrachten Wlr die Anzahl xt der lm Zeitraum [ 0, t] eingetretenen Ereignisse (vgl. Abb. 4) (3) t 0 Abb. 4: Schema der Wartezeiten Ti, Si und der Anzahl Xf Die Anzahl Xt ist eine Zufallsvariable mit Werten aus W , und für k E W gilt: 0 0 Faltungen von Verteilungen 6-10 8.3.16 (4) sk < t (5) sk < t < sk+1. Wir setzen jetzt folgende Bedingung an die Wartezeiten voraus: (B) Die Folge (T n ) nEm ist stochastisch unabhängig und jedes T n ist Expo(-A)-verteilt mit A > 0. 1\. T Zur Interpretation dieser Bedingung sei an die charakterisierende Eigenschaft 3.1.1 (2) der "Gedächtnislosigkeit" von Exponential-Verteilungen erinnert. Unter der Bedingung (B) ist Xt dann Poisson-verteilt: (6) für t> 0. (B) Die Familie (Xt)t>O ist ein sogenannter homogener Poisson-Prozeß mit der Rate A > 0. 6.2.4 Elementare Eigenschaften der Gamma-Funktion Wir stellen jetzt noch einige später benötigte Eigenschaften der Gamma-Funktion 00 (1) r(x) = 1 tx- 1 e-t dt für x> 0 0 zusammen. Zunächst ergibt sich durch partielle Integration die Rekursionsformel (2) T(x+l) = X· T(x) für x> 0. Zusammen mit (3) T(l) =1 erhält man die Darstellung von Fakultäten (4) n! = T(n+l) und folglich "interpoliert" die Gammafunktion die Fakultäten. Aus der Beziehung (5) r(~) = v; lassen sich mit der Rekursionsformel die Werte rG) stimmen (für gerades n ergibt sich der Wert mit (4)). für alle ungeraden n E w be- Faltungen von Verteilungen 6.3 6-11 8.3.16 Arithmetische Operationen von Zufallsvariablen Für zwei reelle Zufallsvariablen X, Y: .f2-----+ IR sind neben der Summe X+ Y auch die Verteilungen der Differenz X- Y, des Produkts X· Y und des Quotienten X/ Y von Interesse, und zwar auch dann, wenn X und Y nicht stochastisch unabhängig sind. Für diskrete Zufallsvariablen X und Y lassen sich die Verteilungen von Differenz, Produkt und Quotient analog zur Summe in 6.1 (3) leicht herleiten, worauf wir hier verzichten. Wir betrachten hier deshalb nur den Fall, daß (X, Y) : .f2-----+ IR 2 stetig verteilt ist 2 und auf dem zweidimensionalen Träger-Intervall T=(ax,ß)x(ay,ßy)ciR eine stetige Dichte f: T-----+ [0, oo) besitzt, die wieder außerhalb von T konstant gleich Null fortgesetzt sei. Es wird jedoch nicht vorausgesetzt, daß X und Y stochastisch unabhängig sind. Die Verteilungsfunktion F der Summe X+ Y ist dann gegeben durch X+Y (1) für a E IR +oo J f( X, Z- X) ßx dx -00 J f( X, Z- X) dx rxX +oo J mit ßy f(z-y,y) dy J f(z-y,y) dy für zE IR. (Xy -00 Und die Verteilungsfunktion F X-Y der Differenz X- Y ergibt sich aus a J fx_y(z) (2) dz für a E IR -00 ßx +oo J f(x, x- z) dx -00 f(x, x- z) dx rxX +oo J J ßy f(z+y,y) dy Für die Verteilungsfunktion F J f(z + y, y) dy (Xy -00 X·Y des Produkts X· Y erhält man für zE IR. mit Faltungen von Verteilungen 6-12 8.3.16 a (3) 1 fx.y(z) P{X·Y<a} für a E IR dz mit -00 1 0 00 .l ·!( x, !. ) dx = 1R\{O} lXI X 1 .1. !( x, .!) O X 1 ~ -!( x, ~) dx dx - X -00 Und als Verteilungsfunktion FxjY des Quotienten X/ Y ergibt sich für Y :;= 0 a (4) FX/Y(a) = P{ :<a} = 1 fx 1y(z) dz für a E IR mit -00 +oo 1 IY 1-f(zy, Y) dy für zE IR. -00 Mit Methoden der Maß- und Wahrscheinlichkeitstheorie läßt sich zeigen, daß auch für beliebige (nicht notwendig stetige) Dichten fx und fy die obigen Funktionen JX+Y bzw. fx-Y, fx.y und fxjY auch Dichten der Summe X+ Y bzw. der Differenz Y- Y, des Produkts X· Y und des Quotienten : sind. Da wir hier aber nur Dichten mit höchstens endlich vielen Unstetigkeitsstellen betrachten, werden wir bei Bedarf zusätzlich voraussetzen, daß diese Dichten in höchstens endlich vielen Punkten unstetig sind. Für stochastisch unabhängige X und Y vereinfachen sich die Darstellungen (1) - (4), weil dann die gemeinsame Dichte f das Produkt beider Randdichten ist (5) X und Y stochastisch unabhängig mit Dichten f X und f Y für x, y E IR. Erwartungswert und Varianz 7. 7-1 15.12.15 Parameter von Verteilungen: Erwartungswert, Varianz, Schiefe, Covarianz und Korrelation Bei einer reellen Zufallsvariablen X (z.B. die Lebensdauer eines Produkts oder der Wasserverbrauch eines Haushalts) ist es für viele praktische Fragestellungen nicht so wichtig die gesamte Verteilung von X zu kennen, sondern es genügen oft schon geeignete Maßzahlen (Parameter) 1 die wesentliche Aspekte der Verteilung charakterisieren. Primär interessiert man sich dafür, wo die X- Werte im Mittel liegen, d.h.welchen Wert X im Durchschnitt annimmt (also z.B. die durchschnittliche Lebensdauer oder der mittlere Verbrauch). Wir werden im folgenden einen solchen Durchschnittswert durch den sogenannten Erwartungswert E(X) definieren. Darüberhinaus will man meist noch wissen, wie stark X (im Mittel) um seinen Erwartungswert streut, und hierfür werden wir die sogenannte Varianz (bzw. Standardabweichung) als Streuungsmaß einführen. 7.1 Definition des Erwartungswerts Zur Motivation der Definition des Erwartungswerts als Durchschnittswert der reellen Zufallsvariablen X betrachten wir zunächst den Fall, daß X: .f2-----+ IR nur endlich viele verschiedene Werte ak mit Wahrscheinlichkeit pk annimmt, wobei k = 1, ... , K - z.B. die Anzahl X der "Richtigen" eines Tipps beim Zahlenlotto "6 aus 49" mit den Werten 0, ... , 6. Zunächst erscheint das arithmetische Mittel K a ==Ku ak k=l ein geeigneter Kandidat für den Durchschnittswert von X zu sein. Beim Lotto-Bei- (1) spiel ist a= 1'1\"' 3 allerdings nicht die durchschnittliche Anzahl der "Richtigen" eines Tipps (diese wird erst in 9.8.3 bestimmt und beträgt 36/49 ~ 0,73). Dies liegt daran, daß a nicht berücksichtigt, mit welchen Wahrscheinlichkeiten X seine Werte an- nimmt. Um dies zu berücksichtigen betrachten wir eine Stichprobe x = (xF ...1 xn) vom Umfang n! d.h. konkrete Werte X =X.(w) wobei xl' ... ,Xn stochastisch unabhän- z z gige Wiederholungen von X sind. Bezeichnet 0 die absolute Häufigkeit des Werts ak in der Stichprobe (x 11 ...1 xn), so läßt sich der Mittelwert der Stichprobe schreiben als Erwartungswert und Varianz 7-2 15.12.15 K 2:: p(n) a k=1 k mit k (n) -l.h(n) Pk - n k als relativer Häufigkeit des Werts ak in der Stichprobe (x 11 ...1 xn). Nach der Häufigkeits-Interpretation der Wahrscheinlichkeit (aus Kapitel 1) strebt p~n) für n---+ oo gegen die Wahrscheinlichkeit pk und somit konvergiert der Mittelwert x(n) gegen K a:= (2) l:pkak. k=l Der Wert a ist also der "langfristig zu erwartende Mittelwert" der Zufallsvariable X und wird daher als Erwartungswert bezeichnet (vgl. Def. 1). Im Vergleich zum Mittelwert a der Werte a , ... , aK handelt es sich beim Erwartungswert 1 a um ein gewich- tetes Mittel dieser Werte mit den Gewichtungsfaktoren pl' ... , pK (deren Summe p +ja auf 1 normiert ist). Im Gegensatz hierzu sind die Gewichtsungsfaktoren beim Mittelwert a alle konstant gleich k·- Nach diesen Vorüberlegen kommen wir jetzt zur Definition des Erwartungswertes bei diskreten Zufallsvariablen. Definition 1: Sei X: .f2-----+ IR eine diskrete Zufallsvariable mit dem höchstens abzählbaren Träger T =X[ D] und Zähldichte f. Wenn gilt (3) 2:: lxi·P{X=x} < oo, xET dann ist der Erwartungswert von X definiert als (4) E(X) : = 2:: X 0 p {X= X} (Erwartungswert für diskretes X) xET = 2:: x -f(x). xET Da der Erwartungswert nur über die Verteilung PX (bzw. über ihre Zähldichte /) von der Zufallsvariablen X abhängt, heißt E(X) auch der Erwartungswert von PX und wird auch mit E(PX) bezeichnet. Zusatz: Für nicht-negatives X- d.h. X[D] C [0, oo) -definiert man E(X) E [0, oo] auch dann noch durch (4), wenn (3) nicht gilt, und in diesem Fall ist E(X) = oo. Für endlichen Träger T ist die Bedingung (3) stets erfüllt, und der Erwartungswert in (4) entspricht dem gewichteten Mittel der Werte aus T mit den zugehörigen Wahrscheinlichkeiten als Gewichtsfaktoren - in Übereinstimmung mit obigen Vorüberlegungen. Für abzählbares T ist die Definition (4) die naheliegende Verallgemei- Erwartungswert und Varianz 7-3 15.12.15 nerung vom endlichen Fall. Die Bedingung (3) garantiert die absolute Konvergenz der Reihe (4) und damit auch, daß sich die Reihe (3) beliebig umordnen läßt, d.h. es kommt nicht auf die Summationsreihenfolge an. - Man sagt, daß der Erwartungswert E(X) E lR von X existiert, wenn (3) gilt, was für beschränktes X bzw. T der Fall ist. Für nicht-negatives X>O bzw. Tc[O,oo) stimmen die Reihen in (3) und (4) überein, und der Erwartungswert läßt sich auch dann noch durch (4) definieren, wenn die Reihe nicht endlich ist, und somit auch E(X) = oo ist. Andernfalls bleibt der Erwartungswert jedoch zweckmäßigerweise undefiniert, wenn (3) nicht erfüllt ist. Man beachte, daß der Erwartungswert E(X) im allgemeinen nicht im Träger T von X liegt, und daher nicht notwendig ein mögliches Ergebnis von X repräsentiert. Für eine stetige Zufallsvariable X mit Wahrscheinlichkeitsdichte f definieren wir den Erwartungswert analog, indem wir die Summe durch ein Integral und die Zähldichte (d.h. die Wahrscheinlichkeiten) durch die Dichte f ersetzen. Definition 2: Sei X: .f2-----+ lR eine stetige Zufallsvariable mit dem Träger T = (a, ß) C lR und der Dichte f: lR-----+ [0, oo) mit höchstens endlich vielen Unstetigkeitsstellen, die außerhalb von T konstant gleich Null gesetzt wird. Wenn gilt +oo ß 1 I x I -f( x) dx < (5) oo bzw. 1 I x I -f( x) dx < oo , -00 Q dann ist der Erwartungswert von X definiert als ß (6) E(X) : = 1 x -f(x) dx (Erwartungswert für stetiges X) +oo J x -f(x) dx. -00 Da der Erwartungswert nur über die Verteilung PX (bzw. über ihre Dichte j) von der Zufallsvariablen X abhängt, heißt E(X) auch der Erwartungswert von PX und wird auch mit E(PX) bezeichnet. Zusatz: Für nicht-negatives X- d.h. X[D] C [0, oo) -definiert man E(X) E [0, oo] auch dann noch durch (6), wenn (5) nicht gilt, und in diesem Fall ist E(X) = oo. Die Bedingung (5), die man auch als absolute Konvergenz des Integrals in (6) bezeichnet, ist eine Voraussetzung für die Definition des Erwartungswerts. Man sagt kurz, Erwartungswert und Varianz 7-4 15.12.15 daß E(X) E IR existiert, wenn (5) gilt, was für beschränktes X bzw. T der Fall ist. Für nicht-negatives X> 0 bzw. TC (0, oo) stimmen die Integrale in (5) und (6) überein, und der Erwartungswert läßt sich auch dann noch durch (6) definieren, wenn das Integral nicht endlich ist, und somit auch E(X) = oo ist. Andernfalls bleibt der Erwartungswert jedoch zweckmäßigerweise undefiniert, wenn (5) nicht erfüllt ist. Wir werden später noch sehen, daß die Definition 2 (und auch Definition 1) unserer Intention von E(X) als Durchschnittswert von X im folgenden Sinn entspricht. Das arithmetische Mittell (X + ... +X ) von n stochastisch unabhängigen Wiederholunn 1 n gen konvergiert nach dem Schwachen Gesetz der Großen Zahlen (vgl. 9.1) für n---+ oo gegen E(X). Eine andere Interpretation von (6) besagt, daß E(X) der "Schwerpunkt der Wahrscheinlichkeitsmasse" ist. d.h. derjenige Punkt auf der reellen Achse, der dem Schwerpunkt der Fläche zwischen x-Achse und Dichtefunktionf entspricht, weil +oo J [X-E( X)] -j( X) dx = 0 . -00 So markiert z. B. in Abb. 1 links (sowie in 1 Abb. 5 und 4 Abb. 2) der Erwartungswert f-L auf der horizontalen Achse den Schwerpunkt der Dichte und in 7.6 Abb. 1-2 ist der Nullpunkt der Schwerpunkt aller Dichten. Dichte von B(n,p) fü r n= 5, p= 0,4 Dichte voh N(p,o2) 1.0 1/20 0,5 1 p-4a 1-1-20 p +2a J.H 4o -1 0 • 2 r 3 4 5 6 7 8 Abb. 1: Der Erwartungswert (dargestellt als Dreieck) markiert den Schwerpunkt Wahrscheinlichkeitsmasse (d.h. der Fläche links bzw. der Stäbe rechts) auf der x-Achse. Erwartungswert und Varianz 7-5 15.12.15 Die Schwerpunkt-Interpretation trifft auch im diskreten Fall (4) zu: dort ist E(X) der Schwerpunkt der Zähl-Dichte, d.h. des Stabdiagramms der Verteilung von X, weil 2: [x-E(X)] ·P{X=x} = 0. xET Für eine Binomialverteilung ist in Abb. 1 rechts (und für eine Poissonverteilung in 4 Abb 1) der Erwartungswert p, als Schwerpunkt des Stabdiagramms dargestellt. Es ist unbefriedigend, daß ein so wichtiges Konzept wie der Erwartungswert hier nicht durch eine geschlossenene Definition, sondern für diskrete und stetige Zufallsvariablen getrennt gegeben wird. Dieses Manko wird jedoch in der Maß- und Wahrscheinlichkeitsthoerie wie folgt beseitigt. Unter Verwendung des dort definierten In- tegrals bzgl. eines Wahrscheinlichkeitsmaßes P läßt sich der Erwartungswert einer beliebigen Zufallsvariablen X: (.f2, d,P)-----+ IR definieren als (7) E(X) == 1 XdP falls 11XIdP< oo. D D Für diskretes bzw. stetiges X stimmt diese allgemeine Definition dann mit obiger Definition 1 bzw. 2 überein. - Es gibt allerdings auch eine geschlossene Darstellung des Erwartungswerts unter Verwendung der Verteilungsfunktion und des üblichen (Lebesgue-) Integrals (vgl. hierzu auch Abb. 2): Satz: Sei X: .f2-----+ IR eine Zufallsvariable mit Verteilungsfunktion F: IR-----+ [0, 1]. Dann gilt unter den Voraussetzungen von Definition 1 bzw. 2 +oo (8) E(X) = 1 0 0 [1-F(x)] dx - 1 F(x) dx, -00 wobei beide Integrale endlich (d.h. konvergent) sind. Folglich läßt sich der Erwartungswert emer beliebigen reellen Zufallsvariablen X auch durch (8) definieren, sofern dort beide Integrale endlich sind. Allerdings ist diese Definition nicht so intuitiv verständlich wie die Definition 1 und 2. Da wir bei konkreten Anwendungen nur diskrete oder stetige Zufallsvariablen betrachten, reichen hier Definition 1 und 2 aus (und wir werden den Satz auch nicht beweisen). Erwartungswert und Varianz Verteilungstunktion von N(0,1) ------ 1 ,o 7-6 15.12.15 0,5 Verteilungsfunk1ion von B(n,p) für n= S, p= 0,4 1,0 0,5 -4 -2 0 2 4 -1 0 2 3 4 5 6 7 8 Abb. 2: Der Erwartungswert als Differenz beider Integrale in (8). Links: Das erste Integral in (8) stellt die obere und das zweite die untere Fläche dar. Da beide Flächen gleich groß sind ist der Erwartungswert Null. Rechts: Die obere Fläche entspricht wieder dem ersten Integral in (8) und das zweite Integral ist hier Null. Erwartungswert und Varianz 7.2 7-7 15.12.15 Grundlegende Eigenschaften des Erwartungswerts Zur Bestimmung der Erwartungswerte des bisher betrachteten Verteilungen ist es zweckmäßig vorher einige grundlegende Eigenschaften (Rechenregeln) für Erwartungswerte bereitzustellen. Zunächst entspricht der Erwartungswert einer konstan- ten Zufallsvariablen (d.h. mit Dirac-Verteilung) dieser Konstanten (1) L(X) = Dirac(a) P{X=a} = 1 d.h. E(X) =a. Bei einer linearen Transformation einer reellen Zufallsvariablen X wird der Erwartungswert entsprechend transformiert: (2) E(a + ßY) = a + ßE(Y) a,ßE lR, für Hier - und später - beinhaltet die Angabe eines Erwartungswertes auf der linken Seite (von (2)) stets auch, daß dieser (im Sinn von Definition 1 bzw. 2) in lR existiert. Allerdings gelten einige Ausagen auch dann noch, wenn die Zufallsvariablen nicht- negativ sind und ihr Erwartungswert unendlich ist, was wir aber jeweils extra anmerken. Zum Beispiel gilt (2) auch noch für Y> 0 mit E(Y) = oo und ß> 0. Wir betrachten jetzt einen zwei-dimensionalen Zufallsvektor (X, Y) : .f2 -----+ lR bei dem die Erwartungswerte E(X) und E(Y) existieren. Dann ist der Erwartungswert der Summe X+ Y gleich der Summe der Erwartungswerte (3) E(X + Y) = E(X) + E(Y) , wobei für X> 0 und Y> 0 auch deren Erwartungswerte unendlich sein dürfen. Insbesondere ist der Erwartungswert ein linearer Operator. (4) E(aX + ßY) = aE(X) + ßE(Y) für a,ßE lR. Für stochastisch unabhängige Zufallsvariablen X und Y ist der Erwartungswert des Produkts X· Y gleich dem Produkt der Erwartungswerte: (5) E(X. Y) = E(X) . E(Y) X, Y stochastisch unabhängig wobei für X> 0 und Y> 0 auch deren Erwartungswerte unendlich sein dürfen. Der Erwartungswert ist ein monotoner Operator (6) X>O E(X) > 0, (7) X<Y E(X) < E(Y), 1 Erwartungswert und Varianz 7-8 15.12.15 wobei in (7) für X> 0 die Erwartungswerte auch unendlich sein dürfen. Weiter gilt IE(X) I< E(IXI). (8) Der Erwartungswert einer transformierten Zufallsvariablen der Form g(X) läßt sich für diskretes bzw. stetiges X wie folgt berechnen. Satz 1: Sei X: .f2-----+ IR n ein n-dimensionaler diskreter Zufallsvektor mit Träger T =X[ D] und g: IR n-----+ IR sei meßbar. Wenn E[g(X)] E IR existiert, so gilt (9) E[g(X)] = 2: g(x) ·P{X=x}. xET Für abzählbares T konvergiert die Reihe sogar absolut und umgekehrt folgt aus absoluten Konvergenz der Reihe auch die Existenz von E[g(X)] E IR. Zusatz: Für g(X) > 0 gilt (9) auch dann noch, wenn E[g(X)] = oo ist. Satz 2: Sei X: .f2-----+ IR eine stetige Zufallsvariable mit Träger T = (a, ß) C IR deren Dichte f: T-----+ [0, oo) in höchstens endlich vielen Punkten unstetig ist. Weiter sei g: T-----+ IR meßbar. Wenn E[g(X)] E IR existiert, so gilt ß (10) E[g(X)] = J g(x) -f(x) dx, und das Integral konvergiert sogar absolut. Umgekehrt folgt aus absoluten Konvergenz des Integrals auch die Existenz von E [g(X) J E IR. Zusatz: Für g(X) > 0 gilt (10) auch dann noch, wenn E[g(X)] = oo ist. Ein vollständiger Beweis von Satz 2 ist hier nicht ohne weiteres möglich und wir verweisen dafür auf die Maß- und Wahrscheinlichkeitstheorie. Wir beweisen (und verwenden) Satz 2 daher hier nur für die folgenden stetigen Funktionen • streng monotones stetig-differenzierbares g mit endlicher Menge {g' :;= 0}, 1 lxl' • Absolutbetrag: g(x) = • Potenzen: g(x) = xk • absolute Potenzen: g(x) = lxlr für kE W, für r> 0., Für den Absolutbetrag g(x) = Ixl ergibt sich aus dem Zusatz von Satz 1 bzw. 2, daß der Erwartungswert E(X) einer diskreten bzw. stetigen Zufallsvariablen X gerrau dann gemäß Definition 1 bzw. 2 existiert, wenn der Erwartungswert endlich ist: (11) E(X) existiert E(IXI) < oo. E(IXI) von lXI Erwartungswert und Varianz 7.3 7-9 15.12.15 Erwartungswerte spezieller Verteilungen Wir geben jetzt die Erwartungswerte der bisherigen Verteilungen auf IR an. 7.3.1 Erwartungswerte spezieller diskreter Verteilungen Für die diskrete Gleichverteilung DG(n) auf {1, ... , n} gilt: (1) E[DG(n)] = n+ 1 L(X) =DG(n) bzw. 2 Der Erwartungswert der Binamial-Verteilung B(n,p) ist (2) bzw. E[B(n,p)] = np =? E(X) =np. Der Parameter p, der Poisson-Verteilung Pois(p,) ist ihr Erwartungswert (3) L(X) = Pois(p,) bzw. E [Pois(p,) J = p, =? E(X) = p, . Für die negative Binomial-Verteilung NB( n,p) - und damit auch für die geometrische Verteilung Geo(p) = NB(1,p) -ergibt sich (4) E(X) = n(l-p). p bzw. Abschließend wollen wir noch zwei Beispiele von Verteilungen auf W angeben, bei denen der Erwartungswert nicht existiert. Gegenbeispiele: Für die Zufallsvariable X mit Träger W und der Zähldichte (5) 1 für nE W, P{X = n} = n (ntl) existiert der Erwartungswert E(X) nicht, weil 00 (6) 2:= n=1 00 n·P{X=n} = 2:= ~ = oo. n=1 nt Für die "alternierende" Zufallsvariable Y = (-1)X ·X mit Träger (7) T Y = { 2n I n E W} U {- 2n-11 n E W} ist zwar die Reihe 00 (8) 2:= 00 (-1t·n·P{X=x} = 2:= r 1)n c_ nt1 n=1 n=1 konvergent, aber nicht absolut konvergent. Also existiert E(Y) nach 7.2 Satz 1 nicht. Erwartungswert und Varianz 7.3.2 7-10 15.12.15 Erwartungswerte spezieller stetiger Verteilungen Der Erwartungswert der stetigen Gleichverteilung SG( a,ß) auf dem Intervall (a,ß) ist der Mittelpunkt des Intervalls (1) bzw. L(X) = SG( a! ß) :::} E(X) = a~ß. Bei einer Normalverteilung N(p,, a 2 ) ist der Parameter p, der Erwartungswert (2) :::} bzw. E(X) = p,. Für die Gamma-Verteilung Gam( a,ß) ist der Erwartungswert das Produkt beider Parameter (3) bzw. L(X) = Gam(a ß) 1 :::} E(X) =aß 1 und für die Exponential-Verteilung Expo(>.) = Gam(l, ~) erhält man speziell (4) E[Expo(>.)] = ~ bzw. L(X) =Expo(>.) :::} E(X) = ~ . Als Verallgemeinerung von (3) zeigen wir für spätere Zwecke noch (5) E[Gam(a~ßr] = r~(~r) ßr L(X) = Gam(a ß) 1 bzw. :::} für r> 0. (6) für kE W. Der Erwartungswert einer Log-Normalverteilung ergibt sich aus (7) E['"Y + exp{ N( a,ß2) }] = "( L(X) = N( a,ß2) :::} + exp{ a + ~ ß2 } E ["! + eX J = "( bzw. + exp { a + ~ ß2} . Im nächsten Abschnitt geben wir eine stetige Verteilung an, deren Erwartungswert nicht existiert. Erwartungswert und Varianz 7.3.3 7-11 15.12.15 Ca uchy-V erteil ung Die Standard-Cauchy-Verteilung C(O, 1) - auch die Studentsehe t - Verteilung genannt 1 (vgl. 10.3) - ist auf IR definiert durch die Wahrscheinlichkeitsdichte (vgl. Abb. 1) (1) für xE IR, bzw. durch die zugehörige Verteilungsfunktion F(x) = ~ (2) + ~ · arctan(x) für xE IR. mit der Ableitung F 1 = f. Für eine Zufallsvariable U mit L(U) = C(O, 1) existiert der Erwartungswert von U nicht, weil +oo J (3) lxl-f(x) dx -00 Die Verteilung der linearen Transformation X= a + ß U mit aEIR, ß> 0 ist die nach Augustirr Louis Cauchy (1789-1857) benannte Cauchy-Verteilung C(a,ß), d.h. es ist (4) C(a,ß) = a+ß·C(0,1). Dichte der Cauchy-Verteilung C(a ,ß) Cauohy-Verteilung vs. Normal-Verteilung 0.4/ß d-5{3 a d+5ß 25% 50% a-ß 25% a +ß Abb. 1: links: Dichte f( -laß) der Cauchy-Verteilung C( a,ß) rechts: Vergleich mit der Dichte der Normalverteilung N(a, a 2 ), wobei a so gewählt ist, daß die Fläche unter beiden Dichten über dem Intervall (a-ß, a + ß) jeweils 50% sowie links und rechts davon je 25% beträgt (d.h. beide Verteilungen haben dieselben Quartile). Erwartungswert und Varianz 7-12 15.12.15 Die Dichte f( -I a,ß) (vgl. Abb. 1) und Verteilungsfunktion F(x Ia,ß) von C (a,ß) sind: (5) f(x I a,ß) 7f1 ·ß· ( ß 2+ (x-a )2)-1 ' (6) F(xl a,ß) ~ + ~ · arctan(*[x-al). Der Erwartungswert von X existiert nach 7.2 (2) ebenfalls nicht. Die Faltung von Cauchy-Verteilungen ist wieder eine Cauchy-Verteilung, (was hier aber nicht hergeleitet wird) Auftreten: Wenn W ein Zufalls-Winkel ist, der im Intervall (- ; , + ; ) stetig- gleichverteilt ist, so ist sein Tangens Standard-Cauchy-verteilt: (8) L(W) = SG(- ; , + ; ) oi(tan(W)) = C(0,1). Dies erlaubt eine Interpretation durch folgendes Zufalls-Experiment. Man betrachte in der (x,y)-Ebene eine Zufallsgerade durch den Nullpunkt (0,0), deren Winkel W mit der x-Achse stetig-gleichverteilt ist. Man stelle sich vor, die Gerade ist ein im Nullpunkt befestigte "Zeiger", der zufällig gedreht wird und dann zum Stillstand kommt. Dann ist der Anstieg tan(VV) dieser Zufallsgeraden C(0,1)-verteilt. 7.3.4 Anwendung: Das Sammlerproblem Als Anreiz zum Kaufen liegt bei einigen Konsumprodukten jeder Packung ein Sammelobjekt bei, z.B. ein Sammelbild (eine Plastikfigur, ein Mini-Buch). Es gibt dabei eine feste Anzahl n von verschiedenen Typen des Sammelobjekts (z.B. verschiedene Bildmotive) und das Ziel eines Sammlers ist es, eine vollständige Sammlung aller Typen zu erhalten (z.B. alle Bildmotive des Sammleralbums). Wir interessieren uns dafür, wie viele Packungen ein Sammler im Durchschnitt kaufen muß, um eine vollständige Sammlung zu erhalten. Hierbei wollen wir ausschließen, daß der Sammler z.B. durch Tauschen mit anderen Sammlern auch auf andere Weise Sammelobjekte beziehen kann. Um dieses Problem im Rahmen der Stochastik behandeln zu können, wollen wir es formaler fassen und dabei auch leicht idealisieren. Hierbei gehen wir davon aus, daß die vom Sammler gekauften Packungen unabhängig voneinander sind und in jeder Packung mit gleicher Wahrscheinlichkeit ei- nes der n verschieden Typen beiliegt. Erwartungswert und Varianz 7-13 15.12.15 Die Situation läßt sich formal durch eine Urne mit n durchnumerierten Kugeln beschreiben. Der Sammler zieht zufällig eine Kugel und markiert die Kugel (als "gesammelt"), bevor er sie wieder in die Urne zurücklegt. Dieser Vorgang wird solange wiederholt, bis alle Kugeln markiert sind. Im Spezialfall n = 6 entspricht dies dem wiederholten Werfen eines homogenen Würfels so lange bis jede Zahl mindestens einmal geworfen wurde. Wir bezeichnen das Ziehen einer noch nicht markierten Kugel als "Erfolg" und wollen jetzt den Erwartungswert für die Anzahl X der Ziehungen bis zum n-ten Erfolg n bestimmen. Hierzu berechnen wir den Erwartungswert für die Anzahl der Mißerfolge bis zum n-ten Erfolg (1) Y=X -n. n Auf den ersten Blick scheint Y eine negative Binomialverteilung NB(n,p) zu haben. Aber dies täuscht, weil die Erfolgs-Wahrscheinlichkeit hier nicht bei jeder Ziehung konstant ist, sondern nach jedem Erfolg geringer wird. Wir betrachten daher für k = 1, ... , n-1 die Anzahl Yk der Mißerfolge seit dem k-ten Erfolg bis zum nächsten Erfolg. Die Erfolgswahrscheinlichkeit hierfür ist pk = ~ (n- k), weil dann jeweils k Kugeln markiert sind. Yk hat eine geometrische Verteilung Geo(pk) = NB(1,pk) mit (2) E(Yk) = __!_k 1 n- = _!!:_kn- vgl. 7.3.1 (4). Die Gesamtzahl der Mißerfolge bis zum n-ten Erfolg läßt sich dann zerlegen (3) Y= y1 + .. .+ yn-1' und der gesuchte Erwartungswert ergibt sich zu n (4) a : = E(X ) = n + E(Y ) + ... + E(Y ) n n 1 ~1 n .2:= ~z z=1 Die Folge a läßt sich leicht rekursiv berechnen n an +1 = 1 + (1 + 1..) n an (5) für nE W und kann wie folgt approximiert werden (vgl. auch Tab. 1 und Abb. 2): (6) an ~ b(n) == n·log(2n+1). Erwartungswert und Varianz 5 n a n =E(X) n n · log(2n + 1) 7-14 15.12.15 10 15 20 25 30 11,4 29,3 49,8 72,0 95,4 119,8 12,0 30,4 51,5 74,3 98,3 123,3 Tabelle 1: Gerundete Werte der Folge an mit Approximation aus (6) für einigen. - • exakt 550 Approximation: n log(2n+1) .----- 450 t/r. 400 •• ~ 500 :>.:;<: c 0 > <: rn 350 t 300 3(/) 250 / Q) 0) c ~ t CO ~ u.J / 200 150 100 ........V 50 0 0 10 V / V ./ ~ • ~ • •• •• -' ~- ~- I 20 30 40 50 60 70 80 90 Anzahl n Abb. 2: Die (exakten) Erwartungswerte a und die approximierende n Funktion b(n) = n ·log(2n + 1). 100 Erwartungswert und Varianz 7.4 7-15 15.12.15 Varianz und Standardabweichung Nachdem wir für eine reelle Zufallsvariable X: D-----+ IR die Lage (Lokation) der Verteilung L(X) durch den Erwartungswert E(X) charakterisiert haben, wollen wir jetzt ein Maß angeben, welches die Streuung der Verteilung um ihren Erwartungswert beschreibt. Hierbei setzen wir natürlich die Existenz des Erwartungswerts voraus und bezeichnen ihn mit (1) 11 : = E(X). Die Abweichung X- 11 vom Erwartungswert - auch die Zentrierung von X genannt hat den Erwartungswert Null (2) E(X- 11) = 0. Die Varianz von X bzw. von L(X) ist definiert als erwartete quadratische Abweichung von fl, d.h. als Erwartungswert von [X- 11] 2 (3) (Varianz von X). Wegen [X- 11] 2 > 0 ist die Varianz Var(X) E [0, oo] durch (3) stets definiert, kann aber oo sein. Im folgenden setzen wir bei Verwendung der Varianz Var(X) jedoch implizit voraus, daß sie endlich ist, d.h. der Erwartungswert in (3) "existiert (in IR)". Bei praktischen Anwendungen verwendet man oft die Standardabweichung (engl.: standard deviation) von X (4) SD(X) : = J V ar(X) (Standardabweichung von X) 1 weil diese die gleiche "Dimension" wie X hat. Wenn z.B. X eine Länge [in cm] ist, so ist dies auch für SD(X) der Fall, während Var(X) eine Fläche [in cm 2 ] ist. Die Varianz von X existiert (d.h. ist endlich) gerrau dann, wenn der Erwartungswert E(X2 ) existiert (d.h. endlich ist) und läßt sich berechnen als Nebenbei bemerkt ergibt sich mit der Abschätzung lXI < 1 +X 2 auch die Existenz von E(X) aus der von E(X2 ). Die grundlegenden Eigenschaften der Varianz ergeben sich aus denen für Erwartungswerte (vgl. 7.2). Insbesondere gelten (wobei die Existenz der Varianz auf der Erwartungswert und Varianz 7-16 15.12.15 jeweils linken Seite der Gleichung aus der Existenz auf der rechten Seite folgt): + ß Y) ß2 · Var(Y) (6) Var (a (7) X, Y stochastisch unabhängig = a,ßE IR, für Var(X + Y) = Var(X) ::::} + Var(Y). (Die Varianz einer Faltung ist die Summe der Varianzen.) Auf die Unabhängigkeit in (7) kann nicht verzichtet werden, denn allgemein gilt nur Var(X + Y) = Var(X) (8) + Var(Y) + 2 ·E([X -E(X)]· [Y -E(Y)]) Hierbei folgt aus der Existenz der Varianzen von X und Y auch die Existenz des Erwartungswerts in (8), den man auch als Covarianz von X und Y bezeichnet (9) Cov(X, Y) : = E( [X- E(X)] · [Y- E(Y)]) (Covarianz von X und Y) = E(X Y) - E(X) · E(Y) . Mit dieser Bezeichnung lautet (8) jetzt (8)' Var(X + Y) = Var(X) + Var(Y) + 2 · Cov(X, Y), und (7) ergibt sich hieraus wegen (10) Cov(X, Y) = 0 . X, Y stochastisch unabhängig Die Umkehrung von (10) gilt nicht, wie folgendes Gegenbeispiel zeigt. Gegenbeispiel: Für X mit N(O, 1)- Verteilung sind X und Y = X 2 nicht stochastisch unabhängig, weil z.B. P{IXI<1,X2 >1} = o ;= P{IXI<1} ·P{X2 >1}. Nun ist E(X) = 0 und E(X2 ) = 1 (vgl. 7.5.2 (2)) und somit 2 Cov(X,X ) 2 3 = E( X· [X -1]) = E(X ). Wie man leicht zeigt (vgl. auch 7.6 (3)) ist E(X3 ) = 0 und somit Cov(X, Y) = 0. Für eine reelle Zufallsvariable X mit Erwartungswert 1-L D und Varianz a 2 > 0 heißt die umskalierte Zufallsvariable (11) U = X-E(X) SD(X) auch die Standardisierung von X, weil mit 1-L = E(X), 2 a = Var(X) >0 Erwartungswert und Varianz (12) 7.5 15.12.15 E(U) = 0, 7-17 Var(U) = 1. Varianzen spezieller Verteilungen Wir wollen jetzt die Varianzen der bisher behandelten Verteilungen auf IR angeben. 7.5.1 V arianzen spezieller diskreter Verteilungen Die Varianz einer Einpunkt-Verteilung (Dirac-Verteilung) ist Null (1) Var [Dirac(a)] = 0. Für die diskrete Gleichverteilung DG(n) auf {1, ... , n} gilt: (2) 2 n 1 Var[DG(n)] = --=-. 12 Die Varianz der Binomial-Verteilung B(n,p) ist (3) Var[B(n,p)] = npq mit q = 1-p. Der Parameter 1-L der Poisson-Verteilung Pois(f-L) ist auch ihre Varianz (4) Var[Pois(!-L)] = 1-L = E[Pois(!-L)]. Für die negative Binomial-Verteilung NB( n,p) - und damit auch für die geometrische Verteilung Geo(p) = NB(1,p) -ergibt sich (5) 7.5.2 Var[NB(n,p)] = n(l-p) p2 V arianzen spezieller stetiger Verteilungen Die Varianz der stetigen Gleichverteilung SG( a,ß) auf dem Intervall (a,ß) ist Bei einer Normalverteilung N(f-L, a 2 ) ist der Parameter a 2 die Varianz Erwartungswert und Varianz 7-18 15.12.15 Die Varianz der Gamma-Verteilung Gam( a,ß) ist und die Parameter a,ß lassen sich aus dem Erwartungswert und der Varianz wie folgt bestimmen (4) 2 L(X) = Gam( a,ß) a = E(X) / Var(X), Für die Exponential-Verteilung Expo(>.) = Gam(1, (5) Var[Expo(>.)] = >.- 2 ß = Var(X)jE(X). i) erhält man speziell 2 = (E[Expo(>.)]) . Und die Varianz einer Log-Normalverteilung ergibt sich aus Für die Cauchy-Verteilung C( a,ß) existiert die Varianz nicht, weil bereits ihr Erwartungswert nicht existiert. 7.6* Symmetrie und Schiefe Die Dichte der Normalverteilung N(p,, a 2 ) ist symmetrisch um den Erwartungswert p, (vgl. 4.2 Abb.2), während die Dichte der Gamma-Verteilung Gam( a,ß) keinen Symmetriepunkt besitzt und somit "schief" ist (vgl. 6.2 Abb. 2). Zur Klassifikation von Verteilungen wollen wir zunächst symmetrische Verteilungen definieren und dann eine Maßzahl für die "Schiefe" einer Verteilung angeben. Die Verteilung einer reellen Zufallsvariablen X heißt symmetrisch um einen Punkt ~ E IR, (1) wenn X-~ und- (X-~) dieselbe Verteilung haben, d.h. wenn L(X-~) = L(~-X). Insbesondere ist L(X) symmetrisch um 0, wenn L(X) = L(-X) gilt. Und die Verteilung von X ist gerrau dann symmetrisch um ~' wenn die Verteilung von X-~ symmetrisch um 0 ist. Stetiger Fall: X sei stetig verteilt mit stetiger Verteilungsfunktion F. Dann ergeben sich die Verteilungsfunktionen von X-~ bzw. ~-X nach 4.4.1 (4) bzw. (5) zu Erwartungswert und Varianz 7-19 15.12.15 F~_JA = 1- F(~-z), zEIR. Da Verteilungen durch ihre Verteilungsfunktionen eindeutig bestimmt sind (4.1 Theorem) ist die Verteilung von X gerrau dann symmetrisch um ~' falls FX-~ mit F~-X übereinstimmt, d.h. falls gilt F(z+~) = 1-F(~-z) für alle z E IR. Für z = 0 folgt hieraus F(~) = ~,und der Graph von Fist nach (1) 5 drehsymmetrisch um den Punkt (~, ~). - Die Normalverteilung N(p,,a 2 ) ist in diesem Sinn symmetrisch um ihren Erwartungswert p, (vgl. 4.3 Abb. 2). Falls F auf ganz IR stetig differenzierbar ist, so ergibt sich durch Differenzieren von (1) als äquivalente Symmetriebedingung für die Dichte f = F 1 ( vgl. 4.3 Satz) 5 (1)~ f(z + ~) = f(~-z) für alle z E IR, d.h. der Graph der Dichte f ist symmetrisch um ~- - Die Cauchy-Verteilung C( a, ß) ist in diesem Sinne symmetrisch um den Parameter a (vgl. 7.3 Abb. 1). D Diskreter Fall: X sei diskret verteilt. Dann ist die Symmetriebedingung (1) äquivalent zu P{X=z+~} = P{X=~-z} für alle z E IR, d.h. die (auf ganz IR fortgesetzten) Zähldichte f(x) =P{X = x} von X ist symmetrisch um ~- - Die Binomialverteilung B(n, ~) ist in diesem Sinn symmetrisch um ihren Erwartungswert p, = ~ . D Der Symmetrie-Punkt einer Verteilung ist immer der Erwartungswert, sofern dieser existiert: (2) E(X) existiert und L(X) symmetrisch um ~ ~= E(X). Weitere Beispiele von (um ihren Erwartungswert) symmetrischen Verteilungen sind die diskreten und die stetigen Gleichverteilungen. Es gibt aber auch symmetrische Verteilungen, deren Erwartungswert nicht existiert, z.B. die bereits oben erwähnten Cauchy-Verteilungen. Wir wollen jetzt eine Maßzahl für die "Schiefe" der Verteilung von X entwickeln. Den Ausgangspunkt bildet die folgende Eigenschaft symmetrischer Verteilungen Erwartungswert und Varianz E([X- p,] 3 ) existiert L(X) symmetrisch um p, = E(X), (3) 7-20 15.12.15 E([X-tt] 3 = 0. ) Als ein Maß für die "Schiefe" kann man daher den Erwartungswert der kubischen Abweichung [X- p,] 3 verwenden (3. zentrales Moment von X). (4) Allgemeiner verwendet man für r > 0 die Bezeichnungen E(Xr) r-tes Moment E(IXIr) r-tes absolutes Moment E([X -p,r) r-tes zentrales Moment von X bzw. L(X). Insbesondere ist die Varianz das 2. zentrale Moment. Das 3. zentrale Moment von X 3 existiert (sogar gerrau dann), wenn das 3. Moment E(X ) existiert und läßt sich be- rechnen als E(X3 ) (5) - 3E(X2 ) · E(X) + 2 [E(X)] 3 E(X3 ) - p, (3a 2 + p, 2 ) 2 mit Nebenbei bemerkt ergibt sich mit der Abschätzung a = Var(X). lxl < 1 + lxlr 8 für s < r aus der Existenz von E(Xr) auch die Existenz von E(X8 ). Die grundlegenden Eigenschaften des 3. zentralen Moments ergeben sich aus denen für Erwartungswerte (vgl. 7.2). Insbesondere gelten (wobei die Existenz der Momente auf der jeweils linken Seite der Gleichung aus der Existenz auf der rechten Seite folgt): (6) für a,ßE IR, (7) X und Y stochastisch unabhängig Die (standardisierte) Schiefe ist definiert als 3. zentrales Moment der Standardisierung von X (8) mit p, = E(X), a 2 = Var(X). Bei linearen Umskalierungen von X ändert die Schiefe höchstens ihr Vorzeichen (9) für a, ß E IR mit ß > 0. Erwartungswert und Varianz 15.12.15 7-21 Wir geben jetzt die 3. zentralen Momente und Schiefen einiger (nicht-symmetrischer) Verteilungen an. Bei der Binamial-Verteilung B(n,p) mit q = 1- p ist (10) ~t 3 [B(n,p)] = (q- p) · (npq), Die Schiefe konvergiert für n---+ oo gegen Null und verschwindet für p = ~Für die Paissan-Verteilung Pais(~t) ist (11) und ihre Schiefe ist stets positiv und konvergiert für Ii---+ oo gegen Null. Und für die negative Binamial-Verteilung NB(n,p) mit q = 1-p ist (12) Die Schiefe ist wieder stets positiv und konvergiert für n---+ oo gegen Null. Bei der Gamma-Verteilung Gam( a,ß) ist (13) Die Schiefe hängt nur vom Form-Parameter a ab. Sie ist immer positiv und konvergiert für a---+ oo gegen Null (vgl. auch Abb. 1). Und für die Lag-Narmalverteilung ist (14) ~t 3 ["( + exp {N( a,ß2 )}] e3aw3(w2-1)2(w2+2)' e3 ["( + exp {N( a,ß2)}] (w2 -1)1/2 (w2 + 2) Die Schiefe ist wieder stets positiv und konvergiert für ß---+ 0 bzw. w---+ 1 gegen Null. In Abb. 2 und 4.4 Abb. 4 sind verschiedene Dichten der log-Normalverteilung darge- stellt. Die log-Normalverteilung '"Y + exp { N( a,ß 2 ) ist durch ihren Erwartungswert ft, ihre e3 bereits eindeutig bestimmt, d.h. die Parameter a, ß und '"Y lassen sich aus ft, a 2 und e bestimmen (was hier aber nicht gezeigt wird). 3 Varianz a 2 und ihre Schiefe Erwartungswert und Varianz 7-22 15.12.15 Dichte der standardisierten Gamma-Verteilung für verschiedene Schiefen 1 -1 0 2 3 Abb. 1: Dichten der standardisierten Gamma-Verteilung ; [Gam( a 1 1) -p, J für verschiedene Schiefen e3 = 0.5, 1, 1.5, 2. Dichte der standardisierten Log-Normal-Verteilung für verschiedene Schiefen 1 4 -3 -2 -1 0 2. 3 Abb. 2: Dichten der standardisierten Log-Normal-Verteilung ; [exp {N(O,ß 2)} -p, J für verschiedene Schiefen e3 = 0.5, 1, 2, 4. Erwartungswert und Varianz 7.7 7-23 15.12.15 Die Ungleichungen von Chebyshev und Markov Für eine reelle Zufallsvariable X mit Erwartungswert p, = E(X) haben wir die Varianz a 2 = Var(X) als ein Maß für die Streuung von X um p, eingeführt. Die folgende Ungleichung von Chebyshev (Pafnuty Lvovich Chebyshev, 1821-1894) gibt eine Ab- schätzung für die Wahrscheinlichkeit P {I X -p, I> c} daß X um mindestens c > 0 von f-L abweicht. Ungleichung von Chebyshev: Für eine reelle Zufallsvariable X mit existierenden p, = E(X) und Var(X) gilt für jedes c > 0 : (1) Für die zentrierte Variable Z =X -p, lautet die Ungleichung (1) äquivalent (1) I und dies ist ein Spezialfall der folgenden - nach Andrei Andreyevich Markov (1856-1922) benannten- Ungleichung. Ungleichung von Markov: Für eine reelle Zufallsvariable Z und r > 0 existiere das r-te absolute MomentE( IZrl). Dann gilt für jedes c > 0 : (2) Wählt man c = r a in (1) als r-faches der Standardabweichung a = SD(X), so gilt (3) für r> 0, wobei nur der Fall r > 1 eine nicht-triviale Abschätzung liefert. Insbesondere gelten (4) P{p,-2a <X< p,+2a} P{IX-p,l<2a} >.1 - 4 P{p,-3a <X< p, + 3a} P{IX-p,l<3a} >_§. - 9 P{p,-4a <X< p, +4a} P{IX-p,l<4a} -> !~ 16 75%' ,......, ,......, 88.9%' 93.75%0 Diese Abschätzungen sind für spezielle Verteilungen von X zwar relativ grob (z.B. bei Normalverteilung, vgl. 7.7.1), haben dafür aber den Vorteil, daß sie für jede Verteilung von X gelten. Generell ist die Chebyshev-Ungleichung eher von theoretischen Interesse als vom praktischen Nutzen für Abschätzungen der Form (4). Erwartungswert und Varianz 7-24 15.12.15 Als erste wichtige Folgerung aus der Chebyshev-Ungleichung ergibt sich. daß eine reelle Zufallsvariable X gerrau dann eine Einpunkt-Verteilung (Dirac-Verteilung) besitzt, wenn ihre Varianz Null ist: (5) L(X) = Dirac(E(X) ). Var(X) = 0 Äquivalent hierzu ist (5) I L(X) = Dirac(E(X)) , d.h. in der Ungleichung gilt die Gleichheit gerrau dann, wenn X Einpunkt-verteilt ist. 7.7.1 Normalverteilung Für eine Zufallsvariable X mit Normalverteilung N(p,,a 2 ) läßt sich für r > 0 die Wahrscheinlichkeit (1) unter Verwendung der Verteilungsfunktion P von N(O,l) explizit angeben und hängt nicht von den Parametern p, und a 2 ab. Insbesondere ist (vgl. Abb. 1) (2) P{p,-la <X< p,+la} P{IX-p,l<la} ,......, ,......, 68.3%' P{p,-2a <X< p,+2a} P{IX-p,l<2a} ,......, ,......, 95.4%' P{p,-3a <X< p, + 3a} P{IX-p,l<3a} ,......, ,......, 99.7%0 und somit liefert 7.7 (4) hier nur eine relative grobe Abschätzung. f.l-0 f.I +O f.l-2o f.1 f.1 + 2o f..l-30 f.l f.1 + 3o Abb. 1: Die (gerundete) Wahrscheinlichkeit des la-, 2a- und 3a-Bereichs bei der Normalverteilung N(p,, a2). Erwartungswert und Varianz 7-25 15.12.15 7.7.2* Empirische Verteilung Für ein festes n-Tupel x = (x , ... , xn) E IRn (mit nicht notwendig verschiedenen Kom1 ponenten) betrachten wir auf der Menge T = { x ·I i = 1, ... , n} die empirische Verteiz lung P des Tupels x (vgl. 1.2.4), definiert durch die Zähldichte X (1) P { x .} : = .l. # { k = 11 ••• 1 n I xk = x.} x z z n = relative Häufigkeit des Werts x. im Tupel z (x1, ... , x n ). Interpretiert man das n- Tupel als eine Abbildung x: {1, ... , n}-----+ T mit x(i) = x. und z ist U eine Zufallsvariable mit diskreter Gleichverteilung DG(n) auf {1, ... , n}, so hat die Zufallsvariable X= x(U) die Verteilung P, d.h. X (2) P{X= x.} = .l·#{k=1 1 ••• 1 n I xk=x.}. z n z Als Erwartungswert und Varianz von X bzw. P ergeben sich X n (3) E(X) = .l n 2:: x.z .ln 1 i=1 n Var(X) Mittelwert von x , ... , x n , ==x 2:: (xz.- x) 2 . z=1 2 Varianz von x 1, ... , x n . ==a X Nach 7.7 (3) erhält man für jedes r > 0 die folgende Abschätzung (4) ~-#{k=1 1 ••• 1 nlx-rax<xk<x+rax} > 1-~2 wobei die rechte Seite der Ungleichung für r = 2, 3, 4 in 7.7 (4) angegeben ist. In Verallgemeinerung von (3) erhält man für jedes r > 0 n (5) E(Xr) = .l n E([X -xr) = ~ 2:: x:z r-tes Moment von x , ... , x n , 1 i=1 n 2:: (xi- xr =: p,rx r-tes zentrales Moment von x 1, ... , xn, i=1 und hieraus ergibt sich die Schiefe von X bzw. P X (6) -· n - · c:3x · Erwartungswert und Varianz 7.8* 7-26 15.12.15 Covarianz Korrelation und linearer Zusammenhang 1 Bisher haben wir nur Parameter einer reellen Zufallsvariablen X: .f2-----+ IR untersucht, insbesondere den Erwartungswert E(X), die Varianz Var(X) sowie die Schiefe e3(X). Wir betrachten jetzt zwei Zufallsvariablen X, Y :.f!-----+ IR und wollen Parame- ter für die gemeinsame Verteilung beider Zufallsvariablen, d.h. für die Verteilung des Paares (X, Y) definieren. Hierbei setzen wir dabei generell voraus, daß die Erwartungswerte und Varianzen existieren: (1) 1-Lx: = E(X) , 1-Ly : = E(Y) , a; : = Var(X) < oo , a y : = Var(Y) 2 < oo . 7.8.1 * Die Covarianz Der einfachste und zugleich wichtigste Parameter der gemeinsamen Verteilung ist die bereits in 7.4 definierte Covarianz von X und Y (1) E( [X -p,) . [Y -p,yl) Cov(X, Y) (Covarianz von X und Y) E(X Y) - 1-Lx 1-Ly. Die Existenz des Erwartungswerts E(X Y) bzw. E( [X -p,)· [Y -p,Yl) ergibt sich hierbei aus der Schwartz 1schen Ungleichung (2) (Ungleichung von Schwartz). Man beachte, daß sich die Varianz von X auch als Covarianz schreiben läßt (3) Var(X) = Cov(X,X). Der Covarianz-Operator Cov( -, -) ist symmetrisch (4) und invariant gegenüber Verschiebungen (Translationen) (5) Cov( a + X ß + Y) 1 = Cov(X1 Y) für a,ßE IR. Weiter ist der Covarianz-Operator bi-linear1 d.h. für a E IR und eine Zufallsvariable Z: .f2-----+ IR mit existierender Varianz gilt Erwartungswert und Varianz Cov(aX1 Y) (6) 7-27 15.12.15 a · Cov(X1 Y) Cov(X1 a Y), (7) Cov(X~ [Y + Z]) Cov(X~ Y) + Cov(X,Z) Cov([X +ZL Cov(X1 Y) + Cov(Z,Y). Y) , Unter Verwendung der Covarianz Cov(X, Y) lassen sich der Erwartungswert des Produktes X Y sowie die Varianz der Summe X+ Y wie folgt bestimmen (8) E(XY) = E(X) ·E(Y) Var(X + Y) = Var(X) (9) + Cov(X, Y), + Var(Y) + 2 · Cov(X, Y) . Durch Induktion ergibt sich für Zufallsvariablen X , ... ,Xn: .f2-----+ IR n (10) Var(.l: z=1 xJ n 2: "1 n Var(X.) z= z 1 + 2 2: Cov(X.,X.). .. 1 ZJ z,J = i <j Die Covarianz von stochastisch unabhängigen Zufallsvariablen ist Null (11) X, Y stochastisch unabhängig Cov(X, Y) = 0 ) wobei allerdings die Umkehrung nicht gilt (vgl. das Gegenbeispiel in 7.4 ). Beispiel: Multinomialverteilung Für einen K-dimensionalen Zufallsvektor X= MK(n,p) mit Multinomialverteilung gilt (8 bezeichnet das Kronecker Symbol): Mit (11) ergibt sich hieraus (wie bereits in 6.1.2 festgestellt), daß je zwei Komponenten X k und Xl stochastisch abhängig (d.h. nicht unabhängig) sind. Erwartungswert und Varianz 15.12.15 7-28 7.8.2* Der Korrelationskoeffizient Zur Vermeidung von Trivialitäten wollen wir jetzt zusätzlich voraussetzen, daß weder X noch Y eine Einpunkt-Verteilung haben, d.h. a; : (1) = Var(X) > a; : = Var(Y) 0, > 0, Die Covarianz Cov(X, Y) ist zwar invariant gegenüber Translationen, aber nicht invariant gegenüber linearen Umskalierungen, vgl. 7.8.1 (6). Deshalb definiert man die Korrelation (den Korrelationskoeffizient) von X und Y (2) Corr(X,Y) Cov(X,Y) )Var(X) · Var(Y) Cov(X,Y) ax·ay Der Korrelations-Operator ist symmetrisch (3) und invariant gegenüber positiven linearen Umskalierungen (4) Corr( a + ßX, Y) = Corr(X, Y) = Corr(X, a + ßY) für a E IR, ß > 0. Bei negativen linearen Umskalierungen ändert der Korrelationskoeffizient sein Vorzeichen (5) Corr( a- ßX, Y) = - Corr(X, Y) = Corr(X, a- ßY) für a E IR, ß > 0. Der Korrelationskoeffizient von stochastisch unabhängigen Zufallsvariablen ist Null (6) X, Y stochastisch unabhängig Corr(X, Y) = 0 1 wobei wieder die Umkehrung im Allgemeinen nicht gilt. Der Korrelationskoeffizient liegt stets im Intervall (7) -1 < Corr(X, Y) < + 1. [-1, +1]: Erwartungswert und Varianz 7-29 15.12.15 7.8.3* Die zweidimensionale Normal-Verteilung Wir betrachten einen Zufallsvektor (X ,X 1 2 ) : .f2-----+ IR 2 mit einer zwei-dimensiona- len Normalverteilung Nip,, E), vgl. 4.7.1 . Hierbei ist Jl = (p, ,p, ) der Vektor der Er1 2 wartungswerte p,.=E(X.). Und Eist die 2x2-Matrix z z (1) mit den Varianzen a?z = Var(X.)z und einem weiteren Parameter -1 < e< 1. Die (hier nicht durchgeführte) Berechnung der Covarianz von X und X ergibt 1 2 Damit ist E die sogenannte Covarianz-Matrix von (X ,X ), d.h. 1 2 (3) Und derParametereist gerade der Korrelationskoeffizient 7.8.4* Linearer Zusammenhang und Regressionsgerade Bei Anwendungen interessiert man sich oft für den Zusammenhang zweier Merkmale X und Y eines zufällig ausgewählten Objekts w E D, z.B. die Körpergröße X und das Gewicht Y oder das Alter X und der Blutdruck Y einer Person w aus der betrachteten Population .f2. Eine wichtige Fragestellung ist hierbei, inwieweit sich Y durch eine Funktion f(X) von X vorhersagen läßt1 also z.B. das "Normalgewicht" f(X) für die Körpergröße X oder der "normale Blutdruck" f(X) für das Alter X. Wir wollen dies näher untersuchen, wobei wir uns auf lineare Funktionen beschränken (1) f( x I a, b) : = a + bx , für xE IR. Für jede Wahl der Parameter a, b E IR ergibt sich eine andere Prognose f(X I a, b) für Y und wir suchen zunächst nach einem Kriterium zur Bestimmung der "optimalen" Parameterwerte. Hierzu betrachten wir den Prognose-Fehler, d.h. die Abweichung der Zufallsvariablen Y von ihrer Prognose f(X I a, b) (2) Y-f(XIa,b) = Y- a-bX. Erwartungswert und Varianz 7-30 15.12.15 Als Masszahl für die Abweichung der Prognose f(X I a, b) von Y verwenden wir den erwarteten quadratischen Prognose-Fehler 2 (3) 2 E{(Y-j(XIa,b)) } = E{(Y- a-bX) } und wollen diesen durch geeignete Wahl von a und b minimieren. Unter Verwendung der zentrierten Zufallsvariablen (4) Y' X' = X-II. rx' läßt sich der Prognose-Fehler darstellen als (5) Y- a- bX = Y' - c- bX' mit Und der erwartete quadratische Prognose-Fehler läßt sich schreiben als (6) E{(Y- !(XI a,b)) 2 } E{(Y'- c- bX'?} 2 a Y2 b Cov(Y) X, + b22 a X + c2 2 a~(l-e ) + (bax-eay) + c e: = (7) 2 2 mit Corr(X, Y). Folglich wird (6) minimal bzgl. b und c1 wenn b a x = ea Y und c = 0. Die zugehörigen Argumente (a,ß) von (a,b) im Minimum von (6) lauten daher (8) a a : = 1-Ly- ß1-Lx' ß==eaY' X und das Minimum des erwarteten quadratischen Prognose-Fehlers ist 2 (9) min E{(Y-f(XIa,b)) } = 2 E{(Y-f(XIa,ß)) } a,bE 1R Die so gefundene "optimale" lineare Funktion (10) für xE IR heißt auch die Regressionsfunktion (oder Regressionsgerade) von Y auf X. Der Fehler der zugehörigen linearen Prognose f(X) = a (11) R : = Y- f(X) = Y- a - Folglich läßt sich Y darstellen als ßX + ßX wird auch als Residuum bezeichnet (Residuum). Erwartungswert und Varianz (12) y (13) E(R) (14) Var(R) 7-31 15.12.15 a+ßX +R, wobei o, und Aus der letzten Beziehung ergibt sich einerseits (15) bzw. Andererseits wird für wachsendes e2 die Varianz des Residuums und somit die Streuung von Y um die lineare Prognose f(X) = a + ßX geringer. In diesem Sinn ist e 2 eine Maßzahl für den linearen Zusammenhang zwischen X und Y und wird als (lineares) Bestimmtheitsmaß von (X,Y) bezeichnet. Der Extremfall dann ein, wenn die lineare Beziehung Y = a i = 1 tritt gerrau + ßX mit Wahrscheinlichkeit 1 gilt (16) P{Y = a+ßX} = 1. wobei das Vorzeichen des Anstiegs ß mit dem von e übereinstimmt. Zur Illustration sei hier noch einmal auf Abb. 8 in 4.7.1 hingewiesen (die dort erwähnten Geraden sind gerrau die Regressionsgeraden für den Falle=± 1). Im anderen Extremfall und Y vorliegt, ist e= 0, ß = 0 und der ja insbesondere bei stochastisch unabhängigen X a = 1-Ly' d.h. die Regressionsgerade ist konstant f Das Gegenbeispiel in 7.4 zeigt, daß der Fall 1-Ly· e= 0 aber auch bei einem exakten qua- 2 dratischen Zusammenhang Y = X eintreten kann. Deshalb ist der Korrelationskoef- fizient nur eine Maßzahl für den linearen - aber nicht für einen beliebigen, z.B. quadratischen - Zusammenhang. Löst man (14) nach dem Bestimmtheitsmaß e 2 auf, so ergibt sich mit (17) e 2 = Var(Y)- Var(R) Var(Y) Reststreuung von Y nach Regression auf X Streuung von Y eine weitere Interpretation von e 2 als derjenige Anteil der Varianz von Y, der durch die Regression auf X "erklärt" wird. In diesem Zusammenhang wird das Bestimmtheitsmaß e 2 auch in Prozent angegeben. Unter Verwendung der Chebyshev-Ungleichung läßt sich die Wahrscheinlichkeit dafür abschätzen, daß die Zufallsvariable Y um mehr als das r-fache ihrer Standardabweichung a Y von der linearen Prognose f(X) abweicht Erwartungswert und Varianz 7-32 15.12.15 (18) für Die obere Schranke wird bei festem r für wachsendes Obwohl der Korrelationskoeffizient r> 0. ri immer kleiner. ri = Corr(X, Y) in X und Y symmetrisch ist, ist dies für die Regressiongeraden nicht der Fall1 weil durch die Prognose eine "Richtung" (Prognose von Y aus X) und somit eine Asymmetrie ins Spiel kommt. Vertauscht man in obigen Betrachtungen X mit Y so ergibt sich als Regressionsgerade von X aufY (19) für y E IR. Die beiden Regressionsgeraden in IR 2 - f und g - d.h. gerrauer ihre zugehörigen Graphen 1 stimmen aber nur im Falle= e- bzw.l eI= 1 überein. Schätzen von Erwartungswert und Varianz 8. 15.12.15 8-1 Schätzung von Erwartungswert und Varianz In der Praxis ist die Verteilung einer interessierenden reellen Zufallsvariablen X: .f2-----+ IR typischerweise nicht vollständig bekannt. Selbst wenn der Typ der Verteilung L(X) bekannt ist - z.B. eine Poisson-Verteilung L(X) = Pois(p,) bei den Anwendungen in 0.1 (X = Anzahl der Leukämiefälle) oder 0.2 (X = Anzahl der Asbestfasern) - so ist der Parameter p, = E(X) unbekannt und von primärem Interesse. Auch bei stetigem X, z.B. bei Normalverteilung L(X) = N(p,, a 2 ) sind die Parameter 2 p, = E(X) und a = Var(X) typischerweise unbekannt. Eine wesentliche Aufgabe der Statistik besteht deshalb darin, unbekannte Parameter von Verteilungen aus beobachteten Daten zu schätzen. Wir wollen uns hier mit dem Schätzen des Erwartungswerts E(X) und der Varianz Var(X) beschäftigen, d.h. wir wollen sogenannte Schätzer an- geben und deren Eigenschaften untersuchen. Der Ausgangspunkt dazu ist ein Stichproben-Modell, das aus n stochastisch unabhängigen und identisch wie X verteilten Zufallsvariablen X.: .f2-----+ IR für i = 1, ... , n be- z steht. Man bezeichnet X , ... ,Xn auch als unabhängige Wiederholungen von X und 1 schreibt hierfür kurz (iid steht für independent identically distributed) (1) X 1, ... ,Xn u':':"'d X. Die Stichprobe stellt einen n-dimensionalen Zufalls-Vektor dar wobei wir den Stichprobenumfang als oberen Index "(n)" nur dann mitschreiben, wenn dies zur Klarstellung erforderlich ist (z.B. wenn n variiert oder n---+ oo strebt). Die beobachteten Daten sind Realisierungen x. =X.( w) E IR der Zufallsvariablen X., z z z wobei wEil das eingetretene Ergebnis ist. Der beobachtete Vektor ist dann die zugehörige Realisierung von X. Ebenso wie man zwischen einer Funktion f und einem konkreten Funktionswert f(x) unterscheidet, so wollen wir auch streng zwischen dem Zufallsvektor X und seiner beobachteten Realisierung x = X( w) unterscheiden. Schätzen von Erwartungswert und Varianz 8.1 15.12.15 8-2 Schätzung des Erwartungswerts Wir setzen jetzt voraus, daß der Erwartungswert und die Varianz von X existieren (1) 2 p,: = E(X) , a : = Var(X), wollen aber sonst keine weitere Annahmen über die Verteilung L(X) machen. Unter Berücksichtigung der Ausführungen in 7.1 bei der Einführung des Erwartungswerts ist es naheliegend, den Mittelwert (arithmetisches Mittel) der Beobachtungen als Schätzung des Erwartungswerts p, zu verwenden. Formal definiert man hierzu die Schätzfunktion 4: IR n-----+ IR, die jeder Realisierung x von X den Mittel- wert von x zuordnet, d.h. n (2) 4(x) = x = l. 2:= n. z=l x. z 1 -x n + (Schätzung für p,) . Die Abhängigkeit der Schätzung von den ))zufälligen" Daten wird beschrieben durch den Schätzer (die Schätzgröße) (3) - 1 4(X) = X = n n 2:= i=l X.z l.x n + (Schätzer für p,) . 4(X) ist eine Zufallsvariable auf .f2 mit Werten in IR, und der Schätzwert 4(x) = 4 (X( w)) ist die zugehörige Realisierung des Schätzers. Wir wollen jetzt einige elementare (aber wichtige) Eigenschaften des Schätzers 4(X) zusammenstellen. Zunächst ergibt sich als Erwartungswert des Schätzers (4) E(4(X)) = 1-L , und man sagt deshalb, daß der Schätzer erwartungstreu oder unverfälscht ist. Allgemein heißt ein Schätzer für einen Parameter erwartungstreu, wenn der Erwartungswert des Schätzers gerrau der zu schätzende Parameter ist. Die Varianz des Schätzers ist umgekehrt proportional zum Stichprobenumfang n: (5) Var(4(X)) = ~ a 2 . Insbesondere wird der Schätzer für wachsendes n immer besser, weil er immer weniger um den zu schätzenden Parameter p, streut (vgl. Abb. 1). Wir werden sogar (unter Verwendung des Schwachen Gesetzes der großen Zahlen) noch sehen, daß der Schätzer für n---+ oo in einem noch zu präzisierenden Sinn gegen p, konvergiert. Schätzen von Erwartungswert und Varianz 8-3 15.12.15 Abb. 1: Verteilung des Mittelwerts P,(X) =X bei wachsendem Stichprobenumfang n X ist Gamma-verteilt X ist diskret gleichverteilt (Würfel) I I I J1 = 7/2 J1 = 7/2 n= 1 0 2 n= 1 a 2 = 35/12 a <=35/12 3 J1 4 5 6 Mittelwert 0 2 3 J1 4 5 n= 4 6 Mittelwert n=4 o~---r-=~~~~~~~~~~---­ o 2 3 J1 4 5 6 Mittelwert 0 2 3 J1 4 5 n= 16 0 2 3 J1 4 5 6 Mittelwert 6 Mittelwert n = 16 0 2 3 J1 4 5 6 Mittelwert n= 64 n = 64 0 4---~--~---L~+-~--~--~---- 0 2 3 J1 4 5 6 Mittelwert 0 2 3 J1 4 5 6 Mittelwert Schätzen von Erwartungswert und Varianz 15.12.15 8-4 Offenbar ist ein erwartungstreuer Schätzer für 1-L umso besser1 desto kleiner seine Varianz ist. Verwendet man aus "Faulheit" z.B. nur die erste Komponente JiiX): =X1 oder das Mittel P,1n(X): = ~ (X1 +Xn) von erstem und letzten Wert, so sind diese beiden Schätzer zwar erwartungstreufür f-L, aber ihre Varianzen sind für n > 2 größer als die von P,(X). Die Erwartungstreue ist zwar eine wünschenswerte Eigenschaft eines Schätzers, aber sie sagt nichts über die Varianz des Schätzers aus. Das 3. zentrale Moment und die Schiefe des Schätzers P,(X) ergeben sich aus denen von X - sofern diese existieren - zu (6) Insbesondere konvergiert die Schiefe des Schätzers P,(X) für n---+ oo gegen Null (vgl. auch Abb. 1). 8.2 Spezielle V erteil ungsmodelle Wenn man voraussetzt, daß die Verteilung L(X) aus emer speziellen Klasse stammt, die gegen Faltungen abgeschlossen ist, so gehört auch die Verteilung der Summe X+ =X + .. .+Xn zu dieser Klasse und die Verteilung des Schätzers 1 P,(X) = ~X+ läßt sich explizit angeben. Wir geben hierfür einige Beispiele. 8.2.1 Das Binomial-V erteil ungsmodell Das Binomial-Verteilungsmodell liegt vor, wenn X diskret ist mit (1) L(X) = B(l,p) . Wegen 1-L = E(X) = p entspricht die Schätzung von 1-L hier der Schätzung der Wahrscheinlichkeit p und wir bezeichnen die Schätzfunktion P, dann auch suggestiv mit p: = P,. Bei Anwendungen ist p typischerweise die Wahrscheinlichkeit eines interes- sierenden Ziel-Ereignisses und die Schätzung ß(x) = ~ x +ist gerrau die relative Häufigkeit mit der das Ziel-Ereignis bei denn Wiederholungen eingetreten ist. Die Verteilung des Schätzers ß(X) = ~X+ ergibt sich aus (2) bzw. L(ß(X)) = ~- B(n,p). Schätzen von Erwartungswert und Varianz 8-5 15.12.15 Die zweite Formulierung bedeutet, daß .ß(X) den Träger { 1 I k = 0, ... , n} besitzt n mit der Zähldichte: (3) 8.2.2 k = 0, ... , n. Das Poisson-Verteilungsmodell Das Poisson-Verteilungsmodell ist bei diskretem X gegeben durch (1) L(X) = Pois(p, ), und dann folgt aus 6.1.3 (1) (2) L(X+) = Pois( np,) Die Verteilung von bzw. 4 (X) = ~X+ L(Jl(X)) = ~- Pois(np,). hat also den Träger { ~ I k E W0 } und die Zähl- dichte: (3) 8.2.3 Das Normal-Verteilungsmodell Für stetiges X ist das Normal-Verteilungsmodell gegeben durch und dann folgt aus 6.2.1 (1) (2) L(X+) = N( np,, na 2 ) bzw. 8.2.4 * Das Gamma-V erteil ungsmodell Das Gamma-Verteilungsmodell liegt bei stetigem X> 0 vor, wenn (1) L(X) = Gam(a,ß) mit 1-L =aß' bzw. L(Jl(X)) = Gam(na ~ß). und dann folgt aus 6.2.2 (9) (2) L(X+) = Gam(na,ß) 1 Schätzen von Erwartungswert und Varianz 8-6 15.12.15 8.2.5* Das Cauchy-Verteilungsmodell Für stetiges X ist das Cauchy-Verteilungsmodell gegeben durch (1) L(X) = C(a,ß) und für den Mittelwert X = ~X+ folgt aus 7.3.3 (7) (4) (2) L(X+) = C(na, nß) = n C( a,ß) bzw. L(X) = C( a! ß). Folglich hat der Mittelwert von unabhängigen Wiederholungen von X dieselbe Cauchy-Verteilung wie X, d.h. Mittelwertsbildung erhöht hier nicht die Präzision. Dies ist aber kein Widerspruch zu 8.1(5), weil bei der Cauchy-Verteilung der Erwartungswert und somit auch die Varianz nicht existiert. 8.3* Schätzung der Varianz Nachdem wir für die Zufallsvariable X zunächst ihren Erwartungswert 1-L geschätzt haben, wollen wir jetzt ihre Varianz a 2 schätzen. Aus methodischen Gründen betrachten wir zuerst den (in der Praxis eher seltenen) Fall, daß der Erwartungswert 1-L bekannt ist. Danach wird der Fall für unbekanntes 1-L behandelt. 8.3.1 * Schätzung der Varianz bei bekanntem Erwartungswert Der Erwartungswert des Quadrats Y = [X- f-L] 2 ist gerrau die Varianz von X (1) E(Y) = Var(X) = a 2. Damit läßt sich die Schätzung von a 2 auf die Schätzung des Erwartungswerts von Y zurückgeführt. Die Zufallsvariablen Y. = (X.- 1-L) 2 sind für i = 1, ... , n unabhängige z z Wiederholungen von Y. Also ist ihr Mittelwert Y nach 8.1 ein Schätzer für a 2 (2) 5 2 (X) 0 =Y = .l ~ (X.- ) n i z 1-L ' 2 und der Schätzer ist erwartungstreu (3) (erwartungstreu). Unter Verwendung des vierten zentralen Moments von X dessen Existenz wir jetzt voraussetzen, ergibt sich die Varianz von Y Schätzen von Erwartungswert und Varianz (5) 8-7 15.12.15 4 Var(Y) = p, - a , 4 und somit auch die Varianz des Schätzers 8.3.2* Schätzung der Varianz bei unbekanntem Erwartungswert Bei unbekanntem Erwartungswert p, kann der Schätzer 5 2 (X) aus 8.3.1 nicht be0 rechnet werden. Man verwendet daher einen analogen Schätzer, indem man den Erwartungswert p, durch seinen Schätzer (t =X ersetzt und dafür durch n -1 statt n teilt (damit der Schätzer erwartungstreu wird): (1) a2 (X) = - 1- ~ (X.-X) 2 = - 1- SXX. n-1 · z z n-1 Hierbei ist SXX eine quadratische Form in X XTAX (2) ' wobei die nxn Matrix A = (a . .) gegeben ist durch: ZJ (3) a .. = 8 . .-1.. ZJ ZJ n (8 ist das Kronecker-Symbol). Zur Berechnung des Schätzers kann man die Beziehung (4) für aEIR verwenden. Speziell für a = 0 ergibt sich wieder (2). Der Nenner (n-1) in (1) garantiert, daß der Schätzererwartungstreu ist: (5) (erwartungstreu). Die zugehörige Schätzung a(X) der Standardabweichung a ist nicht erwartungstreu1 da (6) E(a(X))<a, wobei die Gleichheit nur im trivialen Fall gilt, wenn a2(X) Dime-verteilt ist. Man beachte in diesem Zusammenhang, daß die Schätzung (t( x) = x für den Erwar- tungswert p, ebenfalls mit dem Erwartungswert der empirischen Verteilung P übex reinstimmt. Aber die Varianz der empirischen Verteilung P X n 2 a 1.. 2:: (x .- x) 2 (7) X n . z=1 z Schätzen von Erwartungswert und Varianz 8-8 15.12.15 ist stets kleiner als die (erwartungstreue) Schätzung a2(x) Bei Computer-Programmen und Taschenrechnern, die für em n-Tupel x eme "Standardabweichung" berechnen, sollte man sich vergewissern, ob a oder a(x) gex meint sind, weil dies nicht einheitlich gehandhabt wird. Die Varianz des Schätzers a2 (X) (9) mit - die sich sich aus dem nachfolgenden Theorem ergibt - konvergiert für n---+ oo gegen Null. Theorem: Erwartungswert und Varianz quadratischer Formen U = (U , ... , Un) sei ein Vektor unabhängiger identisch verteilter Zufallsvariablen 1 U , ... , U mit Erwartungswert E(U.) = 0 und exisitierenden Momenten 1 n z für 1 < k < 4. Für eine symmetrische nxn Matrix A = (a . .) hat die quadratische Form ZJ U TAU= "E,"E,a .. U.U. i j ZJ Z J den Erwartungswert und die Varianz (a) E(UTA U) (b) Var(UTAU) Spur(A) ·m 2 (~aii) ·(m 4 -3m;) z + 2Spur(AA) ·m;. 8.3.3* Verteilung der Varianz-Schätzer im Normal-Verteilungsmodell Im Normal-Verteilungsmodell, d.h für läßt sich die Verteilung von a2(X) unter Verwendung der sogenannten ChiquadratVerteilung explizit angeben. Die Chiquadrat-Verteilung m E W ist eine spezielle Gamma-Verteilung (vgl. Abb. 1) 2 xm mit dem Freiheitsgrad Schätzen von Erwartungswert und Varianz (2) x! = 8-9 15012015 Gam(~\2) 0 Speziell ist x~ =Garn ( ~ , 2) die Verteilung des Quadrats einer N(O, 1)-Verteilung, doho (3) L(U) = N(O, 1) Aus der Faltungseigenschaft der Gamma-Verteilung (vgl. 6.2.2) ergibt sich, daß die m-fache Faltung von xm2 x{- also die Verteilung der Quadratsumme u; + 000 + U!für stochastisch unabhängig und identisch N(O, 1)-verteilte U , 000, Um- ist: 1 2 2 2 (4) U1, 000, Um u::--d N(O, 1) U1+ooo+Um "'X m 2 Hieraus ergibt sich die Verteilung der Varianz-Schätzung 5 (X) für bekanntes p, 0 n (5) n 0o-2 (X) = .l 0 a2 J-L a2 bzwo 2:: (Xo-p,)2 z "' X2 0 z=l 10 5 0 0 20 15 n 25 Abbo 1: Dichten der x2 -Verteilung für die Freiheitsgrade m = 1, 3, 5 und 100 m 2 Und für unbekanntes p, erhält man als Verteilung der Varianz-Schätzung a (X) (was hier aber nicht bewiesen wird): a2 2 "'--ox n-1 n-1 (6) n 1 0 - a2 - 2 l:(Xo-X) z i=1 n-1 oa2(X) a2 "' 2 X n-1 0 bzwo Schätzen von Erwartungswert und Varianz 8.4* 15.12.15 8-10 Schätzung der Schiefe Die Schätzung der Schiefe e3 : = eiX) von X - sofern diese existiert - ist gegeben durch die Schätzfunktion g3 , die jeder Realisierung x = (xl' ... , xn) E IR n die Schiefe der empirischen Verteilung P von x zuordnet, d.h. nach 7.7.2 (7) X Bei den Dichten in 4.4.2 Abb. 4 ist der angegebene Erwartungswert 1-L bzw. die Standardabweichung a und Schiefe e3 der log-Normalverteilunggerade die aus den beobachteten Daten berechnete Schätzung ;l bzw. 8.5* a und g3. Schätzung der Korrelation und Regressionsgeraden Wir knüpfen an die Betrachtungen aus 7.8.4 an und interessieren uns jetz für die Schätzung des linearen Zusammenhangs zweier reeller Zufallsvariablen X und Y. Unser Ausgangspunkt sind jetzt n unabhängige Wiederholungen von (X,Y), also (1) (X1,Y1) , ... , (Xn ,Yn) u::--d (X,Y). Die beobachteten Realisierungen x. =X.(w) und y. = Y .(w) für i = 1, ... , n fassen wir z z z z wieder als n- Tu pel zusammen (2) Als Schätzung der gemeinsamen Verteilung P von (X,Y) verwenden wir die empiri- sche Verteilung P von (x,y) = ((xl'y 1), ... , (xn,yn)) E (IRxiRt, die auf dem Träger T = { (x .,y.) I i = 1, ... , n} definiert ist durch die Zähldichte (vgl. 1.2.4) z z (3) 1 A P{(x.,y.)} == -·#{k=1 z z n nl(xk,yk)=(x.,y.)} z z = relative Häufigkeit des Paares (x .,y.) im Tupel (x,y). z z 1 ••• 1 Man beachte aber, daß die geschätzte Verteilung P immer eine diskrete Verteilung (mit endlichem Träger) ist, selbst wenn die Verteilung P von (X,Y) stetig ist. Trotzdem läßt sich zeigen (was wir hier nicht tun werden), daß P eine "gute" Schätzung für P ist, die für wachsendes n immer besser wird. Zur Schätzung des Korrelationskoeffizienten e= Corr(X,Y) sowie der Koeffizienten a und b der Regressionsgeraden aus 7.8.4 verwendet man deshalb einfach die zugehörigen Parameter der geschätzten Schätzen von Erwartungswert und Varianz Verteilung P, 15.12.15 8-11 Zur Bestimmung dieser Schätzungen gehen wir schrittweise von und beginnen mit den Schätzungen der Erwartungswerte 1-Lx = E(X), 1-Ly = E(Y) und der Varianzen a;= Var(X), a;= Var(Y), deren Existenz natürlich voraussgesetzt wird. Zunächst interpretieren wir (x,y) als eine Abbildung (x,y): {1, ... , n}-----+ T mit (x,y)(i) = (x.,y.). Ist U eine Zufallsvariable mit diskreter Gleichverteilung P =DG(n) z z n auf {1, ... , n}, so hat das Paar (x,y)(U) = (x(U), y(U)) die Verteilung P, und für jede Funktiong:T-----+IR ergibt sich der Erwartungswert vong((x,y)(U)) mit 7.2Satz 1 zu n E[g((x,y)(U))] = 1.n (4) 2: . z=l g(x.,y.). z z Wählt man speziell für g die Projektion 7r 1 bzw. 7r 2 auf die erste bzw. zweite Kom- ponente so ergeben sich die Schätzungen (LX bzw. 4y von 1-Lx bzw. 1-Ly als Erwartungswerte von x(U) bzw. y(U) als Mittelwerte der x- bzw. y- Werte zu n n 1 'I\' 1 'I\' (5) 1-L =-uy.==y. 1-Lx = n u xi =: x ' Y n z A A i=l i=l Und hieraus ergeben sich die Schätzungen a; und o-; der Varianzen a; und a; als Varianzen von x(U) und y(U) n (6) mit 2 Sxx= l:(x.-x) z 0 z=l n mit 2: (y z.- y)2 Syy = 0 z=l Betrachten wir nur X bzw. Y als einzelne Zufallsvariable, so ergeben sich hier dieselben Schätzungen wie in 7.7.2. Dies liegt daran, daß die Verteilung von x(U) bzw. y(U) wieder die empirische Verteilung des Tupels x bzw. y ist. Als Schätzung der Covarianz "( = Cov(X, Y) bzw. des Korrelationskoeffizienten von X und Y verwenden wir die Covarianz bzw. den Korrelationskoeffizienten von x(U) und (7) (8) y(U) n 1 = 1.n Sxy e= A mit Sxy = l:(x.-x)(y.-y) z z i=l Sxy JSxx Syy Aus den obigen Schätzung ergeben sich die Schätzungen der Regressionsgeradenf(X) = a + ßX von Y a und ßfür die auf X mit 7.8.4 (8) zu Parameter Schätzen von Erwartungswert und Varianz 15.12.15 Sxy Sxx ' (9) 8-12 !f-ßx. Die geschätzte Regressionsgerade f(x) = a + ßx wird auch als Regressions- 1 Aus- gleichs- oder Trendgerade für die Punkte (xl' y ), ... , (xn' yn) bezeichnet. Zur Interpreta1 tion dieser Regressionsgeraden erinnern wir uns daran, daß die Koeffizienten ß sich a und als Minimalstelle des erwarteten quadratischen Prognose-Fehlers 7.8.4 (3) ergeben, der für die hier vorliegende empirische Verteilung P bzw. für die Zufallsvariablen x(U) und y(U) nach (4) folgende Gestalt hat n 2 2 (10) E{(y(U)- [a+bx(U)l) } = 1.n .2:= (y.[a+bx.l) . z z z=l Folglich minimieren die Schätzungen (&, ß) die folgende Summe der quadratischen Abweichungen der y-Werte von den unter Verwendung der Geraden f(x) =a+bx prognostizierten Funktionswerten f( x.) (vgl. auch Abb.J) z n 2 SQ(a,b) = 2:= (y.[a+bx.l) . z z 0 z=l Die Minimierung von SQ( a, b) ist als Methode der kleinsten Quadrate bekannt. Sie wird auch ohne den hier zugrunde liegenden stochastischen Hintergrund auf beobachtete (x, y)-Datenpaare angewandt. Formal läßt sich diese Regressionsgerade f(x) =a+ßx immer aus beobachteten (x,y)-Werten bestimmen sofern Sxx>O ist, d.h. mindestens zwei x-Werte verschieden sind. Schätzen von Erwartungswert und Varianz Statlab 1985: n=100 Kinder :0 120 Statlab 1985: n= 100 Kinder 120 • •• c: ::l • • tf ~ 1 00 • ~ ö.:;, c: ~ 80 8-13 15.12.15 • • • • ""C c: "2 :E 60 u ·;:: ID Cl 40 40 46 48 50 52 54 56 58 60 Größe : Kind (Kontrolle) [Zoll] 120 ~ 00 ~ ~ ~ w 00 ~ Größe: Kihd (Kontrolle) [Zoll] • •• • ~ 62 ::0 120 • •• c: • ::l • • 0 a.. ~100 ~ • ec ~ 80 -g • •• y •• • "2 .E0 60 -~ Cl 40 40 46 48 50 52 54 56 58 60 Größe: Klnd (Kontrolle) [Zoll] 62 ~ ~ w ~ ~ ~ ~ 00 ~ Größe: Kind (Kontrolle) [Zoll) Abb. 1: Beobachtete Daten zum Zusammenhang von Größe und Gewicht im Alter von 10 Jahren aus einer amerikanischen Studie über Kindesentwicklung aus J.L. Hodges, D. Krech, R.S. Crutchfield (1975). StatLab: an empirical introduction to statistics. McGraw-Hill, New York. Dargestellt sind die Prognose-Fehler y.-[a+bx.] (oben z z links als Strecken) und ihre Quadrate (als Flächen) für einige Punkte bei drei verschiedenen Geraden. Unten links die Mittelwertsgerade f( x) = y (d.h. a = y, b = 0) und rechts die Regressionsgerade f(x) = a + ßX. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9. 28.1.16 9-1 Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz Zur Motivation der folgenden Ausführungen betrachten wir - wie im Kapitel 8 eine Stichprobe X , ... ,Xn von unabhängigen Wiederholungen einer interessierenden 1 Zufallsvariablen X: (.f2, d, P)-----+ IR mit Erwartungswert p, und Varianz a 2 > 0. Den zugehörigen Schätzer des Erwartungswerts n (1) Jl(X(n)) = x(n) = ~ 2: Xi i=1 indizieren wir jetzt zusätzlich mit dem Stichprobenumfang n, weil wir uns hier für den Grenzübergang n---+ oo interessieren. Wir haben bereits festgestellt, daß die Varianz des Mittelwerts x(n) für n---+ oo gegen Null konvergiert (2) lim n---+oo Var(x(n)) = 0 ' und somit streut der Mittelwert x(n) für wachsendes n immer geringer um seinen Erwartungswert p, (vgl. Abb. 8.1). Unter Verwendung der in 9.1 zu definierenden Konvergenz nach Wahrscheinlichkeit läßt sich dann zeigen, daß x(n) für n---+ oo nach Wahrscheinlichkeit gegen p, konvergiert (Schwaches Gesetz der großen Zahlen). Für statistische Analysen spielt die Verteilung des Mittelwerts x(n) eine entscheidende Rolle. Zwar kann man die Verteilung von x(n) prinzipiell aus der von X bestimmen (vgl. z.B. 8.2) aber bei konkreten Anwendungen hat man (z.B. bei stetigem X) typischerweise keine klaren Vorstellungen über die vorliegende Verteilung von X. Deshalb ist man an Approximationen für die Verteilung von x(n) interessiert, die mit wachsender Anzahl n von Wiederholungen besser werden. In 8 Abb. 1 sieht man bei zwei sehr unterschiedlichen Verteilungen von X, daß sich die Verteilung der Mittelwerte x(n) für wachsendes n immer ähnlicher werden. Dies wird noch deutlicher, wenn man die Dichte des standardisierten Mittelwerts (3) betrachtet. In Abb. 1 (unten) erkennt man, daß sich die Dichte von rJn) für wachsendes n immer weniger von der Dichte der Standard-Normalverteilung N(O, 1) unterscheidet. Der Hintergrund hierfür ist der Zentrale Grenzwertsatz, der in diesem speziellen Fall aussagt, daß die Verteilung von u(n) für n---+ oo in einem in 9.2 prazlsierten Sinn gegen die Verteilung N(O, 1) konvergiert. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9-2 Abb.J: Dichte des standardisierten Mittelwerts u(n) und N(O,l)-Dichte (dünne Linie) X ist diskret gleichverteilt (Würfel) X ist Gamma-verteilt 0.4 0.4 n=1 \ I \ \ 1/ I \ I \ \ [\. ...______ 0.0 ---------3 n= 1 0 0 ...J.._-----r -------=---,"'----.----r---r----r----=~= -2 -1 0 1 2 3 -3 standardisierter Mittelwert 0 -2 -1 0 1 2 standardisierter Mittelwert 0.4 3 0.4 .-.._ n=4 I r: I ~ I I I 1\ II I 0.0 ~ I _A -3 -2 M ~-1 0 1 2 standardisierter Mittelwert 3 -3 -2 -1 0 1 2 standardisierter Mittelwert 3 -3 -2 3 0.4 -3 -2 -1 0 1 2 standardisierter Mittelwert 3 -1 0 1 2 standardisierter Mittelwert 0.4 \ n= 64 \ -3 -2 -1 0 1 2 standardisierter Mittelwert 3 -3 -2 -1 0 1 2 standardisierter Mittelwert 3 Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9.1 28.1.16 9- 3 Konvergenz nach Wahrscheinlichkeit und Schwaches Gesetz der großen Zahlen Wir betrachten jetzt eine Folge von reellen Zufallsvariablen X : (.f2, d,P)-----+ IR n mit nEW. Definition: Die Folge (Xn ) nEm li.T reeller Zufallsvariablen heißt konvergent nach Wahrscheinlichkeit oder stochastisch konvergent gegen a E IR, wenn gilt (1) Für jede offene Umgebung U von a gilt: lim P{X EU}= 1 n---+oo lim P{ X bzw. n n---+oo n \t U} = 0. Eine äquivalente Formulierung von (1) ist (1) 1 Für jedes c > 0 gilt: lim P{IXn -al<c} = 1 lim P{IXn -al>c} = 0. - bzw. n---+oo n---+oo Bemerkung: Der Grenzwert a ist durch (1) bzw. (1) 1 eindeutig bestimmt. Schreibweise: X ----+ a p n oder n---+ oo X p n Die Bedingung (1) hängt von der Zufallsvariablen X P Xn -----+ n a. nur über deren Verteilung =L(X) ab, weilP{X EU} =P (U). n n Xn Aus der Chebyshev-Ungleichung erhält man ein hinreichendes Konvergenzkriterium E(Xn ) = (2) p, für alle n E W, lim Var(X ) = 0 n---+oo n =? X n P n---+ oo 1-L · Und als Anwendung hierfür ergibt sich: Schwaches Gesetz der großen Zahlen: Sei (Xn ) nEm li.T eine Folge stochastisch unabhängiger und identisch wie X: (.f2, d, P)-----+ IR verteilter Zufallsvariablen deren Erwartungswert p, = E(X) und Varianz a 2 = Var(X) existieren. Dann konvergiert der Mittelwert x(n) der ersten n Zufallsvariablen nach Wahrscheinlichkeit gegen p,: (3) X (n) ---=-P-----+ n---+ oo 1-L (schwaches Gesetz). Zusatz: Die Existenz der Varianz ist nicht1 notwendig (vgl. Georgi 20151 Satz 5.7). Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9- 4 Fast-sichere Konvergenz und Starkes Gesetz der großen Zahlen* Das Schwache Gesetz der großen Zahlen läßt sich auf verschiedene Arten verallgemeinern, von denen wir hier nur das starke Gesetz (ohne Beweis) angeben, welches eine stärkeren Konvergenzbegriff verwendet. Eine Folge X : (.f2, d,P)-----+ IR mit n E W n heißt fast-sicher konvergent gegen a E IR, wenn gilt (vgl. hierzu auch Abschnitt 9.7) (4) P { n---+oo lim X = a } = 1 , n d.h. p { wE n I n---+oo lim X (w) = n a} = 1 0 Die fast-sichere Konvergenz impliziert die Konvergenz nach Wahrscheinlichkeit (aber nicht umgekehrt) - was hier aber nicht bewiesen wird - ein Beweis steht z.B. im Lehrbuch von Krengel (2005). Beide Konvergenzbegriffe lassen sich übrigens auf den Fall erweitern, daß der Grenzwert eine Zufallsvariable X: (.f2, d,P)-----+ IR statt einer reellen Zahl a ist. Hierzu ersetzt man in (4) bzw. (1) 1 lediglich a durch X. Das starke Gesetz der großen Zahlen von Kolmogorov verschärft die Konvergenzaussage des schwachen Gesetzes (fast-sichere Konvergenz statt Konvergenz nach Wahrscheinlichkeit). Starkes Gesetz der großen Zahlen von Kolmogorov: Sei (Xn ) nEm li.T eme Folge stochastisch unabhängiger und identisch wie X: (.f2, d,P)-----+ IR verteilter Zufallsvariablen deren Erwartungswert p, = E(X) existiert. Dann konvergiert der Mittelwert x(n) der ersten n Zufallsvariablenfast-sicher gegen p,: (5) P{wE.f!llim x(n)(w)=p,} = 1 n---+oo (starkes Gesetz). Einen Beweis findet man in Lehrbüchern der Wahrscheinlichkeitstheorie, z. B. in Bauer (1991) sowie Gänssler und Stute (1977). Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9.1.1 9- 5 28.1.16 Eigenschaften der Konvergenz nach Wahrscheinlichkeit Wir wollen jetzt noch einige später benötigte Eigenschaften der Konvergenz nach Wahrscheinlichkeit herleiten. Hierzu ist es zweckmäßig, diesen Konvergenzbegriff auf eien Folge K-dimensionale Zufallsvektoren X : (.f2, d,P)-----+ IRK zu erweitern. n Definition: Die Folge (X n ) nEm 1\.T K-dimensionaler Zufallsvektoren heißt konvergent nach Wahrscheinlichkeit oder stochastisch konvergent gegen a E IRK, wenn gilt (1) Für jede offene Umgebung U von a gilt: lim n---+oo P{X EU}= 1 lim P{ X \tU} = 0. bzw. n n n---+oo Eine äquivalente Formulierung von (1) ist (1) 1 Für jedes c > 0 gilt: lim P { n---+oo II X n - a II < c} = 1 bzw. II X n - a II > c} = - lim P { n---+oo 0. Bemerkung: Der Grenzwert a ist durch (1) bzw. (1) 1 eindeutig bestimmt. Schreibweise: X p n ----+ n---+ oo a X oder p n -----+ a. Die stochastische Konvergenz K-dimensionaler Zufallsvektoren läßt sich auf die reeller Zufallsvariablen zurückführen: (2) X p n II Xn- a II ----+a n---+ oo _P-----+ 0. n---+ oo Für eine meßbare Abbildung g: IRK-----+ IR m gilt (3) g stetig in a , X n p ---==-----+ a n---+oo Die stochastische Konvergenz von Zufallsvektoren X = (X , ... ,X K) n n1 n gegen a = (a , ... , aK) ist äquivalent zur Konvergenz aller Komponenten-Folgen: 1 (4) X p n ----+ n---+oo a X nk P n---+oo ak für alle k = 1, ... ,K. Aus der Stetigkeit der arithmetischen Operationen ergeben sich weiteren Eigenschaften: Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz (5) 28.1.16 9- 6 Für reelle Zufallsvariablen X , Y und a, b E IR gilt: n n y ---=p=-----+ b X ---=p=-----+ a n n---+oo n ' X n---+oo + y n ---=P=-----+ a±b n---+ oo n- X .y n Wenn alle Zufallsvektoren X p n n---+ oo a·b konstant (und somit Einpunkt-verteilt) sind, so n stimmt die Konvergenz nach Wahrscheinlichkeit überein mit der üblichen Konvergenz von Vektoren (6) Ist X n a E IRK konstant für allen E W, so folgt: n X p n -----+ n---+ oo a lim n---+oo a n = a. Identifiziert man einen konstanten Zufallsvektor mit seinem konstanten Wert, so umfaßt die Konvergenz nach Wahrscheinlichkeit als Spezialfall die Konvergenz von Vektoren. Insbesondere gilt z.B. (5) auch für X (7) Für reelle Zufallsvariablen Y und a , a, b E IR mit a -----+ a gilt: n n n p y n 9.1.2 a und lautet dann: n n ----+ n---+ oo p b -----+ n---+ oo a± b, p a .y -----+ a · b. n n n---+oo Stochastische Konvergenz und Konsistenz von Schätzern Für eine interessierende Zufallsvariable X: (.f2, d,P)-----+ IR mit Erwartungswert 2 p, = E(X) und Varianz a = Var(X) betrachten wir jetzt - wie im schwachen Gesetz li.T stochastisch unabhängiger und identisch wie X der großen Zahlen - eine Folge (Xn ) nEm verteilter Zufallsvariablen. Für festes n E W entspricht x(n) = (X1' ... ,Xn) einer Stichprobe aus n unabhängigen Wiederholungen von X, wie wir sie im Kapitel 8 betrachtet haben. Das schwache Gesetz der großen Zahlen besagt, daß der Schätzer (1) n Jl(X(n)) = x(n) = 1. n 2:= . Z=l X. z des Erwartungswerts p, aus den ersten n Wiederholungen x(n) = (X1' ... ,Xn) nach Wahrscheinlichkeit gegen p, konvergiert (2) p n----+ oo 1-L · Diese Eigenschaft wird auch als Konsistenz des Schätzers bezeichnet. Allgemein nennt man einen Schätzer für einen Parameter von L(X) konsistent, wenn der Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9- 7 Schätzer für jede Anzahl n von Wiederholungen definiert ist und nach Wahrscheinlichkeit gegen den zu schätzenden Parameter konvergiert. Die Varianzschätzung aus 8.3.1 für bekanntes 1-L ist ebenfalls konsistent für o? p (3) n---+ oo Und die Varianzschätzung aus 8.3.2 für unbekanntes o-2(x(n)) = n~l ~ (Xi-x(n))2 z (4) 1-L 2 a . ist auch konsistent für a 2: p n---+ oo a 2 Dies gilt auch für die nicht-erwartungstreue Schätzung aus 8.3.2 (7) p (5) n---+ oo 2 a . Die Eigenschaft der Konsistenz vererbt sich auf stetige Funktionen des Schätzers, also etwa auf die zu (3) - (5) gehörigen Schätzungen der Standardabweichung wie z.B. p (6) n---+ oo a. Unter Verwendung der Eigenschaften der Konvergenz nach Wahrscheinlichkeit läßt sich weiter zeigen, daß auch der Schätzer aus 8.3.3 für die Schiefe e3 : = eiX) von X konsistent ist p (7) 9.2 n---+ oo Verteilungskonvergenz und Zentraler Grenzwertsatz Für eine Folge reeller Zufallsvariablen X : (.f2, d,P)-----+ IR mit n E W wollen wir n jetzt die Konvergenz nach Verteilung gegen eine Zufallsvariable X: (.f2, d,P)-----+ IR definieren. Bevor wir eine formale Definition geben, wollen wir unsere Wunschvorstellung zu diesem Konvergenzbegriff erläutern. Wünschenswert wäre es, wenn die Folge der Verteilungen PX = L(X ) punktweise gegen die Verteilung P = L(X) konn n X vergiert, d.h. wenn für jede Bore1-Menge BE IB die Konvergenz gilt (1) n---+ oo Leider ist diese Konvergenz für alle BE IB im allgemeinen eine zu starke Bedingung und es hat sich als zweckmäßig erwiesen, sie auf solche B einzuschränken, deren topalogischer Rand BB=B-\Bo unter Pxdie Wahrscheinlichkeit Null hat, d.h. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz (2) 28.1.16 9- 8 P{XEBB} = PjßB) = 0. Speziell für ein Intervall B = (-oo, a] reduziert sich (1) auf die punktweise Konvergenz der Verteilungsfunktionen FX von X gegen die Verteilungsfunktion F von X n n (3) X n---+ oo Fja) = P{X<a}, und die Bedingung (2) für den Rand 8 B = { a} besagt, daß P {X= a } = 0 gilt, d.h. die Verteilungsfunktion Fx ist in a stetig. Man kann zeigen (worauf wir verzichten), daß aus der Konvergenz (3) der Verteilungsfunktionen in allen Stetigkeitsstellen a von Fx auch die Konvergenz (1) für alle Bore1-Mengen B mit der Bedingung (2) folgt. Definition: Seien (Xn ) nEm bzw. X reelle Zufallsvariablen mit Verteilung 1\.T (Px)n E lN bzw. px und Verteilungsfunktion (Fx)n E lN bzw. Fx· Dann heißt (X ) konvergent nach Verteilung oder verteilungskonvergent gegen X 1 wenn eine n der beiden äquivalenten Bedingungen erfüllt ist (VK) Für alle Stetigkeitsstellen a E lR von Fx gilt P {Xn < a } = FX (a) n (VK)' n---+ 00 Fja) = P {X< a } . Für alle BE IB mit P {XE 8 B} = Pj BB) = 0 gilt P{ Xn EB} = Pxn (B) Schreibweise: X n---+oo oder n Px(B) = P{ X EB}, L(Xn) (n---+oo) L(X) Die Klammern in "(n---+oo)" sollen dabei andeuten, daß der Zusatz "n---+ oo" bei Bedarf angegeben oder fortgelassen wird. Gelegentlich verwendet man auch die ge- mischte Schreibweise X n ~ L(X). Bei der Verteilungskonvergenz ist die Vertei- lung des Grenzwert eindeutig bestimmt: L(X) = L(X'). Beispiel: Dirac-Verteilungen Die Folge X ,. . .__ Dirac(.l) ist verteilungsskonvergent gegen X,.....__ Dirac(O), weil gilt: n n a<O FX (a) = 0 =Fja) für alle n E W, a>O FX (a) = 1 =Fja) für alle n > .l. -a n n Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9- 9 Da FX nur im Punkt a = 0 unstetig ist, ist daher (VK) erfüllt: für a :;= 0. n---+ oo Für den Punkt a = 0 gilt die Konvergenz allerdings nicht, weil für alle n E W. D Wir formulieren jetzt den nach Jarl Waldemar Lindeberg (1876-1932) und Paul Pierre Levy (1886-1971) genannten Zentralen Grenzwertsatz für unabhängige und identisch verteilte Zufallsvariablen. Zentraler Grenzwertsatz von Lindeberg und Levy: Sei (Xn ) nEm li.T eine Folge stochastisch unabhängiger und identisch wie X verteilter Zufallsvariablen deren Erwartungswert p, = E(X) und Varianz a = Var(X) > 0 existieren. Die Standardisierung der Summe X~) =X 2 bzw. des Mittelwerts x(n) = ~X~) der ersten n Zufallsvariablen 1 + ... +Xn (4) ist dann verteilungskonvergent gegen die Standard-Normalverteilung (5) u(n) (6) P{ u(n) <u} L n---+ oo n---+ oo N(0,1) bzw. <I>(u) für alle u E IR mit <I> als Verteilungsfunktion von N(0,1). Zusatz 1: Weiter gilt- wobei"()" für"<" oder "<"steht: (7) P{ u () u(n)} (8) P{ u1 () u(n) () u 2 } n---+ oo n---+ oo 1- <I>(u) für alle u E IR, <I>(u~- <I>(u ) 1 für alle u1 < u 2 . Zusatz 2: Die Konvergenzen in (6), (7) bzw. (8) sind sogar gleichmäßig in u bzw. in u und u . 1 2 Einen Beweis findet bei Georgii (2004) und Krengel (2005) sowie (in allgemeinerer Form) in Lehrbüchern der Wahrscheinlichkeitstheorie, z. B. Bauer (2002) sowieGänssler und Stute (1977). Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 10 Man beachte, daß (6) für alle u E IR gilt, weil P auf ganz IR stetig ist. Die Konvergenzaussagen (6) - (8) kann man zur approximativen Berechnung von Intervall-Wahrscheinlichkeiten für den Mittelwert x(n) verwenden, z.B. < x(n) (=) < a } = P{ u (=) < U' Tin) < } ,,......,. . . , P{ a 1 (=) (=) u 2 2 1 (9) mit u.= Jn[a.-tt] z a z für i = 1,2. Diese Approximation kann man wegen <P(-oo) = 0 bzw. <!>( +oo) = 1 auch im Grenzfall a =- oo bzw. a = + oo verwenden, weil dann auch u =- oo bzw. u = + oo gilt. 1 2 1 2 Man kann (9) auch suggestiv schreiben als (10) P{ a 1 ( ) x(n) () a 2 } ~ P{ a 1 < N(tt, ~ a 2 ) < a 2 } wobei N(tt, l. a 2) für eine Zufallsvariable mit dieser Normal-Verteilung steht. Da (10) n für alle -oo < a < a < +oo gilt, sagt man auch, daß der Mittelwert x(n) approxima1 2 tiv normalverteilt ist und schreibt kurz: (12) Entsprechend ist die Summe X~) =X1 + ... +Xn approximativ normalverteilt (13) Zur Genauigkeit der Approximationen -wie z.B. (9) -gibt es Abschätzungen, die auf A. C. Berry (1941) und C. G. Esseen (1945) zurückgehen und hier nicht bewiesen werden. Theorem von Berry und Esseen: Unter den Voraussetzungen des Zentralen Grenzwertsatzes gilt mit dem 3. absoluten zentralen Moment v : = E( IX- ttl 3 ) 3 von X und der Konstanten c = 0.7995 (14) (15) (16) sup uE 1R sup uE 1R u,~~JR I P{ u () I P { u(n) < u} - <!>( u) I < -c· a-3 . v3' Vn I P{ u< u(n)}- [1-P(u)]l < -c· a-3 . v3' Vn u(n) () v}- [<P(v) -P(u)]l < 2c -3 - · a . v3. Vn Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 11 Hierbei soll v natürlich endlich sein (d.h. es soll existieren), weil sonst die Abschät3 zungen trivial sind. Eine unmittelbare Folgerungen aus diesen Abschätzungen ist, daß die Konvergenzen (6) - (8) gleichmäßig sind (in u, v) und die Ordnung )n haben. Im ursprünglichen Result (14) von Esseen ist die Schranke c = 7.59 angegeben (vgl. FeZZer 1971, S. 542). Die oben angegebene Schranke c = 0.7995 stammt von van Beek (1972), vgl. Gänssler-Stute (1977), S. 167, wo auch gezeigt wird, daß die Konstante c nicht kleiner als (21rr1/ 2 ~ 0.4 sein kann. Die Abschätzungen (15) und (16) sind Folgerungen aus (14). Für das 3. absolute zentrale Moment v von X gibt es typischerweise keine einfache 3 explizite Darstellung. Wegen lxl 3 < 1 + x 4 ist aber mit (17) Wenn das (meist leichter zu bestimmende) 4. zentrale Moment p, von X endlich ist1 4 so kann man v zumindest in (14) - (16) durch 1 + p, ersetzen, was die Abschätzung 3 4 allerdings vergröbert. Nach (13) läßt sich die n-fache Faltung cL(X~)) der Verteilung L(X) stets durch eine Normalverteilung approximieren. Für einige der bisher behandelten Verteilungen L(X) geben wir in den folgenden Abschnitten weitere Details dieser Approximation. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9.3 Grenzwertsätze für Binomial-Verteilungen 9.3.1 Die Normal-Approximation der Binomial-Verteilung 9 - 12 Eine der wichtigsten (und vermutlich am längsten bekanntesten) Approximationen einer Verteilung ist die Normal-Approximation der Binomial-Verteilung (0) 2 mit a =np(1-p), n die auf Abraham de Moivre (1667-1759) und Pierre-Simon Laplace (1749-1827) zurückgeht. Binomial-Grenzwertsatz von de Moivre und Laplace: Es sei 0 <p < 1 und für n E W sei X eine B(n,p)-verteilte Zufallsvariable mit n 2 a : = Var(X ) = n p (1- p) (1) n n und der Standardisierung u(n) : = _1 (2) an Dann gilt u(n) (3) L n---+ oo [X _ 1-L n J n N(0,1), d.h. für beliebige u < u gilt 2 1 p { ul < u(n) < u2} (n---+ oo) <!>( u2) - <!>( ul) 0 Dieses Resultat stellt sich heute als ein Spezialfall des Zentralen Grenzwertsatzes für B(1,p)-verteiltes X - dar, obwohl es historisch früher bekannt war. Einen elementaren Beweis (auf den wir hier verzichten) findet man z.B. bei Krengel (1998). Unter Verwendung des 3. absoluten zentralen Moments der B(1,p)- Verteilung (4) mit q= 1-p sowie der Funktion (5) h(a) == l_ 2a mit a und der Konstanten c = 0.7995 lauten die Abschätzungen von Berry und Esseen (6) sup IP{rfn)<u}-<I>(u) I < uElR (7) sup IP{u<rfn)}-[1-P(u)]l < uElR ·~n·h(a), V'" ·~n·h(a), V'" Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz (8) sup u,vElR IP{u(<)u(n)(<)v}-[<P(v)-<P(u)]l < - - 28.1.16 9 - 13 2 ~-h(a). yn Da h(a) streng fallend in a ist,jallen die oberen Schranken in (6) - (8) (bei festem n) wenn a wächst. Insbesondere wird h(a) minimal wenn a maximal ist, d.h. für p = ~ und somit a = ~ und h( ~) = 1. Für p---+ 0 bzw. p---+ 1 folgt a---+ 0 und somit h( a)---+ oo. Bei der aus (0) bzw. (3) resultierenden Approximation von Binomial-Wahrscheinlichkeiten (9) P{ B(n,p) < a} ,......, ,......, P{ N(p,n,a~) < a} (10) P{ B(n,p) > a} ,......, ,......, P{ N(p,n,a~) > a} (11) P{ a1 < B(n,p) < a2 } ,......, ,......, P{ a1 < N(p,n,a~) < a2 } ist zu beachten, daß die Binomial-Verteilung eine diskrete Verteilung ist. Für beliebige k E {0, ... , n} gilt z.B. (vgl. auch Abb. 1-2 Mitte) (12) für alle 0 < r < 1 P{B(n,p)<k+r} = P{B(n,p)<k} Folglich ist die linke Seite in (9) konstant für alle a E [k, k + 1) 1 während die rechte Seite in (9) mit a variiert. Damit ist zunächst unklar, welchen Wert a man in (9) verwenden sollte, um die Binomial-Wahrscheinlichkeit (12) möglichst gut zu approximieren. Interpretiert man die Binomial-Wahrscheinlichkeit als Fläche in einem Dichte-Histogramm (vgl. Abb. 1-2 links) 1 so erscheint der Wert a = k + ~ als beson- ders günstig zur Approximation dieser Fläche durch die entsprechende Fläche unter der Normalverteilungs-Dichte. Aus diesen Gründen (vgl. Abb. 1-2 Mitte und rechts) sollte man bei der Approximation (9) - und analog bei (10) und (11) immer die folgende Approximation mit der sogenannten Stetigkeitskorrektur von ~ verwenden. Normal-Approximation von Binomial-Wahrscheinlichkeiten für großes n (13) P{ B(n,p) < k} ,......, ,......, <P( v) mit 1 [k+.l-p,] v=an 2 n (14) P{ B(n,p) > l} ,......, ,......, 1-<P(u) mit u=-1 [l-1.-p, (15) P{l<B(n,p) <k} ,......, ,......, <P( v) - <P(u) für l< k mit k, l E { 0, ... , n} , f-Ln=np, an a n2 =np(1-p). 2 n l Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz -4 -2 0 4 2 -2 -4 4 2 0 -2 -4 9 - 14 28.1.16 4 2 0 1 1\ p = 50% I ' -4 0 0 -4 4 2 _/ -1 2 0 -2 2 0 -4 4 2 0 -2 n= 4 / p = 50% /: p = 50% LJ Ii j 4 2 0 ........... ,, p = 50o/o n= 1 ;] II 0 -1 2 -2 n =1 __" 0 I p = 50% ___L I\ -1 ~- p = 50% n=1 i n= 4 n=4 I 0 - 0 -2 0 2. 4 6 -2 0 2 4 6 -2 0 2 4 6 -4 -2 0 2 4 -4 -2 0 2 4 -4 -2 0 2 4 ..... r/.I p = SO% .,.... ~ n == 16 J p = SO% +\ + I J -4 -2 JI f-h 10 5 0 p = 50% n = 16 'T \ _j r I ~ I 0 I I ' ' p == 50% I 2 0 4 n= 64 / ..- ,.......... 0 15 ~- 0 5 -4 15 10 -2 n = 16 2 0 .,.i p= 50% I I l -- 5 0 -4 4 10 -2 2 0 p = 50% f t n = 64 15 4 I" n = 64 [ l t .rI .1 ..r ~ 0 15 20 25 30 35 40 45 50 15 20 25 30 35 40 45 5( 15 20 25 30 35 40 45 5( Abb. 1: Dichte (links) und Verteilungsfunktion F (Mitte, rechts) von X"' B(n,p) bzw. von der Standardisierung U =(X- p,)ja (obere x-Achse) für p = 0.5 und einige n. Dünn eingezeichnet ist die Dichte (links) bzw. Verteilungsfunktion der approximierenden Normalverteilung N(f.L, a 2 ) (Mitte) und N(0- ~, a 2 ) (rechts) mit der Stetigkeitskorrektur ~,die in den (relevanten) Sprungstellenk = 0, ... , n von F besser approximiert. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz -2 -4 2 0 4 -4 2 0 -2 1\ I\ n= 1 p = 15% -4 n= 1 -1 2 0 4 -2 -4 o~~----~----~--- -1 0 2 0 4 -4 p = 15% -4 -2 -2 2 2 0 4 I r 2 0 r p = 15% 5 0 -2 -4 2 0 -4 -2 2 0 2 2 0 I [ n = 16 5 0 4 -4 4 : r n = 16 5 -2 -4 4 J 0 4 4 n= 4 0 p = 15% I I -2 2 0 -2 -4 2 0 p = 15% I 0 0 -2 n= 4 -2 4 2 n= 1 0 -2 0 -2 p = 15% o~~-~ =---~--~---- -1 -4 ___., - p =1 5% 4 9 - 15 28.1.16 -2 2 0 ... 4 ...; t: n = 64 p = 15% p = 15% 1 ! 5 10 \ r \ 0 F r p = 15% 15 20 0 5 n = 64 n = 64 1 10 I 15 20 0 5 10 15 20 Abb. 2: Dichte (links) und Verteilungsfunktion F (Mitte, rechts) von X"' B(n,p) bzw. von der Standardisierung U =(X- p,)ja (obere x-Achse) für p = 0.15 und einige n. Dünn eingezeichnet ist die Dichte (links) bzw. Verteilungsfunktion der approximierenden Normalverteilung N(p,, a 2 ) (Mitte) und N(p,- ~, a 2 ) (rechts). Wegen der Schiefe von B(n,p) ist die Approximation hier schlechter als im symmetrischen Fall in Abb. 1. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 16 9.3.2 Anwendung: Wahlumfragen Um den Stimmanteil p einer bestimmten Partei zu schätzen, werden bei einer telefonischen Blitzumfrage n = 100 unabhängige Befragungen von Wahlberechtigten durchgeführt. Die Anzahl X der Befürworter dieser Partei unter den n Befragten ist dann B(n,p)-verteilt. Für eine "kleine" Partei (z.B. Die Grünen) mit p = 8% sind die Elementar-Wahrscheinlichkeiten und die kumulierten Wahrscheinlichkeiten in folgender Tabelle zusammengestellt. Die "fehlenden" Werte k > 21 sind uninteressant, weil dort die Elementar-Wahrscheinlichkeiten zu klein sind und sich die kumulierten Wahrscheinlichkeiten im Rahmen der betrachteten Genauigkeit nicht mehr ändern. k P X<k} P X>k} P{X=k} 0 0,02% 0,23% 1,13% 3,67% 9,03% 17,99% 3032% 44,71% 59,26% 7220% 82,43% 89,72% 94,41% 97,18% 98,67% 99,42% 99,76% 99,91% 99,97% 99,99% 100,00% 100,00 % 99,98% 99,77% 98,87% 96,33% 90,97% 82,01% 69,68% 55,29% 40,74% 27,80% 17,57% 10,28% 5,59% 2,82% 1,33 % 0,58% 0 24% 0,09% 0,03% 0,01% 0,02% 0,21% 0,90% 2,54% 5,36% 8,95% 12,33% 14,40% 14,55% 12,93% 10,24% 7,28% 4,70% 2,76% 1,49% 0,74% 0,34% 0,15% 0,06% 0;02% 0,01% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Hierbei ist: Histogramm p, = E(X) = 8 (erwartete Anzahl) , 2 a = Var(X) = 7,36. Die Wahrscheinlichkeit, daß in der Umfrage höchstens 5% für die Partei stimmen (obwohl der wahre Stimmanteil sogar p = 8% ist), ergibt sich aus der Tabelle zu P{X<5} = 17,99% (entspricht markierter Fläche im Histogramm). Die Normal-Approximation mit der Stetigkeitskorrektur stimmt recht gut mit dem exakten Wert überein und ist ohne Stetigkeitskorrektur deutlich geringer: P{ X< 5} P{ X< 5} ~ ~ <P( -0,9215) <P( -1,1058) 17,84% (mit Stetigkeitskorrektur) 13,44% (ohne Stetigkeitskorrektur) Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 17 Für eine "große" Partei (z.B. CDU) mit p = 40% sind die Elementar-Wahrscheinlichkeiten zusammen mit den kumulierten Wahrscheinlichkeiten wieder für den interessierenden Bereich in folgender Tabelle zusammengestellt. k P {X<k} P{X>k} 22 23 Opl% 100 ,00 % 99,99 % 99,97 % 99 ,94 % 99,88 % 99,76 % 99,54 % 99,16 % 98 ,5 2 % 97,52 % 96,02 % 93,85 % 90 ,87 % 86,97 % 82 ,05% 76,14 % 69,32 % 61,78 % 53,79 % 45,67 % 37,75 % 30,33 % 23 ,65 % 17,89 % 13,11% 9,30 % 6,38 % 4,23 % 2,71% 1,68 % 1,00 % 0,58 % 0,32 % 0,17 % 0,09 % 0,04 % 0,02 % 0,01% 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 0,03 % 0,06 % 0,12 % 0,24 % 0,46 % 0,84 % 1,48 % 2,48 % 3,98 % 6,1 5 % 9,13 % 13,03 % 17,95 % 23 ,86 % 30,68 % 38,22 % 46,21% 54,33 % 62,25 % 69 ,67 % 76,3 5% 82,11% 86,89 % 90,70 % 93 ,62 % 95 ,77 % 97 ,29 % 98,32 % 99,00 % 99 ,42 % 99 ,68 % 99,83 % 99,91 % 99,96 % 99 ,98 % 99 ,99 % 100,00 % Hierbei ist: P{X=kr 0,01% 0,0 1% 0,03 % 0,06 % 0,1 2 % 0,22 % 0,38 % 0,63 % 1 00 % 1,51% 2,17 % 2,97 % 3 91% 4,91% 5,91% 6,82 % 7,54 % 7,99 % 8,1 2 % 7 92 % 7,42 % 6,67 % 5,76 % 4,78 % 3,81 % 2,92 % 2,15 % 1,52 % 1,03% 0,68% 0,42% 0,26% 0,15% 0,08% 0,04% 0,02% 0,01 % 0,01 % p, = E(X) = 40 , Histogramm 1 ~ I I I I I I I I I I I I I ~ I I I I 2 a = Var(X) = 24. Die Wahrscheinlichkeit, daß in der Umfrage mindestens 50% für die Partei stimmen (obwohl der wahre Stimmanteil nur p = 40% ist), ergibt sich zu: P{ X> 50} 2,71 % P{X>50} ~ <P(-1,9392) = 2,62% (lt. Tabelle entspricht markierter Fläche) 1 (Normal-ApproximationmitKorrektur) wobei sich ohne Stetigkeitskorrektur ein deutlich zu kleiner Wert ergibt: P{ X> 50} ~ <P( -2,0412) = 2,06% (Normal-Approximation ohne Korrektur). Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 18 9.3.3 Die Poisson-Approximation der Binomial-Verteilung Neben der Normal-Approximation der Binomial-Verteilung - die für hinreichend gro- ßes n gedacht ist, gibt es noch eine Poisson-Approximation von B(n,p) für extrem kleines p. Zur Formulierung des entsprechenden Grenzwertsatzes betrachten wir eine Folge B(n,p ) von Verteilungen, deren Erwartungswerte p, = np > 0 konstant sind, n n d.h. es ist p = l f-L· n n Poisson-Grenzwertsatz für Binomial-Verteilungen: Sei p, > 0 und p : = 1.. p, für n > p,. Dann konvergiert die Zähldichte n n (1) der Binomialverteilung B(n, p ) punktweise gegen die Zähldichte n (2) der Poisson-Verteilung Pois(p,) 1 d.h (3) b(kln,p n ) n---+ oo (4) P{ B(n,pn) < a} n---+ oo (5) B(n,p n ) n---+ oo für k = 0, 1, .... p(klp,) Folgerung: L P { Pois(p,) < a} für jedes a E IR Pois(p,) . Man beachte, daß nach (4) die Folge der B(n,p ) -Verteilungsfunktionen auch in der n Menge W der Unstetigkeitsstellen der Pois(p,)-Verteilungsfunktion noch punktweise 0 konvergiert. -Ergänzend zu (3) gilt folgende wichtige Abschätzung. Poisson-Approximation von Binomial-Wahrscheinlichkeiten für kleines p Für beliebige 0 <p < 1, n E W, p, = np > 0 und AC W gilt 0 (6) I P { B(n, p) E A} - P { Pois(p,) E A} I < Zusatz: Weiter gilt, wobei b(k I n, p) : = 0 für k > n (7) 2 np. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 19 Für die Praxis ergibt sich somit folgende Approximation der Binomial-Verteilung (8) B(n,p) ~ Pois(np) falls n p 2 klein ist wobei die Güte der Approximation nach (6) immer besser wird, je kleiner n p 2 ist. Dieses Resultat dient auch als Rechtfertigung dafür, daß bei einer konkreten Anwendung eine zufällige Anzahl X von Eintritten eines Ziel-Ereignisses in guter Näherung Poisson-verteilt ist, wenn das Ereignis eine sehr geringe Eintrittswahrscheinlichkeit p besitzt. Hierbei müssen n und p nicht unbedingt beide bekannt sein, weil für die Approximation (8) nur der Erwartungswert np benötigt wird. Wir geben hierfür drei Beispiele. - Eine andere Rechtfertigung für das Auftreten der PoissonVerteilung haben wir bereits in 6.2.4 kennengelernt. Leukämiefälle im Umkreis des Kernkraftwerks Krümmel: Die Wahrscheinlichkeit p, daß eine Person einer bestimmten Altergruppe (z.B. Kinder bis 14 Jahre) an Leukämie erkrankt ist sehr gering (vgl. auch 0.1). Unter der Annahme der Unabhängigkeit der Erkrankung bei n Personen (z.B. aus einer speziellen Region)) ist die Anzahl X der Erkrankungen unter diesen n Personen B(n,p)-verteilt. Da p sehr gering ist, kann man approximativ auch davon ausgehen, daß X eine Poisson-verteilung mit Erwartungswert 1-L = n p hat Asbestmessungen in Schulgebäuden: Bei einer in 0.2 beschriebenen Asbestmessung sei n die unbekannte Anzahl von Asbestfasern in dem betreffenden Raum und p sei die Wahrscheinlichkeit, daß eine einzelne Asbestfaser im auszuwertenden Teil des Filters "eingefangen" wird. Diese Wahrscheinlichkeit entspricht dem Anteil des ausgewerteten Volumens V am Raumvolumen und ist sehr gering. Unter der Annahme, daß sich die Fasern zufällig im Raum bewegen und unabhängig voneinander "eingefangen" werden, ist die Anzahl X der bei der Messung "eingefangenen" Fasern B(n,p)-verteilt. Folglich ist X auch approximativ Pois(f-L) verteilt. mit 1-L = np. Anzahl von Notrufen: Die Wahrscheinlichkeit p, daß eine einzelne Person einen Notruf auslöst ist sehr gering. Im Normalfall lösen verschiedene Personen unabhängig voneinander einen Notruf aus (in Ausnahmesituationen - z.B. eine Unwetterkatastrophe - ist dies nicht der Fall). Im Normalfall ist daher die Anzahl X der in einer Notrufzentrale eingehenden Anrufe B(n,p)-verteilt, wobein der Bevölkerung der Region entspricht. Folglich ist X approximativ Pois(f-L) verteilt. mit 1-L = n p. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9.4* 28.1.16 9 - 20 Grenzwertsatz für Poisson-Verteilungen Für eine Zufallsvariable X mit Poisson-Verteilung Pois(p,) ist E(X) = p, = Var(X). (1) Für eine Folge (Xn ) nEm li.T stochastisch unabhängiger Wiederholungen von X ist die Summe X~) =X + ... +Xn der ersten n Zufallsvariablen wieder Poisson-verteilt 1 cL( X~)) (2) = Pois(p,n) p,n = n p, . mit Nach dem Zentralen Grenzwertsatz ist die Standardisierung von Pois(p, ) vertein lungskonvergent gegen die Standard-Normalverteilung (3) n---+ oo N(0,1). Unter Verwendung der hier nicht behandelten charakteristischen oder Moment-erzeu- genden Funktionen läßt sich sogar zeigen, daß diese Verteilungskonvergenz nicht nur für äquidistante Folgen p, = n p, sondern auch für beliebige Folgen p, ---+ oo gilt. n n Poisson-Grenzwertsatz: Für jede Folge 0 < p, (4) ~ · [ Pois(p, n ) - p, n J v';L n n ---+ n---+ oo oo gilt N(0,1) . Folglich läßt sich die Poisson-Verteilung Pois(p,) für "großes" p, durch eine Normalverteilung approximieren (5) mit 2 a =p,. Hieraus ergeben sich Approximationen von Poisson-Wahrscheinlichkeiten, wobei man - analog zur Binomial-Verteilung - wieder eine Stetigkeitskorrektur von ~ verwendet. Normal-Approximation von Poisson-Wahrscheinlichkeiten für großes p, (6) P { Pois(p,) < k} ,......, ,......, <J>(V) mit V= (7) P { Pois(p,) > l} ,......, ,......, 1-<I>(u) mit u = _1_ [ z_l._p,] yfjJ 2 (8) P{ l < Pois(p,) < k} ,......, ,......, <I>( v)- <I>(u) für l <kund k, l E W0 . _l_ [k+l.-p,] 2 yfJ, Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9.5* 9 - 21 28.1.16 Grenzwertsatz für negative Binomial-Verteilungen Für eine Zufallsvariable X mit geometrischer Verteilung Geo(p) = NB(1,p) ist 1-p p 2 1-p a == Var(X) = - 2 p, : = E(X) = - (1) p . Für eine Folge (Xn ) nEm li.T stochastisch unabhängiger Wiederholungen von X hat die Summe X~) =X + ... +Xn der ersten n Zufallsvariablen nach 6.1.4 eine negative 1 Binomialverteilung mit Erwartungswert und Varianz -t). 1 Var[NB(n,p)] = na 2 = n( 1 p E[NB(n,p)] = np, = n( ;P) (3) Nach dem Zentralen Grenzwertsatz ist die Standardisierung von NB(n,p) verteilungskonvergent gegen die Standard-Normalverteilung. Grenzwertsatz für negative Binomialverteilungen: Für 0 < p < 1 gilt (4) - 1 - ayn ·[ NB(n,p)- np, J n---+ oo mit p, und a 2 aus (1). N(0,1) Folglich läßt sich die negative Binomialverteilung NB(n,p) für "großes" n durch eine Normalverteilung approximieren (5) _ n(1-p) 2 _ n(1-p) p2 . p ' an- mit I-Ln - Hieraus ergeben sich Approximationen von negativ-Binomial-Wahrscheinlichkeiten, wobei man - analog zur Binomial-Verteilung - wieder eine Stetigkeitskorrektur von ~ verwendet. Approximation von negativ-Binomial-Wahrscheinlichkeiten für großes n (6) P{ NB(n,p) < k} ,......, ,......, (7) P{ NB(n,p) > l} ,......, ,......, (8) P{ l < NB(n,p) < k} ,......, ,......, mit l,kE W0 , 1-L n <J>(V) mit v =1- [k+l.-p,] 1-<I>(u) mit u=-1 [z-1.-p, <I>( v)- <I>(u) für l<k 2 _ =n(1-p) p ' an- an an n(1-p) p2 . 2 2 n n l Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9.6* 28.1.16 9 - 22 Grenzwertsatz für Gamma-Verteilungen Für eine Zufallsvariable X mit Gamma-Verteilung Gam( a,ß) ist (1) p,: = E(X) =aß, Für eine Folge (Xn ) nEm li.T stochastisch unabhängiger Wiederholungen von X ist die Summe X~) =X + ... +Xn der ersten n Zufallsvariablen wieder Gamma-verteilt 1 oi(x~)) (2) = Gam(na,ß) Nach dem Zentralen Grenzwertsatz ist die Standardisierung von X~) verteilungskonvergent gegen die Standard-Normalverteilung ~ · [ Gam(a ß)- a ß] (3) ßV{x n' n N(0,1) n---+ oo n mit a n =na. Unter Verwendung der hier nicht behandelten charakteristischen oder Moment-erzeugenden Funktionen läßt sich sogar zeigen, daß diese Verteilungskonvergenz nicht nur für äquidistante Folgen a = n a sondern auch für beliebige Folgen a ---+ oo gilt. n n Gamma-Grenzwertsatz: Für jede Folge 0 < a (4) - 1 - ßvr;:_,n ·[ Gam( a n' n ß) - a ß] n ---+ oo gilt n---+ oo N(0,1) . Folglich läßt sich die Gamma-Verteilung Gam( a, ß) für "großes" a durch eine Normalverteilung approximieren (5) mit 1-L =aß, Hieraus ergeben sich Approximationen für Gamma-Wahrscheinlichkeiten Normal-Approximation von Gamma-Wahrscheinlichkeiten für großes a (6) P{ Gam(a,ß) < b} ,......, ,......, <J>(V) mit v=Ja[*-a] (7) P{ Gam(a,ß) > a} ,......, ,......, 1-<I>(u) mit u=)a[~-a] < Gam(a,ß) < b} ,......, ,......, <I>( v)- <I>(u) für O<a<b. (8) P{ a Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9. 7 28.1.16 9 - 23 Eigenschaften der Konvergenz nach Verteilung Wir wollen jetzt noch einige später benötigte Eigenschaften der Konvergenz nach Verteilung angeben. Hierzu seien X und X n für n E W reelle Zufallsvariablen, die auf einem Wahrscheinlichkeitsraum (f2, d,P) definiert sind. Zunächst überträgt sich die Verteilungskonvergenz unter stetigen Funktionen (1) L X ---+X Für stetiges g: IR-----+ IR gilt: n g(X ) _L---+ g(X). n n---+oo n---+oo Insbesondere lassen sich Verteilungskonvergenzen linear umskalieren, d.h. für a, ß E IR gilt: L X ---+X (2) n a n---+ oo + ßXn _L-----+ a + ßX. n---+oo Eine weiteres wichtiges Resultat, das hier nicht bewiesen wird, ist: Theorem {Slutzky): Seien X X , Y reelle Zufallsvariablen auf (f2, d,P) und n 1 n a EIR mit L X -=-----+ X , (3) n Y n---+ oo p n ---==-----+ a . n---+ oo Dann folgt für jede stetige Funktion g: IR 2 -----+ IR (4) g(X , Y ) n n L n---+ oo g(X,a). Folgerung: L X n+Yn ----+X±a 1 n---+oo (5) L Y n ·Xn ----+a·X. n---+ oo Aus dem Theorem folgt als Verallgemeinerung von (2) mit reellen Zufallsvariablen Y,Z: n (6) n p L X -=-----+ X , n y n ---==-----+ a ' n---+oo n---+ oo zn n---+oo ßn n---+oo p ß Y +Z ·X -----=.:L~a+ß·X. n n n n---+oo Speziell erhält man für beliebige Folgen a ,ß E IR n n (7) X X L n n---+ oo a +ß X n n a ' n L n---+oo n n---+oo a+ßX. a, ß Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 24 Die Konvergenz nach Wahrscheinlichkeit gegen ein a E IR ist äquivalent zur Konvergenz nach Verteilung gegen a d.h. gegen die Ein-Punktverteilung Dirac( a): (8) X L _...::...::....---+ n n---+ oo a X p n -----+ n---+oo a. Gegenbeispiel: In der Bedingung (VK) kann auf den Zusatz ,,Stetigkeitsstellen" nicht verzichtet werfen. Aus dem Schwachen Gesetz der Großen Zahlen folgt mit (8) x(n) ~ Dirac(f-L), und nach dem Zentralen Grenzwertsatz gilt p { x(n) < 1-L} = p { u(n) < 0} n---+ oo <P(O) = ~ ;= P { Dirac(f-L) < f-L} = 1. Folglich konvergieren die Verteilungsfunktionen von x(n) im Punkt 1-L nicht gegen die Verteilungsfunktion der Dirac(f-L)- Verteilung, die dort unstetig ist. Verteilungskonvergenz vs. Konvergenz nach Wahrscheinlichkeit* Eine reelle Zahl a E IR kann man auch als eine konstante Zufallsvariable auffassen, die Dirac( a)-verteilt ist. In diesem Sinn konvergiert eine Folge (Xn ) nEm li.T reeller Zufallsvariablen gerrau dann nach Verteilung gegen a- d.h. gegen die Dirac(a)-Verteilung - wenn sie nach Wahrscheinlichkeit gegen a konvergiert: (18) X p n -----+ n---+ oo X a L n -...::...::....---+ n---+ oo a. Es taucht nun die Frage auf, warum wir zwei unterschiedliche Konvergenzbegriffe eingeführt haben, die sich jetzt als äquivalent herausstellen. Der Grund ist, daß man die Definition der Konvergenz nach Wahrscheinlichkeit auch noch wie folgt erweitern, indem man als Grenzwert statt einer Zahl a E IR eine reelle Zufallsvariable X zuläßt (19) p X ---+X n :{} n---+ oo Für jedes c: > 0 gilt: lim P {IX -X I< c:} = 1. n---+oo n Hierzu müssen allerdings alle X und X auf demselben Wahrscheinlichkeitsraum n (f2, d,P) definiert sein, damit das Ereignis P{IXn -XI<c:} = P{wEf211Xn(w)-X(w) l<c:} überhaupt definiert Die so erweiterte Konvergenz nach Wahrscheinlichkeit ist nicht mehr äquivalent zur Verteilungskonvergenz, sondern sie ist stärker Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz (20) p 9 - 25 L X n ---+X. X ---+X n 28.1.16 n---+ oo n---+ oo Einen Beweis findet man in den Lehrbüchern der Wahrscheinlichkeitstheorie, z. B. Bauer (2002) und Gänssler-Stute (1977). Wir geben noch ein Gegenbeispiel dafür an, daß die Umkehrung in (20) im Allgemeinen nicht gilt. Gegenbeispiel: Für eine Zufallsvariable X,.....__ N(O, 1) definieren wir die alternierende Folge X == (-1t+l X. Wegen -X '""'"'N(0,1) haben alle X und X dieselbe Vertein n lungsfunktion <!>, und somit gilt X L X. Andererseits folgt wegen X =-X n n---+ oo 2n für jedes c > 0. Also konvergiert P { IX n- X I > c} nicht gegen 0, und somit konvergiert X n nicht nach Wahrscheinlichkeit gegen X. Diese Beispiel verdeutlicht auch, daß die Konvergenz nach Wahrscheinlichkeit von den gemeinsamen Verteilungen L(X ,X) abn hängt, während die Konvergenz nach Verteilung nur von den einzelnen Verteilungen L(X ) abhängt- die in diesem Beispiel alle gleich N(0,1) sind .. n 9.8 Hypergeometrische Verteilungen Bevor wir eine formale Definition der hypergeometrischen Verteilung geben, wollen wir eine Anwendungssituation betrachten. 9.8.1 Wahlumfragen Bei der Behandlung von Wahlumfragen (vgl. 0.3) zur Schätzung des unbekannten Stimmanteils p einer Partei in einer Region sind wir bisher von folgender Form der Datenerhebung ausgegangen. Ausgangspunkt ist ein Zufallsexperiment, bei dem eine wahlberechtigte Person aus der Region zufällig ausgewählt und befragt wird. Als Ergebnis X interessiert nur, ob die Person die Partei wählen würde (Erfolg: X= 1) oder nicht (Mißerfolg: X= 0), d.h. X ist eine B(1,p)-verteilte Zufallsvariable. Eine Umfrage vom Umfang n besteht dann aus unabhängigen Wiederholungen X , ... , 1 Xn von X und die Anzahl X t =X1 + ... +Xn der Erfolge ist dann B(n,p)-verteilt. Hierbei ist es möglich, daß die gleiche Person auch mehrmals befragt wird (obwohl dies keine neue Information liefert). Die Wahrscheinlichkeit für eine solche Mehrfachbefragung einer Person hängt von der Anzahl N aller Wahlberechtigten ab und ist gering, wenn N groß gegenüber n ist. Trotzdem wollen wir uns jetzt überlegen, Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 26 welche Verteilung die Anzahl Y der Erfolge hat, wenn wir n verschiedene Personen unter allen N Wahlberechtigten auswählen. 9.8.2 Zufälliges Ziehen mit und ohne Zurücklegen Zur abstrakten Beschreibung obiger Wahlumfragen betrachten w1r die Menge I = { 1, ... , N}, die wir suggestiv als "Urne mit N Kugeln" bezeichnen (entsprechend den Wahlberechtigten). Weiter sei K Cl eine Teilmenge von M = #K "markierten Kugeln" (die den Wählern der Partei entsprechen). Zur Vermeidung von Trivialitä- ten sei 0 < M < N und somit gilt für den Anteil markierter Kugeln (der dem Stimmanteil entspricht) (1) 0<p==#<1. Das zufällige Ziehen von n Kugeln mit Zurücklegen wird beschrieben durch den Ergebnisraum aller n-Tupel mit Komponenten aus I und der Gleichverteilung P' auf f2 1 (3) P'{w'} = #~' für w' E f2' mit Die Anzahl X der markierten Kugeln unter den n gezogenen Kugeln ist dann eine Zufallsvariable X: f2 1 -----+ { 0, ... , n}, definiert durch (4) X( i1, ... , i ) : = n # {j = 1, ... , n I i.J E K} für Betrachten wir für jedes j = 1, ... , n die Indikatorfunktion X.: f2'-----+ {0, 1} dafür, daß J die j-te gezogene Kugel markiert ist, d.h. (5) X.(i1, ... ,i)={ J n 1 0 falls falls ij E K (j-te gezogene Kugel ist markiert) ij tJ_ K so läßt sich die Anzahl X als Summe dieser Indikatorfunktionen darstellen Da alle X , ... ,Xn stochastisch unabhängig und B(1,p)-verteilt sind, folgt 1 (7) L(X) = B(n,p ). Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 27 Demgegenüber wird das zufällige Ziehen von n Kugeln ohne Zurücklegen modelliert durch den Ergebnisraum aller n-elementigen Teilmengen von I (8) n := ~ n (I) : = { A c I I #A = n } 0 mit der Gleichverteilung P auf .f2 (9) 1 für wEil P{A} = #D mit #il = (~) Die Anzahl Y der markierten Kugeln unter den n gezogenen Kugeln ist dann eine Zufallsvariable Y: D-----+ {0, ... , n}, definiert durch (10) Y(A) : = # (A n K) für AED. Betrachten wir für jede Kugel i EI die Indikatorfunktion Y.: D-----+ {0,1} dafür, daß z diese Kugel gezogen wird, d.h. (11) Y;(A) = { ~ falls falls (Kugel i wird gezogen) iEA i \tA so läßt sich die Anzahl Y als Summe solcher Indikatorfunktionen darstellen Die Indikatoren Y , ... , Y N sind zwar identisch Bernoulli-verteilt 1 (13) für i EI, aber nicht stochastisch unabhängig, weil n(n- 1) < E(Yi)·E(Yz) N(N-1) (14) n(N- n) Cov(Yi' Yz) = - N2(N -1) < 0 für i ;= j, für i ;= j. Folglich ist die Verteilung von Y nicht die Faltung der Verteilungen aller Y. mit i E K. z Allerdings läßt sich die Verteilung von Y mit kombinatorischen Argumenten leicht ermitteln. Da eine Ziehung A E .f2 höchstens M markierte und höchstens N-M nicht-markierte Kugeln enthalten kann, hat die Zufallsvariable Y den Träger (15) T = { mE{O, ... ,n} I n-(N-M) < m <M}. FürmET ergibt sich dann Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz (16) 28.1.16 9 - 28 (~)(~=;;n P{Y=m} (~) Die Darstellung (16) gilt sogar für beliebige m = 0, ... , n (d.h. auch für m \t T), wenn man den Binomialkoeffizienten unter Verwendung absteigender Produkte k-1 (17) TI (a)k: = a · ( a-1) · ... · (a- (k-1)) (a-l) für a E IR, k E W l=O (a) 0 == 1 wie folgt definiert (~) == (18) k-1 TI (n)k n-l l=O k-l k! für k, nE W0 . Dann gilt (19) (~)=o, k>n und somit ist die rechte Seite von (16) für m = 0, ... , n mit m \t T auch stets Null. Die Verteilung L(Y) ist eine hypergeometrische Verteilung, die im nächsten Abschnitt formal definiert und weiter untersucht wird. 9.8.3 Definition und Eigenschaften der hypergeometrischen Verteilung Die hypergeometrische Verteilung H( n, M, N) mit den Parametern (1) wobei n,M,NE W n<N, M<N ist auf dem Träger (2) T = T n MN:= { m E {0, ... , n} I n- (N-M) < m < M} ' ' definiert durch die Zähl-Dichte (3) P{m} h(m I n,M,N): = (~)(~=~) (~) für mE T Erwartungswert und Varianz dieser Verteilung ergeben sich zu (4) E{ H(n,M,N)} = np mit Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz (5) Var{H(n,M,N)} = np(1-p) 28.1.16 9 - 29 -~::::~. Man beachte, daß der Erwartungswert mit dem B(n,p)-Verteilung übereinstimmt, aber die Varianz im Fall n > 1 geringer als die Binomial-Varianz n p (1- p) ist. Beispiel: Zahlenlotto "6 aus 49" Für einen festen Tip eines Spielers, d.h. eine Markierung von M = 6 Zahlen aus {1, ... , 49}, hat die Anzahl Y der "Richtigen (ohne Zusatzzahl)" bei der nächsten Ziehung von n = 6 aus N = 49 eine H(n,M,N)- Verteilung. Die zugehörigen Wahrscheinlichkeiten sind in Tab. 1 angegeben. Und die erwartetet Anzahl von Richtigen ist E(Y) = 36/49 ~ 0,73. m 0 1 2 3 P{Y=m} 43,6% 41,3% 13,2% 1,77% 4 5 6 0,0969% 18,4·10-6 71,5·10- 9 Tab. 1: Gerundete Wahrscheinlichkeiten für Y mit H(6, 6, 49)-Verteilung. 9.8.4 Anwendungen und Schätzungen Bei konkreten Anwendungen der hypergeometrischen Verteilung H(n,M,N) ist typischerweise einer der beiden Anzahlen M oder N und somit auch der Quotient p = ~ unbekannt. Wir geben hierfür einige Beispiele. Wahlumfrage: Bei der in 9.8.1 beschriebenen Wahlumfrage unter n verschiedenen Wahlberechtigten ist die Anzahl Y der Voten für diese Partei H(n,M,N)-verteilt, wobei die Anzahl N der Wahlberechtigten bekannt ist, aber die Anzahl M der Wähler dieser Partei bzw. der Stimmanteil p = ~ ist unbekannt. Qualitätskontrolle: Bei einem maschinell gefertigten Artikel (z.B. eine Glühbirne) soll untersucht werden, wie groß die Anzahl M der defekten Artikel unter den insgesamt N gefertigten Artikeln einer Tagesproduktion ist. Hierzu werden zufällig n Artikel ausgewählt und auf Defekte kontrolliert. Die Anzahl Y der bei der Kontrolle entdeckten defekten Artikel hat dann eine H( n, M, N)- Verteilung. Hier ist N bekannt, aber M unbekannt. Umfang einer Population: Für eine räumlich abgegrenzte Population (z.B. eine Spezies von Fischen in einem See) soll die unbekannte Anzahl N ihrer Individuen ge- Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 30 schätzt werden. Hierzu werden zunächst eine Anzahl M von Individuen gefangen um sie zu markieren. Dann werden die markierten Individuuen wieder ausgesetzt. Nach geraumer Zeit werden erneut n Individuen gefangen. Wenn hierbei jedes Individuum die gleiche Chance hat gefangen (bzw. nicht gefangen) zu werden, so hat die Anzahl Y der markierten unter den gefangenen n Individuen eine H(n,M,N)-Verteilung, wobei M bekannt, aber N unbekannt ist. Wenn Y eine Zufallsvariable mit H(n,M,N)-Verteilung ist und einer der beiden Anzahlen M oder N unbekannt ist, so genügt es, den Quotienten p = Wzu schätzen, weil sich hieraus auch eine Schätzung der jeweils unbekannten Anzahl M oder N ergibt. Ein naheliegender Schätzer für p ist p(Y) == ~ y' (1) was im Urnenmodell der relativen Häufigkeit der markierten unter allen gezogenen Kugeln entspricht. Der Schätzer ist erwartungstreu (2) E(p (Y)) = p und hat die Varianz (3) Var(ß(Y)) = ~-p(1-p)·~=~. Für bekanntes N und unbekanntes M =Np ist dann N p(Y) ein Schätzer für M. Und für bekanntesMundunbekanntes N =M p-l ist M p(Y)-1ein Schätzer für N. 9.8.5 Binamial-Approximation der hypergeometrischen Verteilung An Hand der in 9.8.2 betrachteten Ziehungen aus einer Urne mit und ohne Zurücklegen ist klar, daß bei gleichem Anteil p = Wmarkierter Kugeln der Einfluß des Zu- rücklegens immer geringer wird, je größer der Umfang N der Urne im Vergleich zu der Anzahl n gezogener Kugeln ist. Bevor wir einen entsprechenden Grenzwertsatz formulieren, geben wir eine Abschätzung der hypergeometrischen Wahrscheinlichkeiten durch Binomial-Wahrscheinlichkeiten. Für m E T MN gilt n, (1) cN(m) · b(m I n,p) < h(m I n,M,N) < ' dN· b(m I n,p) mit Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz m Jm [ n-m ]n-m cN(m) : = [ 1- M . 1- N-M (2) 28.1.16 9 - 31 < 1, > 1. (3) Nach diesen Vorbereitungen ergibt sich der folgende Grenzwertsatz. Hypergeometrischer Grenzwertsatz: Sei (MNE W)N> 2 eine Folge mit O<MN<Nund M p __ _]j N·- N N---+ oo (4) pE(0,1). Dann gilt für festes n E W h(m I n,MN,N) N---+ oo (5) b(m I n,p) für m = 0, ... , n. P{ B(n,p) EA} für AC {0, ... , n}, Folgerung: (6) P{ H(n,MN'N) EA} N ---+oo (7) L H(n,MN,N) N ---+oo B(n,p) . Hieraus ergibt sich für großes N (im Vergleich zu n) eine Approximation der hypergeometrischen Verteilung H(n,M,N) durch die Binomialverteilung B(n,~) (8) 9.8.6 H(n,M,N) ~ B(n,~) für N ~ n. Die multivariate hypergeometrische Verteilung Ähnlich wie sich die Binomialverteilung durch die Multinomialverteilung verallgemeinern läßt, gibt es auch zur hypergeometrischen Verteilung eine allgemeinere multivariate Version. Zur Einführung dieser multivariaten hypergeometrischen Verteilung gehen wir wieder vom Ziehen ohne Zurücklegen bei einem geeigneten Urenmodell aus, welches zunächst an zwei Anwendungsbeispiele erläutert wird. Wahlumfragen: Wir betrachten wieder eine Wahlumfrage, bei der aus allen N Wahlberechtigten n verschiedene Personen zufällig ausgewählt werden. Allerdings interessieren wir uns jetzt nicht nur für den Stimmanteil einer Partei, sondern für die Stimmanteile aller zugelassenen Parteien. Wir codieren die K> 2 Parteien durch die Zahlen k = 1, ... , K (z.B. in der Reihenfolge, wie sie auf dem Stimmzettel erscheinen) und bezeichnen die zugehörigen Stimmanteile mit pl' ... , pK Hierbei soll p 1 + ... + pK = 1 gelten, was man z.B. durch Einführung einer Partei ,,Sonstige" stets Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 32 erreichen kann. Die Anzahl Xk der Stimmen in der Umfrage für eine einzelne Partei k ist dann hypergeometrisch verteilt (vgl. 9.8.1-3), aber was ist die gemeinsame Ver- teilung aller K Anzahlen X , ... , XK? 1 Kartenspiele: Bei vielen Kartenspielen ist es von Interesse, mit welche Wahrscheinlichkeit ein Spieler eine vorgegebene Anzahl verschiedener Spielkarten erhält. Als konkretes Beispiel betrachten wir ein Skatspiel mit N = 32 Karten, bestehend aus den vier Farben Kreuz) Pik) Herz, Karo, die sich jeweils aus den acht Werten 0 81 91 101 Bube1 Dame1 König 1 As zusammensetzen. Nachdem die Karten gut gemischt wurden, erhält jeder der drei Spieler 10 Karten und die restlichen zwei Karten bilden den Skat. Wir gehen hier davon aus, daß durch das Mischen jede mögliche Kartenverteilung gleichwahrscheinlich ist. Für einen Spieler, der gerne einen Grand spielen möchte ist wichtig, wieviel der jeweils vier Buben, Asse und Zehnen er erhält. Bezeichnen X B' X A' X 10 die Anzahl von Buben1 Assen1 Zehnen und X R die Anzahlen der restliche Karten dieses Spielers, so sind diese Anzahlen X B' X A' X 10 und X R jeweils H(lO,M, 32)-verteilt mit M = 4 bei Buben, Assen, Zehnen und M = 20 beim Rest. Von Interesse ist die gemeinsame Verteilung aller vier Anzahlen X B' X A' X , 10 X R' also z.B. die Wahrscheinlichkeit P {XB= 2, X A = 3, X 10 = 3, X R = 2}. Urnenmodell mit K Markierungen: Ziehen ohne Zurücklegen Zur Formalisierung obiger Beispiele betrachten wir (wie in 9.8.2) eme Menge I= { 1, ... , N} ("Urne mit N Kugeln"), die den Wahlberechtigten bzw. Spielkarten ent- sprechen. Weiter sei eine disjunkte Zerlegung der Menge I gegeben durch (1) mit für alle k. Die Elemente von Ik heißen suggestiv ,,Kugeln vom Typ k" und man sich die Zerlegung so vorstellen, dass jede Kugeln mit ihrem Typ "markiert 11 ist, d.h. jede Kugel trägt gerrau eine der Typen-Nummern k = 1, ... , K. Bei der Wahlumfrage entsprechen die Markierungen den zugelasenen Parteien und beim Skatspiel sind es die K = 4 verschiedenen Kartenwerte (Buben, Asse, Zehnen, Rest). Ist Mk: = (2) # Ik die Anzahl der Kugeln vom Typ k, so gilt mit für alle k. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 33 Das zufällige Ziehen von n Kugeln ohne Zurücklegen wird (wie m 9.8.2) modelliert durch den Ergebnisraum aller n-elementigen Teilmengen von I (3) n := ~ n (I) : = { A c I I #A = n } 0 mit der Gleichverteilung P auf .f2 (4) 1 für wEil P{w} = #D mit #il = (~) Die Anzahl Xk der gezogenen Kugeln vom Typ k ist dann eme Zufallsvariable Xk: D-----+ {0, ... , n}, definiert durch (5) für AED. Die Verteilung jedes einzelnen Xk ist nach 9.8.2-3 (angewandt auf Typ k als eine ,,Markierung") hypergeometrisch (6) für jedes k Wir wollen jetzt die gemeinsame Verteilung aller Anzahlen X , ... , XK bestimmen, 1 d.h. die Verteilung des Zufallsvektors X= (X , ... , XK). Dies erfordert eine zusätzliche 1 Überlegung, weil die Komponenten von X nicht stochastisch unabhängig sind, sie erfüllen sogar eine lineare Beziehung: Der Zufallsvektor X hat den Träger und die Zähldichte ist dort gegeben durch K (9) P{X=x} kgl (~;) (~) für x E T. Die Verteilung L(X) ist eine multivariate hypergeometrische Verteilung, die im Anschluss formal definiert und weiter untersucht wird. Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 28.1.16 9 - 34 Definition der multivariaten hypergeometrischen Verteilung Für die Parametern, N, K E W mit n < N und K> 2 sowie (10) mit M + =N ist die multivariate (oder K-dimensionale) hypergeometrische Verteilung HK( n, M, N) auf dem Träger (zur Notation vgl. 4.5.1 (4)) (11) T=Tn,M,N:= {x=(x1, ... ,xK)EW~Ix+=n,x<M} definiert durch die Zähl-Dichte K TI (Mk) (12) P{x} k-1 Xk hK(xln,M,N) == - - - - für x E T. (~) Zu den Parametern der Verteilung HK(n, M,N) gibt es auch stets ein Urne mit N Kugeln von denen jeweils gerrau Mk vom Typ k sind. Der oben betrachtete K-di- mensionale Zufallsvektor X= (X , ... ,XK) beim Ziehen von n Kugeln (ohne Zurük1 klegen) hat daher nach (9) die Verteilung HK(n, M,N). Zur Untersuchung dieser Verteilung genügt es daher, die Eigenschaften der Verteilung dieses speziellen Vektors X zu studieren mit (13) L(X) = HK(n, M,N). Jede Komponente Xk von X ist (univariat) hypergeometrisch verteilt Der Erwartungswert und die Varianz von Xk ergeben sich daher zu (15) (16) mit M pk = Nk N-n ) npk (1-pk·N-1" Die Covarianz und Korrelationzweier Komponenten Xk und Xl sind gegeben durch n(N-n)PkPl (17) (18) (N-1) Corr(X X ) = k' z J Pk Pl (1-pk)(1-pz) und somit sind X k und Xl auch nicht stochastisch unabhängig. < 0 für k :;= l, für k :;= l, Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz 9 - 35 28.1.16 Wegen der linearen Beziehung (19) P{X =n}=1 + bzw. ist die letzte Komponente XK durch die restlichen Komponenten von X (mit Wahrscheinlichkeit 1) bestimmt. Speziell für K = 2 ist die jeweils zweite Komponente von M = (M ,M ) bzw. 1 2 X= (X1,X2 ) durch die erste bestimmt (20) für K= 2. 1 Folglich ist X= (X ,X ) mit einer bivariaten hypergeometrischen Verteilung 1 2 H2(n, (M1,M2),N) bereits eindeutig bestimmt durch seine erste Komponante X 1 mit univariater hypergeometrischen Verteilung H( n, M1, N). In diesem Sinn entspricht die bivariate hypergeometrische Verteilung einer univariaten hypergeometrischen Verteilung (was man sich auch leicht an Hand der zugehörigen Urnenmodelle klar machen kann). Multinomial-Approximation der multivariaten hypergeometrischen Verteilung* Analog zur Binamial-Approximation (in 9.8.5) der univariaten hypergeometrischen Verteilung läßt sich die multivariate hypergeometrische Verteilung HK(n, M,N) für N ~ n durch eine Multinomial-Verteilung MK(n, p) approximieren, wobei p = (p , ... , pK) mit 1 (21) Anteil der Kugeln vom Typ k = 1, ... , K. Der Grund hierfür ist, daß es beim Ziehen von n Kugeln bei großem N (gegenüber n) keine entscheidende Rolle mehr spielt, ob die einzelne Kugeln nach dem Ziehen wieder zurückgelegt werden oder nicht. Bevor wir einen entsprechenden Grenzwertsatz formulieren, geben wir eine Abschätzung der multivariaten hypergeometrischen Wahrscheinlichkeiten durch die zugehörigen Multinomial-Wahrscheinlichkeiten (vgl. 4.6.1) K 1 X n!fl-,·pk (22) k=l xk. k Für x E T M N gilt dann die Abschätzung n, ' für XE T n = { X E w~ I X+= n } 0 Schwaches Gesetz der großen Zahlen und Zentraler Grenzwertsatz (23) 2801.16 9 - 36 cN(x) omultiK(xln,p) < hK(xln,M,N) < dNO multiK(xln,p) K (24) x TI [ 1- ~ cN(x) : = k=l (25) dN:= xk J mit < 1, k [1-N J-n > 10 Nach diesen Vorbereitungen ergibt sich der folgende Grenzwertsatz Multivariater hypergeometrischer Grenzwertsatz: MNK) E WK für n > 2 eine Folge mit Sei MN= (MNl' 000, (26) 0 <MNk <N für alle k, (27) p M 0- __l:f_js, NkoN N ---+oo M =N + pkE(0,1) für alle k, und wobei p+ = 1. Dann gilt für festes n E W hK(x In, MN,N) N---+ oo (28) multiK( x In, p) für xE T n 0 P { MK( n, p) E A} für Ac T n 0 Folgerung: (29) P{ HK(n,MN,N) EA} N ---+oo Hieraus ergibt sich für großes N (im Vergleich zu n) folgende Approximation der multivariaten hypergeometrischen Verteilung HK(n, M,N) durch die Multinomialverteilung MK(n, p) mit p (30) =1M für N~ no Konfidenzgrenzen für den Erwartungswert 10. 10-1 15.1.16 Konfidenzgrenzen für den Erwartungswert Ausgehend von einer Stichprobe X= (X , ... ,Xn) mit n unabhängigen Wiederholun1 gen der Zufallsvariablen X mit Erwartungswert p, = E(X) haben wir in 8.1 einen sogenannten Punkt-Schätzer für p,, d.h. einen zufälligen reellen Punkt 4(X) =X, konstruiert. Wir wollen jetzt zusätzlich einen Intervall-Schätzer angeben, d.h. ein zufälliges reelles (offenes) Intervall I(X) = 40 (X) (4 u (X), 40 (X)), wobei 4u (X) eine untere und eine obere Konfidenzgrenze (oder Vertrauensgrenze) für den Erwartungswert p, genannt wird. Hierbei soll die untere Grenze 4u(X) mit einer hoher Sicherheit unter- halb des Erwartungswertes p, liegen1 d.h. die Wahrscheinlichkeit (1) P{ 4u(X) < 1-L } (Sicherheit der unteren Grenze) soll möglichst groß sein bzw. die komplementäre Wahrscheinlichkeit (2) (Irrtumswahrscheinlichkeit der unteren Grenze) soll möglichst klein sein. Bei der Interpretation der Sicherheit der unteren Grenze ist zu beachten, daß es sich hier um eine Wahrscheinlichkeit handelt, die sich darauf bezieht, daß man die Schätzung der Grenze prinzipiell als wiederholbar ansieht. Schätzt man aus sehr vielen voneinander unabhängigen Stichproben (jeweils vom Umfang n) die untere Konfidenzgrenze, so entpricht der Anteil aller Schätzungen, bei denen die unteren Grenze unterhalb von p, liegt, ungefähr der Sicherheit (Häufigkeitsinterpretation der Sicherheit). Analog soll die obere Grenze 40 (X) mit einer hoher Sicherheit oberhalb von p, liegen1 d.h. die Wahrscheinlichkeit (3) P { 1-L < 40 (X) } (Sicherheit der oberen Grenze) soll möglichst groß bzw. die komplementäre Wahrscheinlichkeit (4) (Irrtumswahrscheinlichkeit der oberen Grenze) soll möglichst klein sein. Wenn sinnvollerweise 4u(X) < 40 (X) (4u(X), 40 (X)) den Erwartungswert ist, dann verfehlt das offene Konfidenzintervall p, mit der Wahrscheinlichkeit Konfidenzgrenzen für den Erwartungswert 10-2 15.1.16 d.h. die Irrtumswahrscheinlichkeit des Intervalls (4u(X) , 40 (X)) ist die Summe der Irrtumswahrscheinlichkeiten für die untere und die obere Grenze. Bei der Konstruktion solcher Konfidenzgrenzen muß man dem Zusammenhang von Sicherheit einerseits und Informationsgehalt andererseits Rechnung tragen. Je größer die untere Grenze 1-L 4u(X) ist, desto höher ist auch ihr Informationsgehalt über (weil sie 1-L nach unten abschätzt), aber desto geringer ist auch ihre Sicherheit. Zum Beispiel hat im Extremfall die untere Grenze 4u(X) =- oo zwar die maximale Si- cherheit von 1, aber sie enthält keinerlei Information über 1-L· Für die Konstruktion der unteren Grenze gibt man sich daher eine maximale Irrtumswahrscheinlichkeit a bzw. eine minimale Sicherheit 1- a vor, und sucht dann eine möglichst informative (d.h. große) zugehörige untere Grenze 4u,a (X), die diese Sicherheit approximativ oder sogar exakt einhält. Als Standard wird typischerweise der Wert a = 5% verwendet, aber -je nach Anwendungssitiation - kann und sollte man auch kleinere Werte (z.B. a = 1%) oder gelegentlich auch größere Werte (z.B. a = 10%) zulassen. Für die theoretischen Ausführungen kann prinzipiell jeder Wert 0<a < 1 verwendet werden, wobei lediglich gelten sollte (6) 0<a bzw. < 1-a < 1, damit - entsprechend der Intention - die Sicherheit 1- a auch echt größer ist als die Irrtumswahrscheinlichkeit a. Wir wollen die zusätzliche Bedingung (6) im folgenden generell voraussetzen, obwohl einige Resultate auch für beliebiges 0 < a < 1 gelten. Analog sucht man bei der Konstruktion der oberen Grenze für vorgegebenes a eine möglichst informative (d.h. kleine) zugehörige obere Grenze 4o, Ct (X), die diese Si- cherheit approximativ oder sogar exakt einhält. Hat man die untere und obere Grenze bereits konstruiert, so ergibt sich die Irrtumswahrscheinlichkeit des Intervalls ( 4 u,a (X) , 4 o,a (X) ) nach (5) - approximativ oder exakt - zu 2 a. Konstruiert man die Grenzen unter Verwendung von ~ statt a, so hat das zugehörige Intervall (7) I (X) = ( Ct 4~20 (X) , 4~20 (X) ) die Irrtumswahrscheinlichkeit a und somit die Sicherheit 1- a. Eine untere Grenze ist in der Praxis z.B. dann wichtig, wenn X eine Lebensdauer (etwa eines technischen Produktes) ist, und man die zu erwartende Lebensdauer Konfidenzgrenzen für den Erwartungswert 15.1.16 10-3 zuverlässig nach unten abschätzen will. Ist X dagegen eine Schadstoffbelastung (z.B. in einem Nahrungsmittel), so wird man primär an einer oberen Grenze der erwarteten Belastung interessiert sein. Wenn X ein Wirkstoff (z.B. eines Medikaments) ist, so interessiert man sich typischerweise sowohl für eine untere als auch für eine obere Grenze, um den zu erwartenden Wirkstoffgehalt nach beiden Seiten einzugrenzen und somit eine Unter- oder Überdosierung zu erkennen. 10.1* Exakte Konfidenzgrenzen für den Erwartungswert einer Normal-Verteilung mit bekannter Varianz Aus didaktischen Gründen behandeln wir zunächst den Fall, daß die Zufallsvariable X (und ihre unabhängigen Wiederholungen X , ... , Xn) normalverteilt ist, d.h. 1 Zusätzlich betrachten wir den (in der Praxis eher untypischen) Fall, daß die Varianz a 2 bekannt ist. Der Fall mit unbekannter Varianz und normalverteiltem X wird in 10.3 und der allgemeine Fall mit beliebiger Verteilung von X wird in 10.2 behandelt. Wir beginnen mit der Konstruktion einer unteren Konfidenzgrenze für den Erwartungswert p,. Ausgehend von der Schätzung P,(X) = X setzen wir die untere Grenze zunächst von der Form an (2) 4u(X) = X-d P,(X) - d ' wobei sich die Abweichung d vom Mittelwert X wie folgt aus der vorgegebenen Irrtumswahrscheinlichkeit a ergeben wird. Die Grundlage hierfür ist die Normalverteilung des Mittelwerts X (vgl. 8.2.3) (3) L(X) = N(p,, a 2 (X) ) (4) a(X) = Jv ar(X) mit = _l_ a yn d.h. der standardisierte Mittelwert (5) X-p, U·---=-- ·- a(X) hat eine Standard-Normalverteilung (6) L(U) = N(O, 1). (Standardabweichung von X). Konfidenzgrenzen für den Erwartungswert 10-4 15.1.16 Mit der Verteilungsfunktion P von N(O,l) ergibt sich hieraus die Irrtumswahrscheinlichkeit der unteren Grenze aus (2) zu P { fL < 4u (X) } = P { (7) tt { d p a(X) < X-d } < } u PL(~}. 1-PL,(~} Abb. 1: Dichte von X mit oberem a-Quantil (Strich). Der Abstand des Quantils von tt ist die Bandbreite d a Darunter ist für verschiedene Realisierungen x von 4u,a = x- da als Klammer [ dargestellt. Die Grenze 4 liegt gerrau dann u,a X die untere Grenze oberhalb von ft 1 wenn der Mittelwert x im oberen a-Bereich (d.h. oberhalb des a-Qunatils) liegt. da -X Die Irrtumswahrscheinlichkeit (7) nimmt gerrau dann den vorgegeben Wert a an, wenn die Bandbreite wie folgt gewählt wird (8) dQ zQ · a(X) z · -1 a ayn wobei z das sogenannte obere a-Quantil der Standard-Normalverteilung ist (vgl. Ana hangT), d.h. (9) bzw. 0 Za N(O, 1)-Dichte mit a-Quantil Konfidenzgrenzen für den Erwartungswert 10-5 15.1.16 Mit dieser Bandbreite erhält man die untere Konfidenzgrenze für 0 (10) 4(X)- dCt X-d (untere Grenze) Ct mit der Sicherheit (11) P { 4u,a (X) < 0} = 1- a Und analog ergibt sich als obere Konfidenzgrenze für 0 (12) 4(X) + dCt X+d Ct (obere Grenze) mit der Sicherheit (13) P{ 0 < 4o,a (X)} = 1- a Aus der unteren und oberen Grenze zum halben Niveau ~ ergibt sich dann das um den Punkt-Schätzer 4(X) = X symmetrische zweiseitige Konfidenzintervall für 0 (14) (X- d0 , X + d0 2 (15) da 2 = 1 Za · . ;;;, 2 yn mit ) 2 a . zur Sicherheit 1- a, d.h. (16) P { 0 EI (X) } = 1 - a Ct Für das in der Praxis routinemäßig verwendete Niveau a = 5% bzw. die Sicherheit 1- a = 95% ergeben sich: z~ = z 2_5 % = 1.960 za = z5 % = 1.645, d.h. in diesem Fall ist die Bandbreite d0 rund die zweifache Standardabweichung 2 des Schätzers X . Für andere Werte von a läßt sich das Quantil z Ct (vgl. Anhang T) ablesen oder mit geeigneten Programmen bestimmen. aus Tabellen Konfidenzgrenzen für den Erwartungswert 10-6 1501.16 Wir wollen noch eine andere Interpretation der Konfidenzgrenzen angeben und betrachten hierzu für eine Realisierung x = (x , 000, xn) von X die Verteilungsfunk1 tion des Mittelwerts X an der Stelle des beobachten Mittelwerts x (17) _ _ _ { x- p,} { F(xlp,) ==P{X<xlp,} =<I>----=- =<I> a(X) Da <I> eine streng wachsende Funktion ist, ist Grenze (t (18) fo(x- J-L) o, 0: } a . F(x IJ-L) streng fallend in p,o Die obere (x) läßt sich daher auch charakterisieren durch F(xlft o,o: (x))== P{X<xlfto,o:(x)} = bzwo a Max {p, E lR I F(x IJ-L) > a} (19) Max{ttElR IP{X<xltt}>a} Damit ist obere Grenze (t o, 0: 0 (x) das Maximium aller möglichen Werte p,, die mit der Beobachtung x in dem Sinn noch "verträglich" sind, daß die Wahrscheinlichkeit P{X <x 11-L} für x oder kleinerer Werte noch mindestens a ist (vgl. Abbo 2)0 Für eine analoge Interpretation der unteren Konfidenzgrenze betrachten wir die "obere" Verteilungsfunktion des Mittelwerts X an der Stelle der Beobachtung x (20) - G(x IJ-L) == P{X>x IJ-L} = <I> {1-L - x } ---=- a(X) = <I> { fo(p, - x) } = a Da G(x IJ-L) streng wachsend in p, ist, läßt sich die untere Grenze (t u,o: 1- F(x IJ-L) 0 (x) charakteri- sierendurch (21) (22) G( x I (t u,o: (x)) : = P {X> x I (t u,o: (x) } = a bzwo Min { p, E lR I G(x 11-L) > a} Min { 0 E lR I P {X> x ltt} > a} Also ist untere Grenze (t u,o: 0 (x) das Minimum aller möglichen Werte p,, die mit der Be- obachtung x in dem Sinn noch "verträglich" sind, daß die Wahrscheinlichkeit P {X> x 11-L} für x oder größerer Werte noch mindestens a ist (vgl. Abbo 2) Konfidenzgrenzen für den Erwartungswert Pu a ' x 10-7 15.1.16 x Po a 1 I I Abb 2: Normalverteilungsdichte des Mittelwerts X für verschiedene Werte von 1-L zur Interpretation der unteren bzw. oberen Grenze nach (21) (22) bzw. (18) (19). links: Die markierte Fläche entspricht der Wahrscheinlichkeit G(x 11-L) und die untere Grenze p ist das Minimum aller Werte f-L, bei dem diese Fläche noch u,a mindestens a ist. rechts: Die markierte Fläche entspricht der Wahrscheinlichkeit F(x 11-L) und die obere Grenze p ist das Maximum aller Werte f-L, bei dem diese Fläche noch mino, 0' destens a ist. 10.2* Asymptotische Konfidenzgrenzen für den Erwartungswert einer beliebigen Verteilung Wir betrachten jetzt wieder den allgemeinen Fall mit beliebiger Verteilung von X. Hierbei gehen wir davon aus, daß die Varianz a 2 = Var(X) < oo unbekannt ist und deshalb geschätzt wird durch (vgl. 8.3.2) n a2(X) = _l_l (1) n- 2:= (X.-X)2, z i=l wobei natürlich n > 1 vorausgesetzt ist. Die zugehörige Schätzung der Standardab- weichung a(X) des Mittelwerts ist dann a(X) = (2) _1_ a(X) yn (geschätzte Standardabweichung von X). Ersetzt man in 10.1 einfach die Standardabweichung durch ihre Schätzung so erhält man die (geschätzte) Bandbreite (3) d0' z . a(X) = z . _1_ a(X) 0' sowie die zugehörigen Grenzen 0' yn Konfidenzgrenzen für den Erwartungswert (4) (tu a(X) (t(X)- ' (5) (t o a(X) (t(X) ' X-d dCt 10-8 15.1.16 (untere Grenze) Ct + dCt (obere Grenze) Diese Grenzen halten die vorgegebene Sicherheit 1- a zwar nicht exakt, aber - wie wir im folgenden zeigen werden - zumindest approximativ ein, wobei die Approximation für wachsenden Stichprobenumfang n beliebig gerrau wird. Der Grund hierfür ist einerseits, daß der standardisierte Mittelwert (6) u := X-p, -----,=-- a(X) a nach dem Zentralen Grenzwertsatz approximativ standard-normalverteilt ist (7) L(U) ~ N(O, 1). Gerrauer gilt, wobei wir den Umfang n- wie in Kapitel 8 -als Index "(n)" mitführen N(0,1). (8) Andererseits kann die geschätze Standardabweichung als Approximation der unbekannten Standardabweichung verwendet werden (9) a(X) ~ a weil die Schätzung nach 9.1.2 konsistent ist (10) a. Zusammen mit (8) ergibt sich - unter Verwendung des Theorems von Slutzky aus 9.7- die Verteilungskonvergenz vn (x(n) -p,) (11) ---.,.(----'L:...::...._____)--+ n--+oo a(x(n)) Für die Sicherheit der unteren Grenze (12) P { (t u,a (X) < p, } = P { X- da < p, } ~(;)' < z" } = p{ ergibt sich daher N(O, 1). Konfidenzgrenzen für den Erwartungswert (13) P{(t u, a (x(n))<~t} n---+ oo 10-9 15.1.16 1-a, und für die obere Grenze erhält man analog (14) Man interpretiert (13) bzw. (14) dahingehend, daß die untere bzw. obere Grenze die asymptotische Sicherheit 1- a oder die asymptotische Irrtumswahrscheinlichkeit a hat. Für die praktische Anwendung bedeutet dies, daß die Grenzen (4) und (5) die approximative Sicherheit (15) P{X-d Ct <~t} ~ 1-a besitzen, wobei die Approximation für wachsendes n beliebig gerrau wird. Bei den obigen Ausführungen haben wir von der speziellen Gestalt (1) der Varianzschätzung keinen Gebrauch gemacht, sondern nur ihre Konsistenz (10) ausgenutzt. Folglich gelten alle Resultate dieses Abschnitts auch für jede konsistente Schätzung a2(X) der Varianz, weil diese ebenfalls (10) erfüllt. Beispiel: Haltbarkeitsdauer eines Medikaments Die Haltbarkeitsdauer X (in Tagen) eines spezifischen Medikamentes kann als Zufallsvariable mit einer zunächst nicht bekannten Verteilung betrachtet werden. Eine Verbraucherorganisation will eine untere 95%-Grenze (t u für die erwartete Haltbarkeitsdauer fL = E(X) ermitteln. Bei n = 25 unabhängigen Messungen ergab sich der Mittelwert x= 107,5 mit einer Streuung von a(x) = 12,7 und die Schätzung auf a war a( x) = 63,5. Aus dem 5%-Quantil z 5 % = 1,645 ergibt sich die Bandbreite d5% = 20,9 und somit eine untere Grenze von ftu,S% = 86,6 Tagen. Man beachte, daß die Sicherheit dieser Grenze nur approximativ 95% beträgt. Konfidenzgrenzen für den Erwartungswert 15.1.16 10-10 10.3* Exakte Konfidenzgrenzen für den Erwartungswert einer Normal-Verteilung mit unbekannter Varianz Nachdem wir in Konfidenzgrenzen des Erwartungswerts mit der asymptotischen Sicherheit 1- a bei beliebiger Verteilung von X hergeleitet haben, wollen wir jetzt die exakte Sicherheit dieser Grenzen für normalverteiltes X bestimmen, d.h. für den Fall (1) L(X) = N(p,, a 2 ). Hierbei wird sich herausstellen, daß die exakte Sicherheit der asymptotischen Grenzen aus 10.2 für festen Umfang n stets kleiner als die angestrebte Sicherheit 1- a ist, obwohl sie für n---+ oo (sogar monoton aufsteigend) gegen 1- a konvergiert. Als Konsequenz daraus werden wir dann eine (mit wachsendem n geringer werdende) "Korrektur" der Grenzen aus 10.2 einführen, die bei normalverteiltem X dann die exakte Sicherheit 1- a haben. Die Herleitungen der hierfür benötigten Resultate gehen jedoch teilweise über den hier zur Verfügung stehenden Rahmen hinaus und werden deshalb nur skizziert. Zur Berechnung der exakten Irrtumswahrscheinlichkeit 10.2 (12) der unteren Grenze benötigt man die exakte Verteilung der geschätzten Standardisierung des Mittelwerts X (2) T(X) == X-p, a(X) wobei Die Herleitung der Verteilung von T(X) erfolgt in drei Schritten, die hier jedoch nur beschrieben, aber nicht bewiesen werden. Im ersten Schritt leitet man die Verteilung der Varianz-Schätzung a2(X) her (vgl. auch 8.3.3) (4) a2 2 aA2(X) ,. . .__ --·x n-1 n-1 bzw. n-1 - ·aA2(X) ,. . .__ X2n-1. a2 Als zweiten Schritt zeigt man, daß der Mittelwert X stochastisch unabhängig von der Varianz-Schätzung a2(X) ist. Hieraus ergibt sich im dritten Schritt, daß T(X) eine sogenannte (Student'sche) t-Verteilung mit n- 1 Freiheitsgraden besitzt (5) oi(T(X)) = tn-1" Allgemein läßt sich die t -Verteilung mit dem Freiheitsgrad n E W wie folgt charakten risieren. Sind U und V stochastisch unabhängig reelle Zufallsvariablen mit Konfidenzgrenzen für den Erwartungswert (6) L(U) = N(O, 1L L(V) = x2n 10-11 15.1.16 ! so hat die Verteilung des Quotienten (7) u = T eine t-Verteilung mit n Freiheitsgraden, die William Sealey Gasset (1876 - 1937) unter dem Pseudonym ,,Student" publiziert hat. Die t -Verteilung hat IR als Träger und n ihre Dichtefunktion cp ist (vgl. Abb. 3) n 2 (8) cp (x) = a (1+~)- n n 1l.±l 2 n für xE IR, wobei die Normierungs-Konstante a unter Verwendung der Eulerschen-Gamman funktion r definiert ist durch (9) an = r(n~l) I (r( ~) v;;-). Die Dichte cp beschreibt eine um x=O symmetrische Glockenkurve mit den Wenn depunkten in x = ± )nj(n+2). Die zugehörige Verteilungsfunktion P ist n X (10) J cpn(u)du Pn(x) =P{tn <x} = - -4 -3 -2 fürxEIR. 00 -1 0 1 2 3 4 Abb. 3: Dichte cp der t -Verteilung für die Freiheitsgrade n = 1, 2, 5, 500. Für n = 500 n n unterscheidet sich die Dichte cp im Rahmen der Zeichengenauigkeit nicht n mehr von der Dichte cp der Standard-Normalverteilung N(0,1). Konfidenzgrenzen für den Erwartungswert 10-12 1501.16 Aus der Symmetrie der Dichte erhält man für die Verteilungsfunktion (11) <I> n (-x) = 1-Pn (x) für x E IR, Die t - Verteilung ist übrigens die Cauchy-Verteilung C(O, 1) aus 7.3.30 1 Nach diesen Vorbereitungen ergibt sich die Sicherheit sowohl der oberen als aus der unteren Grenze aus 10.2 zu Man kann zeigen (worauf wir hier verzichten), daß diese exakte Sicherheit stets kleiner als die anvisierte Sicherheit ist, doho Mit dem oberen a-Quantil t (14) n,a tn,a : = <I>-n1 ( 1- a) der t -Verteilung, definiert durch (vgl. AnhangT) n bzwo P{ tn> tn,a } = a 0 tn·cx t-Dichte mit a-Qua:n'til ergeben sich mit der Bandbreite (15) dn;a t 0 n-1,a _l_ G-(X) yn 0 jetzt Konfidenzgrenzen zur exakten Sicherheit 1- a {L(X) - d (16) n;a = X- dn;a (untere Grenze) (17) (obere Grenze) doho für diese Grenzen gilt (18) P { {L u,a (X) < ~t} = 1 - a = P { ~t < {L o,a (X) } Die Grenzen (16) und (17) sind stets weiter vom Mittelwert X entfernt als die Grenzen aus 10.2, denn man kann zeigen (worauf wir hier verzichten) Konfidenzgrenzen für den Erwartungswert (19) z a < tm,a 15.1.16 10-13 für alle m E W. Grob gesprochen sind die gegenüber 10.2 etwas "weiteren" Grenzen der Preis dafür, daß man die unbekannte Varianz a 2 geschätzt hat. Allerdings wird der Unterschied der Bandbreite m---+ dn; a da zu für wachsendes n geringer, weil die t-Quantile t m,a für oo (sogar streng monoton wachsend) gegen z konvergieren. Ct Bei wachsendem Freiheitsgrad konvergiert sogar die Dichte cp der t Verteilung n n punktweise gegen die Dichte cp der Standard-Normalverteilung N(0,1) - vgl. Abb 3.- lim (20) n---+oo cpn (x) = cp(x) für alle xE IR. Hieraus folgt (was hier nicht gezeigt wird) sowohl die punktweise Konvergenz der Verteilungsfunktionen (21) lim P n (X) = P (X) n---+oo für alle x E IR, und somit auch die Verteilungskonvergenz t (22) n L n---+oo N(0,1), als auch die Konvergenz der Quantile tn,a (23) n---+ oo z a 0 Bei praktischen Anwendungen stellt sich nun die Frage, ob man die Konfidenzgrenzen aus 10.2 mit der approximativen Sicherheit oder die etwas "weiteren" Grenzen aus (16) und (17) verwenden soll, die bei normalverteiltem X die Sicherheit exakt einhalten. Ein pragmatisches Vorgehen ist, bei stetig verteiltem X vorsichtshalber die "weiteren" Grenzen zu benutzen, und bei diskretem X die Grenzen aus 10.2 zu bestimmen, wobei der Unterschied beider Methoden bei wachsendem n immer geringer wird. Beispiel: Bleigehalt im Apfelsaft Zur Bestimmung des Bleigehalts X [in mg/1] einer Apfelsaftsorte werden von einer Verbraucherorganisation n = 25 zufällig ausgewählte Flaschen analysiert. Dabei ergab sich ein Mittelwert von X: = 0,520 als Schätzung des erwarteten Bleigehalts p, = E(X), und a= 0,4 71 als Schätzung der Standardabweichung von X. Als obere Konfidenzgrenze für p, zur Sicherheit von 99% ergibt sich mit t 24 . 1% = 2,492 und ' dl%, 25 = 0,235 zuP,o,l% = 0,755. D Konfidenzgrenzen für eine Wahrscheinlichkeit 11 21.1.16 11-1 Konfidenzgrenzen für eine Wahrscheinlichkeit Es sollen jetzt Konfidenzgrenzen für eine Wahrscheinlichkeit p1 also für den Erwartungswert p, = p der Bernoulli-Verteilung B(1,p) konstruiert werden, den wir mit p (statt wie in Kapitel 10 mit p,) bezeichnen. Der Ausgangspunkt ist eine Stichprobe mitnunabhängigen B(1,p)-verteilten Zufallsvariablen XF ... Xn mit 0 <p < 1. Da die folgenden Betrachtungen nur von der Summe X+:=X + ... +Xn mit B(n1 p)-Vertei1 lung abhängen, gehen wir vereinfachend gleich von der B(n,p)-verteilten Zufallsvariable X+ aus, wobei wir den Index "+" fortlassen, d.h. wir setzen X:= X+,.....__ B( n,p). Für eine Realisierung x E { 0, ... n} von X ist die (Punkt-)Schätzung von p nach 8.2.1 gegeben durch die relative Häufigkeit (1) p(x)== lx. n Der zugehörige Schätzer p(X) = 1. X hat eine skalierte Binomialverteilung, d.h. n (2) L(ß(X)) = ~- B(n,p) cL(n. p(X)) = B(n,p), bzw. und somit gilt für x E { 0, ... n} (3) P{ p(X) = ~} = P{ X= x} = b(xln,p) == (~) p·x(1- Pt-x. Gesucht sind eine untere Konfidenzgrenze p u,a po, Ct (X) (X) sowie eine obere Konfidenzgrenze für p, deren Sicherheit (4) P{ Pu,a (X) <p} (Sicherheit der unteren Grenze) (5) P{p<po,a (X)} (Sicherheit der oberen Grenze) einen vorgegebenen Wert 1- a erreichen soll, wobei a die vorgegebene Irrtumswahrscheinlichkeit ist mit (6) bzw. 0<a<1-a<l. Es ist allerdings nicht ohne weiteres möglich sinnvolle Grenzen zu finden, deren Sicherheit genau der Vorgabe 1- a entsprechen. Wir konstruieren daher zuerst die 1934 von C. J. Clopper und E. S. Pearson (1895 - 1980) vorgeschlagenen exakten Grenzen1 deren Sicherheit mindestens (aber nicht genau) 1- a beträgt, weshalb man sie auch als konservativ im Hinblick auf ihre Sicherheit bezeichnet. Im Anschluß werden dann die auf der Normalapproximation der Binomialverteilung basierenden asymptotischen Grenzen behandelt, deren Sicherheit nur approximativ gleich 1- a ist. Konfidenzgrenzen für eine Wahrscheinlichkeit 11.1 21.1.16 11-2 Die exakte obere Konfidenzgrenze nach Clopper-Pearson Für eine Realisierung x E { 0, ... n} von X und wollen wir zuerst eine obere Konfidenzgrenze po, 0: (x) für p zur Sicherheit 1- a konstruieren. In Analogie zu 10.1 (19) soll die obere Grenze das Maximum aller möglichen Werte p sein, unter denen die Beobachtung x oder kleinere Werte noch mindestens die Wahrscheinlichkeit a besitzen. Hierzu betrachten wir die Verteilungsfunktion von X X (1) F(xlp) == P{X<xlp} = l:b(iln,p) i=O = P{ p(X) < ~ I p} für x E { 0, ... n} mit der Monotonie-Eigenschaft (2) F( x I p) ist für x < n streng fallend in p , die sich sofort durch Differenzieren nach p ergibt, weil (3) a x-n - F(xlp) = - - b(xln,p) 8p 1-p <0 für x<n. Als Grenzwerte für p---+ 0 bzw. p---+ 1 ergeben sich (4) F(xl 0) == lim F(xlp) (5) F( x 11) : = lim F( x I p) { 0 (6) b(xln,O) == lim b(xln,p) { (7) b( x I n , 1) : = lim b( x I n , p) 1. p----+0 p----+1 1 falls falls x<n x=n 1 0 falls falls x=O x>O 1 falls falls x=n x<n weil p----+0 p----+1 ={ 0 Für x < n definiert damit F( x Ip) als Funktion in p eine streng fallende, bijektive Funktion F( x 1-): [0, 1] (8) F(nlp) = 1 -----+ [ 0, 1]. Und im Fall x = n ist F( x Ip) konstant für alle 0 < p < 1. Für eine Realisierung x soll die obere Grenze po,o: (x) maximal unter allen Werten p gewählt werden, bei denen die Wahrscheinlichkeit F(xlp) für die Beobachtung x und kleinere Werte noch mindestens a ist (vgl. Abb. 1). Deshalb definieren wir Konfidenzgrenzen für eine Wahrscheinlichkeit pa o: (x) : = (9) ' Folglich ist (10) Max { 0 < p < 1 I F( x Ip) > a} = Max { 0 < p < 1 I P{ X< x I p} > a} pa, (x) (X 11-3 21.1.16 (exakte obere Grenze), >0 eindeutig bestimmt durch F(xlßa, (X (x)) = a für x<n, pa, (n) für x= n. = 1 wobei pa, (x) < 1, (X (X Die Irrtumswahrscheinlichkeit dieser exakten oberen Konfidenzgrenze ist allerdings nur höchstens so groß wie die Vorgabe a (11) Max { F(ll p) < a ll = 1, ... , n } F(L~a) IP) < wobei a L~a) = Max{l=O, ... ,niF(llp)<a} und somit ist die Sicherheit der oberen Konfidenzgrenze p mindestens 1- a. o,o: (12) P{ p < pa o:(X)} > 1- a . ' Deshalb bezeichnet man diese Konfidenzgrenze als konservativ im Bezug auf ihre Sicherheit. Der Grund hierfür ist, daß die Binamial-Verteilung B(n,p) eine diskrete Verteilung ist, deren Verteilungsfunktion F(x Ip) in x = 0, ... , n unstetig ist und die folglich nicht notwendig den vorgegeben Wert a- an der Stelle LF(a) -annimmt. Betrachte man die obere Grenze pa,o: (x) als Funktion der Irrtumswahrscheinlichkeit a, so ergibt sich aus (10) und der Monotonie-Eigenschaft (2) sofort (13) pa, (x) (X ist für x < n streng fallend in a. Bei Verringerung von a wächst für x< n daher die obere Grenze p (x). Für a---+ 0 a,o: gilt sogar p (x)---+ 1, d.h. die Information der oberen Grenze wird immer geringer. a, (X Für x < n ist die obere Grenze (14) E._ n p (x) ~o: stets größer als die relative Häufigkeit E._ n = p(x) < p (x) a,o: für und für x = n gilt (15) p(n) Pa o:(n) ' 1. x< n, Konfidenzgrenzen für eine Wahrscheinlichkeit 11.2 11-4 21.1.16 Die exakte untere Konfidenzgrenze nach Clopper-Pearson pu Für die Konstruktion einer unteren Konfidenzgrenze betrachten wir analog die "obere" Verteilungsfunktion n (1) G(xlp) == 2:: b( i In,p) P{X>xlp} 1- F(x-1lp) z=x = P{ p(X) > ~ I p } für x E { 0, 000 n} für die gilt (2) G( x Ip) ist streng wachsend in p für x> 0, G(Oip) = 10 Die untere Grenze pu,a (x) soll nun minimal unter allen Werten p gewählt werden, bei denen die Wahrscheinlichkeit G(xlp) für die Beobachtung x und größere Werte noch mindestens a ist (vgl. Abbo 1)0 Also definieren wir = Min { 0 < p < Folglich ist (4) 11 P{ X> x I p} > a} (exakte untere Grenze), pu,a (x) < 1 eindeutig bestimmt durch G( x I pu,a (x)) pu,a (0) = a für x> 0 1 = 0 für x= 0 pu,a (x) > 0, wobei 0 Die Irrtumswahrscheinlichkeit dieser unteren Konfidenzgrenze ist höchstens so groß wie die Vorgabe a (5) Max { G(ZI p) < a ll = 1, 000, n} G(LG(a) IP) < a LG(a) = Min{l=O, wobei 000, n I G(Zip) <a} und somit ist die Sicherheit der unteren Konfidenzgrenze pu,a mindestens 1- a, doho die untere Grenze ist ebenfalls konservativ: Betrachte man die untere Grenze pu,a (x) als Funktion der Irrtumswahrscheinlich- keit a, so ergibt sich aus (4) und der Monotonie-Eigenschaft (2) sofort Konfidenzgrenzen für eine Wahrscheinlichkeit ist für x > 0 streng wachsend in a. pu,a (x) (7) 11-5 21.1.16 Bei Verringerung von a fällt für x> 0 daher die untere Grenze pu,a(x). Für a---+ 0 gilt sogar p (x)---+ 0, d.h. die Information der unteren Grenze wird immer geringer. u,a Für x > 0 ist die untere Grenze (8) < Pu a(x) und für x = 0 gilt (9) 0 ' = pu,a (0) = p(x) p (x) ~a stets kleiner als die relative Häufigkeit E._ n = E._n für x> 0, p(O) . Pu a(x) ß(x) 1 t ~ 0,, 0,2 10 20 i ß(x) Po o.(x) ) ! 0,3 0.4 0,5 0,1 0,2 30 40 50 10 20 i J 0,3 0.4 0,5 30 40 50 X X Abb 1: B(n,p)-Dichte von X bzw. p(X) (untere bzw. obere Skala) für verschiedenes p und n = 100 zur Interpretation der exakten Konfidenzgrenzen für die Beobachtung x. rechts: p = p(x) und p = pOQ (x) aus 11.1 (9) mit F(xlp) als markierter Fläche. links: p = p(x) und p = p' (x) aus 11.2 (3) mit G(xlp) als markierter Fläche. u,a 11.3 Das exakte zweiseitige Konfidenzintervall Wegen 0 < a (1) <~ ist die untere Grenze stets kleiner als die obere, d.h. es gilt für O<x<n. Bestimmt man nun die untere und obere Grenze jeweils zur halben Irrtumswahrscheinlichkeit ~ (an Stelle von a), so ergibt sich das zweiseitige Konfidenz-Intervall Konfidenzgrenzen für eine Wahrscheinlichkeit I (x) = ( p 9'(xL p 9'(x) ) (2) a u, 2 11-6 21.1.16 (exaktes zweiseitiges Intervall) o,2 mit der (exakten) Sicherheit von mindestens 1- a, d.h. es gilt (3) P{pu,2Q'(X)<p<po,2Q'(X)} > 1-a. Ein Vergleich der Grenzen des zweiseitigen Intervalls mit jeweiligen einseitigen Grenzen zur gleichen Sicherheit ergibt, daß die einseitigen Grenzen jeweils "enger" sind: (4) pu, a(x) < pu,a (x) für x> 0, < po, a(x) po,a (x) 2 für x< n. 2 Ist man nur an einer einseitigen Abschätzung von p nach oben bzw. unten interessiert, so sollte man daher stets die zugehörige obere bzw. untere einseitige Grenze und nicht das zweiseitige Intervall I (x) verwenden. Ct 11.4 Berechnung der exakten Grenzen Leider läßt sich die exakte obere Grenze nur im Fall x = 0 und die untere Grenze nur für x = n explizit angeben 1 (1) Pa a(O) 1 1- an, = ' pu,a (n)=an. Für x < n läßt sich die obere Grenze nicht als explizite Funktion in x und a darstellen, sondern kann nur iterativ bestimmt oder aus Tabellen abgelesen werden. Die obere Grenze (2) po,a (x) ist die (eindeutige) Nullstelle der Funktion H(p) = F(xlp)- a und kann z.B. mit dem Newton-Verfahren oder einer ("ableitungsfreien") Intervallschachtelung ermittelt werden. Als Startwert bietet sich die Schätzung p(x) =~ an n sofern sie im offenen Intervall (0, 1) liegt - oder man kann die asymptotische obere Grenze aus 11.5 verwenden. Die untere Grenze pu,a (x) kann prinzipiell analog bestimmt werden, läßt sich aber für x> 0 wegen des Zusammenhangs G(xlp) = 1-F(x-1lp) sogar formal auf die Bestimmung einer oberen Grenze zurückführen: (3) für x> 0. Eine weitere Möglichkeit zur Bestimmung der unteren Grenze aus der oberen (oder umgekehrt) beruht auf dem Zusammenhang Konfidenzgrenzen für eine Wahrscheinlichkeit G( x Ip) = F( n -x Iq) (4) 11-7 21.1.16 mit q= 1-p der sich daraus ergibt, daß die Zufallsvariable Y = n- X eine B( n, q)- Verteilung hat. Die untere Grenze für p ergibt sich dann als komplementäre Wahrscheinlichkeit zur oberen Grenze für q, d.h. (5) mit y = n-x Man kann diese Konfidenzgrenzen auch aus Quantil-Tabellen für die F-Verteilung entnehmen (vgl. 11.5). Zwischen der Verteilungsfunktion P k l der Fk (Verteilung und der B(n,p)- Verteilung besteht folgender (exakter) Zusammenhang (der hier nicht hergeleitet wird) P { B(n,p) < x} = P { Fk l > u} (6) k=2(x+1), bzw. F( x I p) = 1- P k l (u) mit l p u=-·-k 1- p l = 2(n-x), Unter Verwendung des oberen a-Quantils Fkl·rx der Fk( Verteilung (vgl. Anhang T, ' Seite 8-12) erhält man folgende Darstellung der Konfidenzgrenzen (7) Pu,rx(x) = 1 ~a k a = y·Fkl;rx' (8) Pa,rx(x) = 1~ a k a = y·Fkl;rx' In den beiden Grenzfällen x = 0 (d.h. (exakte untere Grenze) für 0 < x mit k=2(n-x+1), l = 2x. (exakte obere Grenze) für x < n mit k=2(x+1), l = 2(n-x), p= 0) bzw. x = n (d.h. p= 1) lassen sich die exakten Grenzen sogar direkt angeben (9) pu,rx (n) pu,rx (0) = 0' 1 =an (exakte untere Grenze), 1 (10) Pa a(O) = 1- an' ' po, (X (n) = 1 (exakte obere Grenze). Konfidenzgrenzen für eine Wahrscheinlichkeit 11-8 10.3.16 Beispiel: Erfolg einer Therapie In der Tagespresse wird berichtet, daß bei der Anwendung einer neuen Therapie in nur p= 12% ein Versagen beobachtet wurde, wobei die Anzahl n = 25 der Anwen- dungen und die beobachte Zahl x = np = 3 des Versagens nicht genannt wird. Die exakte obere 95%-Konfidenzgrenze der Versagenswahrscheinlichkeit p ergibt sich aus (8) mit k = 8, l = 44, Fkl·S% = 2,157 und a = 0,3922 zu (vgl. auch 11.6 Abb. 4) ' p0 für = 28,2% n = 25, p=12%. Man beachte, daß diese obere Grenze - bedingt durch den kleinen Stichprobenumfang n = 25 - mehr als doppelt so groß sind, wie die beobachtete Rate p= 12%. Wenn bei dem vierfachen Umfang n = 100 auch wieder in gen beobachtet wird, d.h. p= 12% Fällen ein Versa- x = np = 12, so ergibt sich k = 26, l = 176, Fk l· S% = 1,559 und a = 0,2303 die erheblich geringere obere Grenze (vgl. auch 11.6 Abb. 4) p0 für = 18,7% n = 100, ' p=12%. Die F- Verteilung 11.5 Der Vollständigkeit halber sind die Definition und grundlegenden Eigenschaften der nach R. A. Fisher (1890 - 1962) benannten F-Verteilung hier zusammengestellt, allerdings ohne Beweise. Sind U und V unabhängige reelle Zufallsvariablen mit Chiquadrat-Verteilungen 2 , L(U) = xm (1) L( V)= x2n , so heißt die Verteilung des Quotienten (2) F lu m ly n eine zentrale F-Verteilung mit (Zähler-)Freiheitsgrad m und (Nenner-)Freiheitsgrad n1 und wird kurz mit F m,n (3) bezeichnet Fm,n = L(F). Die F m,n -Verteilung läßt sich suggestiv auch schreiben als Konfidenzgrenzen für eine Wahrscheinlichkeit (4) 2 m,n 2 für unabhängige xm und x n Fm,n Die F 11-9 21.1.16 -Verteilung besitzt eme Dichte cp m,n 0 , die nur auf dem positiven Bereich (O,oo) von Null verschieden ist, und dort gegeben ist durch (x) = d · xP- 1(mx + n)-(p+q) (5) cp (6) p=2m, (7) P q F(p+q) dm,n- m n r(p) r(q)' m,n m,n 1 q=l.n 0 mit und 2 0 wobei > 0 r die Eulersche Gammafunktion ist. Die Dichte cp m n beschreibt für positive Argumente x im Fall m < 2 eine monoton fallende Kurve ' und im Fall m > 2 eine schiefe "Glockenkurve" mit einem Maximum .. _ n(m-2) f ur x- m(n+ ) < 1. 2 64 m = 1, 4, 16, 64 m=8 n = 1, 4, 16, 64 n=8 0 .5 0 .5 0 2 Abb. 2: Dichten der F 3 m,n Die Verteilungsfunktion P 4 0 3 4 -Verteilung für verschiedeneFreiheitsgradem und n. m,n der F m,n -Verteilung ist auf (O,oo) streng monoton wachsend und dort gegeben durch X (8) 2 P m,n (x) =P{Fm,n <x} = J cp m,n (u)du. 0 Konfidenzgrenzen für eine Wahrscheinlichkeit Das obere a-Quantil F (9) F m,n;o: der F m,n;o: m,n 11-10 21.1.16 -Verteilung ist für 0 < a < 1 definiert durch : = P-l (1- a) m,n bzw. P{Fmn>Fmn·o: }=a. ' ' ' O ,, Fmn·a F-Dichte mit o:-Quantil Der Erwartungswert existiert nur für n > 2 und hängt nicht von m ab: (10) E{Fm,n } = ___!2_ n- 2 > 1 für n> 2. Und die Varianz existiert erst für n > 4 und ist dann (11) 2n 2 (m+n-2) Var{F } = m,n m (n- 2) 2 (n- 4) für n>4. Bei Vertauschen beider Freiheitsgrade ergibt sich (12) 1 F -- n,m F m,n (13) P n,m (x)=1-P m,n (l) x (14) Fn,m;o: 1 F für x > 0, für 0 < a < 1. m,n;l-o: Für den Zähler-Freiheitsgrad m = 1 ergeben sich folgende Zusammenhänge zur t -Verteilung und deren Verteilungsfunktion P : n n 2 (15) F (16) Pl ,n (X) = 1 - 2 P n (- Vx) für x (17) Fl,n;o: = t 2n;o:/2 für 0 < a l,n = t n > 0, < 1. Konfidenzgrenzen für eine Wahrscheinlichkeit 11.6 11-11 21.1.16 Asymptotische (approximative) Konfidenzgrenzen Unter Verwendung der Normalapproximation für die Binomialverteilung B(n,p) wollen wir jetzt sogenannte asymptotische Konfidenzgrenzen für p konstruieren, deren Sicherheit nur approximativ gleich 1- a ist, wobei die Approximation für wachsendes n beliebig gerrau wird. Ausgangspunkt ist der Binomial-Grenzwertsatz B(n,p)- np a(p) yfn (1) (2) n---+ oo N(0,1) wobei a(p) == Jp(1-p) die Standardabweichung der B(1,p)- Verteilung als Funktion von p darstellt. Für eine Realisierung x E { 0, ... n} von X bezeichnen wir die Schätzung jetzt mit (3) x== p x = 1nx' - A ( (relative Häufigkeit). ) Unter Verwendung der Verteilungsfunktion P von N(O, 1) ergeben sich die (mit wachsendem n besser werdenden) Approximationen der Funktionen F und G Jn(x- p)) (4) X-np x-np} F(xl n,p) = p { a(p) yfn < a(p) yfn ~ (5) ( I ) {X-np x-np} ( np-x ) (fo(p-x)) G x n,p = p a(p) yfn > a(p) yfn ~ P a(p) yfn = P a(p) . <I> ( a(p) ' Man beachte, daß die Stetigkeitskorrektur von ~ (vgl. 9.3.1) hier nicht verwendet wird, obwohl diese die Güte der Approximation in (4) (5) verbessern würde. Unser Ziel hier ist es jedoch nicht, die exakten - und konservativen - Konfidenzgrenzen mö- glichst genau zu approximieren. Sondern wir wollen asymptotische Grenzen konstruieren, die approximativ die Sicherheit 1- a einhalten und dabei nicht notwendig kon- servativ sind. Das Fortlassen der Stetigkeitskorrektur in (4)(5) hat diesen Effekt. Zur Konstruktion der asymptotischen oberen Grenze im Fall x < n wollen wir statt der Gleichung F(xln,p) = a jetzt die approximierte Gleichung lösen (vgl. Abb. 3) (6) <~>(yln(x-p)) a(p) = a bzw. yln(p- x) a(p) Za mit (7) (oberes a-Quantil von N( 0, 1)). 0 Za N(O, 1)-Dichte mit a-Quantil Konfidenzgrenzen für eine Wahrscheinlichkeit p(x) poa(lj i u,a (x) ft(x) 1 1 0 ,1 0 ,2 10 20 t 11-12 21.1.16 1 ! 0 ,3 0.4 0 ,5 0 ,1 0 ,2 30 40 50 10 20 X i 0 ,3 0 ,4 0 ,5 30 40 50 X Abb 3: Normalapproximation der Dichte von X (untere Skala) bzw. der Dichte von p(X) (obere Skala) für n = 100 und verschiedene Werte von p zur Interpretation der asymptotischen oberen Grenze p (x) (rechts) und der unteren Grenze p (x) (links) o,a u,a für eine Beobachtung x. links: Die markierte Fläche entspricht der nach (5) approximierten Wahrscheinlichkeit G(xlp) und die untere Grenze p (x) ist das Minimum aller Werte p, bei dem UD' diese Fläche noch mindestens a ist. ' rechts: Die markierte Fläche entspricht der nach (4) approximierten Wahrscheinlichkeit F(xlp) und die obere Grenze p (x) ist das Maximum aller Werte p, bei dem diese 00' Fläche noch mindestens a ist. ' Und analog wird im Fall x > 0 die untere asymptotische Grenze als Lösung der approximierten Gleichung verwendet (vgl. Abb. 3) (8) P( yln(pa(p) x)) - - a bzw. yln(p- x) a(p) Zur Lösung der Gleichungen (6) bzw. (8) betrachten wir die quadratische Funktion (9) 2 ap -bp+c mit (10) a == n + z0'2 > 0 ' b : = 2n -X+ Z 0'2 = 2 X+ Z 0'2 > 0, -2 1 2 c==nx =-x >O n Konfidenzgrenzen für eine Wahrscheinlichkeit - (11) (12) p m 1 (x) 1 D(x) 2 X+ 27i"Za pm(x)- 1 2 b 2 2a x+2za + 1._n za2 2 11-13 21.1.16 E (0, 1) , n+zQ -2 X 2 X p2 (x)- 1 2 m 1 +-z n a n( n +z;) 2 c p (x)- m a > 0 0 Wir werden jetzt zeigen, daß die Nullstellen der Funktion f die gesuchten asymptotischen Grenzen sind. Zunächst definieren wir die Grenzen als die Nullstellen von f (13) po,a (x) + /l5lX) (asymptotische obere Grenze) 1 (14) pu,a(x) == pm (x)- /l5lX) (asymptotische untere Grenze). == p m (x) und zeigen, daß sie die gewünschten Eigenschaften haben. Beide Grenzen liegen im Intervall [ 0,1] und schachteln die beobachtete relative Häufigkeit p(x) = x ein Im Fall x = 0 bzw. x = n ist (wie bei den exakten Grenzen) die asymptotische untere Grenze gleich 0 bzw. die obere Grenze gleich 1, und es gelten (16) 0 = pu,a (0) < po,a (0) < 1' (17) 0 < pu,a (n) < po,a (n) 1. Und im Fall 0 < x < n gilt in (15) an keiner Stelle die Gleichheit (18) 0 < pu,a (x) < p(x) < po,a (x) < Im Fall x < n ist die obere Grenze po, 0: (x) falls 1 0 < x < n. die einzige Lösung der approximierte Gleichung (6) im Intervall (0, 1). Und im Fall x> 0 ist die untere Grenze pu,o: (x) die einzige Lösung der approximierte Gleichung (8) im Intervall (0, 1). Nachdem wir die asymptotischen Grenzen jetzt definiert haben, wollen wir zeigen, daß sie approximativ die angestrebte Sicherheit 1- a haben. Aus den fundamentalen Äquivalenzen (19) p < po, 0: (x) x- np < z 0: · a(p) JTi, np- x < z · a(p) JTi. 0: Konfidenzgrenzen für eine Wahrscheinlichkeit 11-14 21.1.16 ergibt sich die Sicherheit dieser Grenzen zu (20) < po, 0:(X)} P{np-X < zo:·a(p)fo} ~ 1-a, P{p u,o: (X)< p} P{X-np < zo:·a(p)fo} ~ 1-a. P{p Diese Approximationen gehen für wachsenden Umfang n in Gleichheiten über. Genauer ergibt sich, wenn wir X= x(n) jetzt oben mit dem Umfang n indizieren: lim P{p<p (21) n---+oo o, o: (x(n))} = 1-a, lim P{p n---+oo u, o: (x(n)) <p} = 1-a. Man beachte, daß für ein konkretes n die Sicherheit des asymptotischen Grenze auch geringer als 1- a sein kann, während die exakte Grenze eine Sicherheit von mindestens 1- a garantiert. Dies ist der Grund dafür, daß die asymptotischen Grenzen typischerweise (aber nicht notwendigerweise) enger als die entsprechenden exakten Grenzen sind, und somit das asymptotische Intervall (von unterer bis oberer Grenze) im Intervall der exakten Grenzen enthalten ist (vgl. Abb. 4). Generell sind die exakten Grenzen den asymptotischen vorzuziehen und man sollte letztere nur verwenden, wenn die für die exakten Grenzen erforderlichen F-Quantile nicht zur Verfügung stehen .. Betrachte man die asymptotischen Grenzen als Funktion der Irrtumswahrscheinlichkeit a, so ergeben sich (wie bei exakten Grenzen) die Monotonie-Eigenschaften (22) pu,o:(x) ist für x > 0 streng wachsend in a, (23) po,o: (x) ist für x < n streng fallend in a. Beim Übergang von X ,.....__ß(n,p) auf die Zufallsvariable Y=n-X mit B(n,q)-Verteilung ergibt sich die untere bzw. obere Grenze für q = 1- p zur Beobachtung y = n- x als komplementäre Wahrscheinlichkeit der oberen bzw. unteren Grenze für p zur Beobachtung x (vgl. auch Abb. 4), d.h. (24) mit y = n-x. Beispiel: Erfolg einer Therapie (Fortsetzung aus 11.4) Wir wollen jetzt zum Vergleich auch die asymptotische obere 95%-Konfidenzgrenze p0 für das Therapieversagen berechnen. Für n = 25 und p= 12% ergeben sich mit z % = 1,645 (aus Tabelle T 3 im Anhang) die Hilfsgrößen aus (10) - (12) zu 5 Konfidenzgrenzen für eine Wahrscheinlichkeit a = 27,7055, b = 8,7055' P = 15,71%, m c = 0,3600' po ist geringer als die zugehörige vative) obere Grenze p (vgl. auch Abb. 4 zur Erläuterung) 0 Die asymptotische obere Grenze p0 p0 = 26,5%' für = 28,2% n = 25, Bei dem vierfachen Umfang n = 100- auch wieder mit b = 26,7055 , a = 102,7055 , 11-15 21.1.16 exakte (und konser- p=12% 0 p= 12%- ergibt sich aus P = 13,oo% , m c = 1,4400' JIJ = 10.81%. JIJ = 5.37% die von p nur gering abweichende asymptotische obere 95%-Konfidenzgrenze 0 p0 p0 = 18,3%' für = 18,7% n = 100, relative Häufigkeit in Prozent 100 95 90 85 80 75 70 65 60 55 50 65 60 exakte Grenzen / 55 / " einseitig : a = 5% 1:50 Ql ~45 0:: .s: 40 f' ~c: 35 0 . '' . Ci 30 n = 100 N .... lii 25 'E 20 "0 ( 15 / •' / . .J I" 0 ~~·/' "/ / / .. 35 65 35 40 60 4CI 45 55 45 506 E 50 555 ~ 45 55~ a. (!) 60~ .s: 4CI 60 ~ 65~ CD ~35 c: 65~ (I) 70![l t5 30 70 ![l ~25 'E 20 755" -u 8o2 0 ~ as:a. ro / ·"' • n = 25 / D 12% . relative Häufigkeit in Prozent 100 95 90 85 80 75 70 65 60 55 50 0.. n = 25; ' Ql 0 ~ ' ' p= :J 75 5 4l ao2 (I) s5:a.. 506 Ql 0:: Ql :J N "0 (!) 15 10 90 10 90 5 95 5 95 0 0 4: 5 10 15 20 25 30 35 40 45 50 relative Häufigkeit in Prozent 0 5 10 15 20 25 30 35 40 45 50 relative Häufigkeit in Prozent Exakte und asymptotische untere und obere Grenzen für p zur (einseitigen) als Funktion der beobachteten relativen Häufigkeit Sicherheit von 95% x = ~ x für n = 25 und n = 100. Für x < 50% gilt die untere und linke Skala, und für x> 50% gilt die obere und rechte Skala. Das Intervall zwischen unterer und oberer Grenze hat eine Sicherheit von 90%. links: exakte Grenzen mit Ablesebeispielen für x = 12% und x =56%. rechts: Vergleich der exakten (Punkte) mit den asymptotischen (Linie) Grenzen. Die exakten Grenzen sind typischerweise weiter von der relativen Häufigkeit entfernt als die asymptotischen. Dies liegt daran, daß die exakten Grenzen konservativ sind und typischerweise eine höhere Sicherheit als 1- a haben1 während die asymptotischen Grenzen nur die approximative Sicherheit 1- a besitzen, die daher auch geringfügig kleiner als 1- a sein kann. Der Unterschied von exkater zu asymptotischer Grenze wird allerdings bei wachsenden n geringer. Abb Konfidenzgrenzen für eine Wahrscheinlichkeit 11-16 21.1.16 Die asymptotische obere und untere Grenze liegen symmetrisch um den Wert p (x), aber nicht um die Schätzung p(x). Für wachsendes n weicht p (x) allerdings m m immer weniger von p(x) ab. Gerrauer gilt (wobei wir X wieder mit n indizieren) p (25) n---+ oo o, und die Konvergenzgeschwindigkeit ist sogar von der Ordnung 1.. , weil n p (26) n---+ oo Die Abweichung der oberen bzw. unteren Grenze vom Symmetriepunkt p (x) wird m für wachsendes n immer kleiner, und gerrauer gilt p (27) n---+ oo 0, wobei die Konvergenzgeschwindigkeit von der Ordnung ist, weil p (28) 11.7 fo n---+ oo Grobe asymptotische (approximative) Konfidenzgrenzen Für eine B(n,p)-verteilte Zufallsvariable X wollen wir zusätzlich zu den bisherigen asymptotischen Konfidenzgrenzen für p jetzt noch grobe asymptotische Grenzen konstruieren, die einfacher zu bestimmen und für sehr hohes n (etwa ab n = 1000) oder grobe Abschätzungen geeignet sind. Obwohl es sich hierbei um einen Spezialfall der asymptotischen Grenzen aus 10.2 handelt (was sich erst weiter unten ergeben wird), wollen wir die groben Grenzen hier ohne Rückgriff auf die Resultate in 10.2 herleiten. - Der Schätzer für p ist die relative Häufigkeit (1) ß(X) = l.x. n Da die Varianz und die Standardabweichung von B(1,p) Funktionen von p sind a(p) = (2) J p[1- p] 1 ist es naheliegend a2(p) und a(p) wie folgt zu schätzen (3) a 2 (ß(X)) = p(X) [ 1- p(X)] , a(ß(X)) = J p(X) [1- p(X)] . Diese Schätzungen sind konsistent, weil p(X) eine konsistente Schätzung auf p ist, d.h. es gilt (wobei wir X jetzt wieder mit n indizieren) Konfidenzgrenzen für eine Wahrscheinlichkeit p (4) n---+ oo 11-17 21.1.16 a(p). Hieraus folgt, daß man im Binomial-Grenzwertsatz eLf (5) L fo(X(n)- p) } a(p) N(O, 1). L n---+ oo die Standardabweichung a(p) auch durch ihre konsistente Schätzung ersetzen kann fo(x(n)- p) } ~{ a(p(x(n))) (6) L n---+oo N(0,1). Hieraus ergeben sich dann die groben asymptotischen Grenzen für p po,a (X) : = p(X) + da (X) (7) da (X) (8) ~ a(ß(X)) = z · ~ J p(X) [1- p(X)] = z · avn (Bandbreite). avn 0 mit 0 Die Sicherheit dieser Grenzen konvergiert für n---+ oo gegen 1- a (wobei X wieder mit n indiziert ist) (9) lim n---+oo P{p u, a (x(n)) < p} = 1- a = lim n---+oo P{p < p o, a (x(n))}. Die groben Grenzen ergeben sich auch als Lösungen der Gleichungen 11.6 (6) bzw. (8), wenn man dort a(p) durch die Schätzung a(ß(X)) ersetzt. da der Grenzen von der Schätzung p = p(X) variiert mit der Schätist dQ ist maximal und für p---+ 0 bzw. p---+ 1 ergibt sich dQ ---+ 0. Die Abweichung zung: für p = 1 2 Wahlumfrage: Bei der "Sonntagsfrage" in 0.3 Abb.4 ist n = 1300 und die Bandbreite d0 der zweiseitigen 95%-Grenzen (d.h. a = 5%) wird dort als "Fehlertoleranz" 2 bezeichnet. Bei einem Stimmanteil p von 50% bzw. 5% ergibt sich mit z2,5% = 1,960 (aus Tabelle T 3 im Anhang) die Bandbreite d 2,5% zu 2,72% bzw. 1,18%, was den ge- rundeten Werten in 0.3 Abb.4 entspricht. D Die groben Grenzen haben gegenüber den sogenannten normalen asymptotischen Grenzen aus 11.6 mehrere Nachteile, die daraus resultieren, daß sie über die Schät- zung der Varianz a 2(p) eine zusätzliche Unsicherheit mit sich bringen. Typischerweise weicht die Sicherheit der groben Grenzen stärker von 1- a ab als die der normalen Grenzen. Außerdem können die groben Grenzen auch außerhalb des Intervalls [ 0, 1]liegen (vgl. Abb. 5), und ergeben im Fall p(X) E {0, 1} wegend Q (X) = 0 keine Konfidenzgrenzen für eine Wahrscheinlichkeit 21.1.16 11-18 sinnvollen Werte. Lediglich für Überschlagsrechnungen oder bei sehr großem Umfang n und nicht zu extremen Werten von p(X) (d.h. nicht zu dicht bei 0 oder 1) sind relative Häufigkeit in Prozent 100 95 90 85 80 75 70 65 60 55 50 relatlve Häutigkelt in Prozent 100 95 90 85 80 75 70 65 60 55 50 60 60 grobe Grenzen 55 55 einseitig : a=5% 50 40 grobe Grenzen dS'Ymptotlsct· e Grenzen einseitig : a=5% c 50 45 50 A ~ 45 55g ooi= 0 ~~ c ·a; 35 ~ N 65~ Q iji 30 703 ~~ ~~ ~c 25 75~ ~ 85~~ 'E 15 ~ 10 90 5 ~ 0 ~~~~~~~~~~~~~ 100 5 10 15 20 25 30 35 40 45 relative Häufigkeit in Prozent 5 10 15· 20 25 30 35 40 45 50 relative Häufigkeit in Prozent Abb 5: Grobe und asymptotische untere und obere Grenzen für p zur (einseitigen) Sicherheit von 95% als Funktion der beobachteten relativen Häufigkeit x = ~ x für n = 25 und n = 100. Für <50% gilt die untere und linke Skala, und für 50% gilt die obere und rechte Skala. links: Die grobe untere (bzw. obere) Grenze ist für kleines (bzw. großes) x sogar negativ (bzw. größer als 100%). rechts: Die Abweichung der groben (dünn) von den normalen (fett) Grenzen wird kleiner, je dichter p bei 50% liegt, und verringert sich bei wachsendem n. x x> Wir wollen jetzt präzisieren, in welchen Sinn die normalen mit den groben Grenzen für wachsendes n übereinstimmen .. In 11.6 haben wir bereits gezeigt, daß der Abweichung der beiden Symmetriepunkte p (X) bzw. p(X) nach Wahrscheinlichkeit m gegen 0 konvergiert. Die Abstände /I5()(j bzw. dQ (X) der Grenzen vom jeweiligen Symmetriepunkt konvergieren gegen 0 nach 11.6 (27) und (10) p n----+oo Za· a(p) 1 wobei ihr Quotient sogar gegen 1 konvergiert (11) p n----+oo Wie bereits angekündigt, ergeben sich die groben Grenzen als Spezialfall der asymp- Konfidenzgrenzen für eine Wahrscheinlichkeit 21.1.16 11-19 totischen Grenzen aus 10.2 wenn man X als eine Summe stochastisch unabhängiger B(1,p)-verteilter Zufallsvariablen X , ... , Xn mit Erwartungswert p, = p auffasst, 1 d.h. X =X+ Der Schätzer von p (wir schreiben jetzt p statt p,) ist der Mittelwert der Stichprobe X= (X , ... ,Xn) 1 (12) Die asymptotischen Grenzen aus 10.2 (4) (5) entsprechen den obigen groben Grenzen, wenn in 10.2 statt der dortigen erwartungstreuen Varianzschätzung (14) a2(X) = n~l ~ (Xi-X)2 z die konsistente Schätzung a 2(ß(X)) verwendet. Die Schätzung a 2(ß(X)) unterscheidet sich von a2 (X) um den Faktor l(n-1) n (15) n---+oo 1 a2(ß(X)) = ~ ~ (Xi-X)2 = n~l a2(X). z Folglich ist a 2(ß(X)) nicht erwartunstreu, aber zumindest asymptotisch erwartungs- treu, d.h. (16) 2 a. Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung 12 21.1.16 12- 1 Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung Es sollen jetzt Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung konstruiert werden. Hierbei gehen wir völlig analog zur Konstruktion der Grenzen für eine Wahrscheinlichkeit vor. Wir beginnen mit den sogenannten exakten Grenzen1 deren Sicherheit exakt eingehalten werden und in dem Sinne konservativ sind, daß die vorgegebene Irrtumswahrscheinlichkeit 0 < a < 1 (bedingt durch die Unste- tigkeit der Verteilungsfunktion für die Poisson-Verteilung) nicht voll ausgeschöpft wird. Im Anschluß werden dann die auf der Normalapproximation der Poissonverteilung basierenden asymptotischen (oder approximativen) Grenzen behandelt. Zur Vereinfachung betrachten wir zuerst nur eine Pois(,u)-verteilte Zufallsvariable X mit ,u > 0 und behandeln den Fall mit unabhängigen Wiederholungen von X erst am Ende des Kapitels. - Die Poisson-Wahrscheinlichkeiten bezeichnen wir wieder mit (1) für xE W0 = WU{O}. Für eine einzige Realisierung x E W von X ist die Schätzung von ,u "als Mittelwert" 0 (2) 12.1 {L(x) : = x. Konstruktion der exakten oberen Konfidenzgrenze Für eine Realisierung x E W von X und wollen wir zuerst eine oberen Konfidenz0 grenze {L o,o: (x) für ,u zur Sicherheit 1- a konstruieren. Analog zu 11.1 soll die obere Grenze das Maximum aller möglichen Werte ,u sein, unter denen die Beobachtung x oder kleinere Werte noch mindestens die Wahrscheinlichkeit a besitzen. Hierzu be- trachten wir die Verteilungsfunktion von X X 2:: p( i I,u) (1) i=O mit der Monotonie-Eigenschaft (2) F( x I ,u) ist streng fallend in ,u , die sich sofort durch Differenzieren nach ,u ergibt, weil (3) a F(xl ,u) =- p(xl ,u) < 0 80 Als Grenzwert für ,u---+ 0 ergibt sich für x > 0, ,u > 0 . Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung (4) F(x I 0) == lim F(x Itt) 1 p(x I 0) == lim p(x Itt) {~ 12- 2 21.1.16 f-1--+0 weil (5) fL--+0 falls x = 0 falls x> 0 Und für fL---+ oo erhält man (6) p(x I oo) : = lim fL--+ 00 o, p(x Itt) F( x I oo) : = lim F( x IfL) = 0 . fL--+ 00 Damit definiert F( x Itt) als Funktion in tt eine streng fallende bijektive Funktion F(xl- ): [O,oo]~ [0,1]. Für eine Realisierung x soll die obere Grenze 4o, 0: (x) maximal unter allen Werten tt gewählt werden, bei denen die Wahrscheinlichkeit F(xltt) für die Beobachtung x und kleinere Werte noch mindestens a ist (vgl. Abb. 1). Deshalb definieren wir = Max { fL > 0 Folglich ist (8) I P{ X< x I fL} > a} (exakte obere Grenze). 4o, 0: (x) > 0 eindeutig bestimmt durch die Gleichung F(xl 4o, 0:(x)) = a für x> 0. Die Irrtumswahrscheinlichkeit dieser oberen Konfidenzgrenze ist allerdings nur höch- stens so groß wie die Vorgabe a (9) Max { F(ll fL) IZ E wo) F(lltt) F(Lpf_a) ltt) < a < a} wobei LF(a) = Max { l E W0 I F(Zitt) < a} . Folglich ist die Sicherheit der oberen Konfidenzgrenze 4o, 0: mindestens 1- a und die Konfidenzgrenze ist deshalb konservativ im Bezug auf ihre Sicherheit. Der Grund hierfür ist, daß die Poisson-Verteilung Pois(tt) eine diskrete Verteilung ist, deren Verteilungsfunktion F( x Itt) in x E W unstetig ist und die folglich nicht notwendig den 0 vorgegeben Wert a - an der Stelle LF( a) - annimmt. Betrachtet man die obere Grenze 4o,o: (x) als Funktion der Irrtumswahrscheinlich- keit a, so ergibt sich aus (8) und der Monotonie-Eigenschaft (2) sofort Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung (10) 4o, (x) 0: 21.1.16 12- 3 ist streng fallend in a. i x 4Q 30 ~0 10 l (x) o,o Abb 1: Dichte der Pois(,u)- Verteilung von X für verschiedene Werte von ,u zur Interpretation der exakten oberen und unteren Grenze für eine Beobachtung x. Rechts: ,u=x und ,u=400:(x) aus 12.1 (7) mit Wahrscheinlichkeit F(xlp) als markierter Fläche.- Links:',u = x und ,u = 4 (x) aus 12.2 (3) mit Wahrscheinlichkeit uo: G(xlp) als markierter Fläche. ' 12.2 [1. Konstruktion der exakten unteren Konfidenzgrenze Zur Konstruktion einer unteren Grenze für ,u betrachten wir jetzt für eine Realisierung x E W die "obere" Verteilungsfunktion 0 00 (1) 1 - F( x-11 ,u) z=x mit den Eigenschaften (2) G( x I ,u) ist streng wachsend in ,u G( 0 l11) für x> 0, 1, G(xiO) == lim G(xl,u) = { fL---+ 0 1 0 falls falls x= 0 } . x> 0 Für x > 0 ergibt sich aus den Eigenschaften von F, daß G( x 1-): [0, oo) streng wachsende bijektive Funktion ist. - Die untere Grenze 4u,o: (x) -----+ [ 0, 1) eine soll nun mini- mal gewählt werden, sodaß die Wahrscheinlichkeit G(xl,u) für die Beobachtung x und größere Werte noch mindestens a ist (vgl. Abb. 1). Also definieren wir Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung 12- 4 21.1.16 (exakte untere Grenze). Folglich ist (tu a(x) > 0 eindeutig bestimmt durch ' G(xl (t u,a (x)) (4) = a F(x-114u,a (x)) bzw. = 1-a 4u,a (0) =0 für x> 0 1 für x= 0. Die Irrtumswahrscheinlichkeit dieser unteren Konfidenzgrenze ist höchstens so groß wie die Vorgabe a Max { G( ll~t) IZ E W01 G( ll~t) (5) <a } G(LG(a) l~t) < a wobei LG( a) = Min { l E W0 I G( ll~t) < a} , und somit ist die Sicherheit der unteren Konfidenzgrenze (t u,a mindestens 1- a, d.h. die untere Grenze ist ebenfalls konservativ. Betrachte man die untere Grenze (t u,a (x) wieder als Funktion der Irrtumswahr- scheinlichkeit a, so ergibt sich aus (4) und der Monotonie-Eigenschaft (2) sofort (6) (t 12.3 u,a (x) ist für x > 0 streng wachsend in a. Konstruktion des exakten zweiseitigen Konfidenzintervalls Wegen 0 < a <~ ist die untere Grenze stets kleiner als die obere, d.h. es gilt (1) für x> 0. Bestimmt man nun die untere und obere Grenze jeweils zur halben Irrtumswahrscheinlichkeit ~ (an Stelle von a), so ergibt sich das zweiseitige Konfidenz-Intervall (2) I (x) = ( Ct 4u, 0(xL 4o, 0(x) 2 2 (exaktes zweiseitiges Intervall) ) mit der (exakten) Sicherheit von mindestens 1- a, d.h. es gilt (3) P{ 4u,20(X) < Ii < 4o,20(X) } > 1- a . Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung 21.1.16 12- 5 Ein Vergleich der Grenzen des zweiseitigen Intervalls mit jeweiligen einseitigen Grenzen zur gleichen Sicherheit ergibt, daß die einseitigen Grenzen jeweils "enger" sind: 4u, 0 (4) < 4u,a (x) (x) 2 4o,a (x) < 4o, 0 (x) für x> 0, 2 für xE W0. Ist man nur an einer einseitigen Abschätzung von 1-L nach oben bzw. unten interessiert, so sollte man daher stets die zugehörige obere bzw. untere Grenze und nicht das zweiseitige Intervall I (x) verwenden. Ct 12.4 Berechnung der exakten Grenzen Leider läßt sich die obere Grenze nur im Fall x = 0 explizit angeben: (1) 4o, Ct (0) =-log a. Für x > 0 läßt sich die obere Grenze nicht als explizite Funktion in x und a darstellen, sondern kann nur iterativ bestimmt oder aus Tabellen abgelesen werden. Die obere Grenze ist die (eindeutige) Nullstelle der Funktion und kann z.B. mit dem Newton-Verfahren oder einer ("ableitungsfreien") Intervallschachtelung ermittelt werden. Als Startwert bietet sich die Schätzung 4( x) = x an oder man kann die asymptotische obere Grenze aus 12.5 verwenden. Die untere Grenze 4u,a (x) kann prinzipiell ebenso bestimmt werden, läßt sich aber im nicht-trivialen Fall x> 0 wegen des Zusammenhangs G(xlf-L) = 1-F(x-11~-L) auf die Bestimmung einer oberen Grenze zurückführen: (3) für x> 0. Man kann diese Grenzen - im nicht-trivialen Fall x > 0 - auch mit den Quantilen der Chiquadrat-Verteilung bestimmen. Bezeichnet P x! die Verteilungsfunktion von m = GamC!J:, 2), so ergibt sich aus 6.2.2 (11) folgender (exakter) Zusammenhang (4) mit Unter Verwendung des oberen a-Quantils m=2(x+1), xEW. 2 xm;a == <P-\1-a) der x 2 - Verteilung (vgl. m m Anhang T, Seite 5-7) erhält man folgende Darstellung der Konfidenzgrenzen Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung für x > 0, (5) (exakte obere Grenze) (6) 2 l2 Xm;l-a (exakte untere Grenze) für x > 0, 21.1.16 12- 6 m = 2 (x + 1), m = 2x . Und für den Spezialfall x = 0 erhält man (7) 4o,a(0) 4u,a (0) = 0 =-log a . 12.5* Asymptotische (approximative) Konfidenzgrenzen Unter Verwendung der Normalapproximation für die Poisson-Verteilung Pois(p,) wollen wir jetzt sogenannte asymptotische Konfidenzgrenzen für p, konstruieren, deren Sicherheit nur approximativ gleich 1- a ist, wobei die Approximation für wachsendes p, beliebig gerrau wird. Ausgangspunkt ist der Poisson-Grenzwertsatz: Pois(p,) - p, fo L -----+ N( ) 0,1 für p,---+ oo. Unter Verwendung der Verteilungsfunktion P von N(O, 1) ergeben sich die (mit wachsendem p, besser werdenden) Approximationen der Funktionen F und G (1) F(xll") = (2) G(xll") = X,; x; }"' p( x;)' p{ X,; x; }"' p( Jiix). p{ < > I" Man beachte, daß die Stetigkeitskorrektur von ~ (vgl. 9.4) hier nicht verwendet wird, obwohl diese die Güte der Approximation in (1) (2) verbessern würde. Unser Ziel hier ist es jedoch nicht, die exakten- und konservativen- Konfidenzgrenzen möglichst genau zu approximieren. Sondern wir wollen asymptotische Grenzen konstruieren, die approximativ die Sicherheit 1- a einhalten und dabei nicht notwendig konservativ sind. Das Fortlassen der Stetigkeitskorrektur in (1)(2) hat diesen Effekt. Zur Konstruktion der asymptotischen oberen Grenze wollen wir statt der Gleichung F(xlp,) = a jetzt die approximierte Gleichung lösen (vgl. Abb. 2) Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung (3) 12- 7 21.1.16 mit (4) (oberes a-Quantil von N( 0, 1)). 0 Za N(O, 1)-Dichte mit a-Quantil Und analog wird - allerdings nur für x > 0 - die untere Grenze als Lösung der Gleichung G(x IJ-L) = a approximiert durch die Lösung der Gleichung (vgl. Abb. 2) (5) bzw. 0 30 40 p,-x jii 0 20 t x 30 40 1 {io a(x) ) Abb 2: Normalapproximation der Dichte von X für verschiedene Werte von p, zur Interpretation der asymptotischen oberen Grenze fl (x) (rechts) und der unteren oa Grenze fl UQ (x) (links) für eine Beobachtung x. ' links: Die 'markierte Fläche entspricht der nach (5) approximierten Wahrscheinlichkeit G(xlp,) und die untere Grenze fl (x) ist das Minimum aller Werte p,, bei dem UQ diese Fläche noch mindestens a ist. ' rechts: Die markierte Fläche entspricht der nach (3) approximierten Wahrscheinlichkeit F( x 11-L) und die obere Grenze fl (x) ist das Maximum aller Werte p,, bei oa dem diese Fläche noch mindestens a ist.' Zur Lösung der Gleichungen (3) bzw. (5) betrachten wir die quadratische Funktion (6) f(p,) Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung (7) 1-L (8) m 21.1.16 12- 8 > 0 (x) D(x) Wir werden jetzt zeigen, daß die Nullstellen der Funktion f die gesuchten asymptotischen Grenzen sind. Zunächst definieren wir die Grenzen als die Nullstellen von f (9) fi o,o: (x) := p, (10) fi u,o: (x) == p, m m + VJ5lXj (asymptotische obere Grenze) 1 (x)- VJ5lXj (asymptotische untere Grenze), (x) und zeigen, daß die Grenzen die gewünschten Eigenschaften haben. Beide Grenzen sind nicht-negativ und liegen jeweils unter- bzw. oberhalb der Schätzung fi(x) = x: für x (11) > 0. Für x = 0 ist die asymptotische untere Grenze gleich 0 (12) fi u,o: (0) = 0 und stimmt folglich mit der exakten unteren Grenze überein. Und im Fall x > 0 gilt in (11) an keiner Stelle die Gleichheit (13) 0 < fi u, 0: (x) < fi(x) < fi o, 0: (x) für x > 0. fi o, 0: (x) ist die einzige Lösung p, > 0 der approximierten Gleichung (3). Und im Fall x > 0 ist die untere Grenze fi (x) die einzige Lösung p, > 0 der apu,o: Die obere Grenze proximierte Gleichung (5). Nachdem wir die asymptotischen Grenzen jetzt definiert haben, wollen wir zeigen, daß sie approximativ die angestrebte Sicherheit 1- a haben. Aus den fundamentalen Äquivalenzen (14) fi u,o:(x) < 1-L 1-L < fi o, 0: (x) ergibt sich die Sicherheit dieser Grenzen zu (15) P{ p, < fi o,o: (X) } = P{ p,- X < z 0: · JjL } ~ 1- a , P{ fi u,o: (X) < p,} = P{ X -p, < z 0: · JjL} ~ 1- a . Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung 21.1.16 12- 9 Diese Approximationen gehen für wachsendes p, m Gleichheiten über (wobei X wieder mit n indiziert ist): lim P{ p, < fi (16) p--+oo o,o: (X) } = 1- a , lim P{ fi fL--+ 00 u, Q (X) < p,} = 1- a . Für die asymptotischen Grenzen als Funktion der Irrtumswahrscheinlichkeit a gilt: (17) fi u,a ist für x > 0 streng wachsend in a, (18) fi o,a ist für x E W streng fallend in a. 0 Vergleich der asymptotischen mit den exakten Grenzen: Zum Vergleich betrachten wir die relativen Abweichungen der asymptotischen von den exakten Grenzen (17) die in Abb. 3 für x = 1, ... , 100 und a = 1%, 5% dargestellt sind. Man erkennt einerseits, daß die Abweichungen typischerweise mit wachsender Beobachtung x geringer werden und andererseits, daß die Abweichungen der unteren Grenze deutlich größer als die der oberen Grenze sind. Der gemeinsame Grund hierfür ist, daß die Approximationen (1) und (2) für wachsendes p, besser werden. Abweichung: exakt - asymptotisch 10 Abweichung: exakt - asymptotisch 20 obere einseitige Grenze untere etnseitrge Grenze 18 a = 1%, 5% a ~ 8 = 1%, 5% N J:c 7 -;, 6 c ::I ~ 5 ~--------------------------- 14 <i ~ 3 ~ ~ 2 0 10 20 30 40 50 60 70 beobachtete Anzahl 80 90 100 0 10 20 30 40 50 60 70 80 90 100 beobachtete Anzahl Abb 3: Die relativen Abweichungen L1 (x) (links) und L1 (x) (rechts) (in Prozent) o,a u,a als Funktion der Beobachtung x für a = 5% und a = 1%. Man beachte, die unterschiedliche Skalierung. Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung 21.1.16 12- 10 Typischerweise ist die exakte obere Grenze größer als die asymptotische (und die exakte untere kleiner als die asymptotische), weil die Irrtumswahrscheinlichkeit a < a ist, während die (und dabei auch >a sein kann). der exakten Grenze stets konvergiert 12.6 asymptotische Grenze nur gegen a Anwendung: Asbestmessungen in Schulgebäuden Wir betrachten die im Abschnitt 0.2 beschriebene Asbestmessung in Schulgebäuden, und gehen dabei davon aus, daß die Anzahl X der Asbestfasern in einem Stichprobenvolumen V (in hinreichender Näherung) Pois(,u)-verteilt ist. 1. Raum: Bei der Messung im ersten Raum (vgl. 0.2 Tabelle 2 oben) wurden x = 0 Asbestfasern in dem ausgewerteten Stichprobenvolumen V = 4,28 x 1,36 I 380m 3 ~ 0,01532 m 3 gezählt. Die exakte einseitige obere 95%-Grenzen - d.h. a = 5% - für die erwartete Asbestfaser-Konzentration ,u pro Volumen V ergibt sich aus 12.4 (1) zu 4o, 507'(0) = 10 2,996 ' und die entsprechende obere Grenze für die erwartete Konzentration A = ,u I V pro m 3 ergeben sich hieraus (gerundet) zu 3 A A 507 (0) = 196/m . o, 10 Die Bestimmung der asymptotischen oberen Grenze ist wegen x = 0 nicht sinnvoll. D 2. Raum: Bei der Messung im zweiten Raum (vgl. 0.2 Tabelle 2 Mitte) wurden x = 2 Asbestfasern in dem ausgewerteten Stichprobenvolumen V = 3,65 x 1,64 I 380m 3 ~ 0.01575 m 3 gezählt. Die exakten (einseitigen) 95%-Grenzen - d.h. a = 5% - für die erwartete Asbestfaser-Konzentration ,u pro Volumen V ergeben sich aus 12.4 (6) (7) mit den Quantilen x~. 95 % = 0,711 und x~. 5%= 12,592 zu ' ' 4u, 507'(2) 10 = 0,355 4o, 507'(2) 10 = 6,296 0 Und die zugehörigen asymptotischen Grenzen aus 12.5 (7)-(10) erhält aus ,u = 3,553 und m /D = 2,691 zu Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung fi u, 507(2) 10 fi o, 507(2) 10 = 0,662 = 6,044 21.1.16 12- 11 0 Die entsprechenden Grenzen für die erwartete Konzentration ). = 1-L /V pro m 3 ergeben sich hieraus (gerundet) zu 3 A - A 507 (2) = 23/m , u, 10 3 3 A A 507 (2) = 384/m , A 507 (2) = 400/m . o, 10 o, 10 Man beachte, daß das Intervall von unterer bis oberer Grenze - das ja eine Sicherheit von 90% hat - mehr als eine Größenordnung umfaßt und somit noch relativ ungenau ist. Dies liegt - wie auch das folgende Meßergebnis im 3. Raum zeigt - an der geringen Zahl x = 2 der gezählten Fasern. Beim Vergleich mit 0.2 Tabelle 2 ist zu beachten, daß dort die (gerundete) obere Grenze des zweiseitigen 95%-Intervalls angegeben ist, also die mit a = 2,5% analog berechnete obere Grenze 5. (2) = 459/m bzw. ~ 3 o, 2 507 10 0 o, 2 507 10 (2) = 463/m 3 D . 0 3. Raum: Bei der Messung im dritten Raum (vgl. 0.2 Tabelle 2 unten) wurden x = 8 Asbestfasern in dem ausgewerteten Stichprobenvolumen V = 4,16 x 1,40 I 380m 3 ~ 0,01533 m 3 gezählt. Und als (einseitige) 95%-Grenzen - d.h. a = 5% - für die erwartete Asbestfaser-Konzentration 1-L (pro Volumen V) bzw. ). (pro m 3 ) erhält man mit den Quantilen xi6·' 95% = 7,962 und xis·' 5% = 28,869 jetzt (gerundet) zu 4u, 507(8) 10 A fi u, 507(8) 10 = 3,981' fi o, 507(8) 10 = 4,508 ' 3 A 507 (8) = 260/m , 5. 507 (8) = 294/m u, 10 u, 10 3 = 14,20 ' 4o, 507(8) 10 = 14,43 5. o, 50710 (8) = 926/m 3, Ao, 50710 (8) = 942/m A , 3 Im Gegensatz zum 2. Raum ist hier die obere Grenze nur rund viermal so groß wie die untere Grenze, weil insgesamt mehr Fasern (x = 8) gezählt wurden. Hätte man beim 2. Raum das vierfache Volumen 4 V (statt V) ausgewertet und darin auch die vierfache Anzahl von Fasern (also x= 8) gefunden, so ergäben sich wieder obige auf x = 8 basierende Grenzen und entsprechend engere Grenzen für A= 1-L / 4 V. Beim Vergleich mit 0.2 Tabelle 3 ist zu beachten, daß dort die (gerundete) obere Grenze des zweiseitigen 95%-Intervalls angegeben ist, also die mit a = 2,5% analog berechnete obere Grenze 5. (8) = 1029/m bzw. ~ 3 o, 2 507 10 0 o, 2 507 10 0 (8) = 1030/m 3 . D Konfidenzgrenzen für den Erwartungswert einer Poisson-Verteilung 12.7 21.1.16 12- 12 Konfidenzgrenzen bei unabhängigen Wiederholungen Sind (statt einer) jetzt nunabhängige Pois(,u)-verteilte Zufallsvariablen X , ... , Xn ge1 geben, so wird obige Konstruktion für die Summe X t == X 1 + ... +Xn durchgeführt, wobei (1) mit X+ die zugehörige Realisierung von Für Realisierungen x1, ... , xn von x1, ... , x2 ist X+ und wir können die Überlegungen aus den vorangegangenen Abschnitten darauf anwenden. Die Schätzung von ,u(n) ist p,(n)(x+) = x + und die zughörige Schätzung von ,u = 1._ ,u(n) ergibt sich zu n (2) und ist natürlich der Mittelwert von x , ... , xn. Analog erhält man aus den exakten 1 Konfidenzgrenzen für ,u(n) die zugehörigen exakten Grenzen für ,u (3) A ( ,Uup x + := ) 1 A (n) ( n ,Uup x +) ' A ( ,U op x + := ) 1 A (n) ( n ,U o,o: x +) ' deren Irrtumswahrscheinlichkeit höchstens a ist (4) < ,u} P{ A(n) (X ) < (n)} < a' P{ ,u < Jlu,o:(X +)} P{ (n)< A(n)rx )} < a. P{ P, o,o:(X+) +- ,uo,o: ,U - ,uu,ci ,u + Und die approximativen Grenzen für ,u ergeben sich analog aus denen für ,u(n) zu (5) - ( ,Uup x +) := 1 -(n) ( n,Uup x +) ' - ( ,Uop x +) := 1 -(n) ( n ,U o,o: x +) Für wachsenden Stichprobenumfang n---+ oo gilt ,u(n)---+ oo und die Irrtumswahrscheinlichkeit der approximativen Grenzen konvergiert nach 12.5 (16) gegen a: (6) lim P{ fi n---+oo o,o: (X(+n)) < ,u} = a, - lim P{ ,u < fi n---+oo wobei (7) (n) - X Xt - 1+ ... + X n die Summe der ersten n Zufallsvariablen bezeichnet. - u,o: (X(+n))} = a, Testen von Hypothesen über Wahrscheinlichkeiten 13-1 2.2.16 13. Testen von Hypothesen über Wahrscheinlichkeiten Mit dem Schätzen eines Parameters - wie z.B. der Erwartungswert - und der Konstruktion von Konfidenzgrenzen haben wir bereits zwei wichtige Verfahren der Statistik kennengelernt, mit denen man aus beobachten Daten (d.h. Realisierungen von Zufallsvariablen) Rückschlüsse auf unbekannte Parameter ziehen kann. Wir wollen jetzt eine weiteres grundlegendes Verfahren der Statistik kennenleren: das Testen von Hypothesen. Das Ziel eines statistischen Tests ist es, eine Entscheidung zwischen zwei Hypothesen über den (oder die) Parameter der Verteilung von Zufallsvariablen aufgrund von beobachteten Realisierungen dieser Zufallsvariablen zu treffen. Zur Einführung in die Problematik betrachten wir zunächst Binamial-Tests mit Hypothesen über eine Wahrscheinlichkeit p E (0, 1), also über den Erwartungswert der B(1, p)- Verteilung. Wahlumfrage Angenommen eine Partei steht vor der Entscheidung, ob sie vorzeitigen Neuwahlen zustimmen soll oder nicht. Bevor sie zustimmt, will sie wissen, ob sie bei den Neuwahlen ihr Wahlziel erreichen würde, d.h ob ihr Stimmanteil p (in der betroffenen Region) größer ist als ein Minimalwert p E (0,1), z.B. p =50% (absolute Mehrheit). 0 0 Die zugehörigen Hypothesen lassen sich wie folgt formalisieren (1) H<:p<po (Minimalwert wird nicht überschritten) H>:p>po (Minimalwert wird überschritten). vs. Die Entscheidung zwischen beiden Hypothesen will die Partei vom Ergebnis einer Wahlumfrage mit n (voneinander unabhängigen) Befragungen abhängig machen. Die Anzahl X der Für-Stimmen in der Umfrage ist dann B(n,p)-verteilt. Als Konsequenz will sie vorzeitigen Neuwahlen nur dann zustimmen, wenn sie sich aufgrund der Umfrage für die Hypothese H>: p > p0 entschieden hat. Eine geringfügig andere Variante der Hypothesen wäre (2) H<:p<po (Minimalwert wird unterschritten) H>:p >Po (Minimalwert wird nicht unterschritten), vs. z.B. wenn p = 5% und es um die Überwindung der 5%-Hürde geht. Es wird sich je0 doch zeigen, daß hierfür derselbe statistischen Test wie für (1) verwendet wird. D Testen von Hypothesen über Wahrscheinlichkeiten 13-2 2.2.16 Therapie-Erfolg Ein Klinikum steht vor der Entscheidung, eine Standardtherapie (z.B. eine Chemotherapie) durch eine neue und teurere Therapie zu ersetzen. Aus Kostengründen will man sich für die neue Therapie (als neuen Standard) nur dann entscheiden, wenn ihre Erfolgs-Wahrscheinlichkeit p größer ist als die Erfolgs-Wahrscheinlichkeit p der bisherigen Standardtherapie. Die formalisierten Hypothesen lauten 0 (3) H<:p<po (neue Therapie nicht besser als Standard) H>:p>po (neue Therapie besser als Standard) vs. Die Entscheidung zwischen beiden Hypothesen - und die damit verbundene Entscheidung über das Ersetzen der Standardtherapie durch die neue Therapie - will das Klinikum vom Ergebnis einer klinischen Studie abhängig machen, bei der die neue Therapie in insgesamt n (voneinander unabhängigen) Fällen angewandt wird. Die Anzahl X der Therapie-Erfolge ist dann B(n,p)-verteilt. Betrachtet man (wie im Beispiel in 11.4) statt der Erfolgs-Wahrscheinlichkeit p die komplementäre Wahrscheinlichkeit q = 1- p für das Versagen, so lassen sich die Hypothesen äquivalent formulieren durch (3)' H>: q> qo (neue Therapie nicht besser als Standard) H<:q<qo (neue Therapie besser als Standard). Die Anzahl Y = n-X der Therapie-Versager ist jetzt B(n,q)-verteilt. vs. D Genetik: Dominanter Erbgang Zur Klärung des Erbgangs eines interessierenden Merkmals (z.B. die Blütenfarbe des Löwenmäulchens) werden in der Genetik Kreuzungsversuche durchgeführt. Bei einem dominanten Erbgangs wird die interessierende Merkmalausprägung (z.B. rote Blüte) durch ein Gen mit zwei Allelen A (dominant, z:B. rot) und a (rezessiv, z.B. weiss) gesteuert, wobei das Merkmal (z.B. rote Blüte) gerrau dann auftritt, wenn mindestens ein dominantes Allel A vorhanden ist. Bei einer dihybriden Kreuzung AA x aa hat die erste Tochtergeneration F immer den Genotyp Aa und das Merk1 mal tritt stets auf. Eine weitere Kreuzung A a x A a ergibt in der Tochtergeneration F 2 die drei Genotypen AA, Aa und aa mit den zugehörigen Wahrscheinlichkeiten (bei zufälliger Weitergabe der jeweiligen Allele) Testen von Hypothesen über Wahrscheinlichkeiten P{AA}=~, 13-3 2.2.16 P{aa}=~. P{Aa}=~, Die Wahrscheinlichkeit für das Auftreten des Merkmal (z.B. rote Blüte) m der F 2 -Generation ist beim dominanten Erbgang daher p 0 = ~Will man überprüfen, ob ein bisher nicht untersuchter Erbgang dominant ist oder nicht, so läßt sich dies aus Hypothesen über die Wahrscheinlichkeit p für das Auftreten des Merkmals in der F -Generation ableiten: 2 (4) H= :p =po H:;zt_: p :;=Po (Übereinstimmung mit dominantem Erbgang) vs. (keine Übereinstimmung mit dominantem Erbgang). Bei einem Umfang n der F -Generation hat die Anzahl X der Nachkommen mit 2 diesem Merkmal eine B(n,p)- Verteilung. Aufgrund der beobachten Anzahl x will man sich dann für eine der beiden Hypothesen entscheiden. D Im folgenden werden wir zuerst das Testproblem mit Hypothesen der Form (1) ausführlich behandeln und die Testprobleme der Form (2), (3) und (4) darauf zurückführen. 13.1 Der exakte einseitige Binamial-Test mit oberer Alternative Für eine Zufallsvariable X mit B(n,p)- Verteilung betrachten wir die folgenden einseitigen Hypothesen über die Wahrscheinlichkeit p im Bezug auf einen vorgegeben Referenzwert 0 < p (1) 0 < 1: Nullhypothese H : 0 Alternative H : (Referenzwert wird nicht überschritten) (Referenzwert wird überschritten). Zur Unterscheidung haben wir bereits eine der beiden Hypothesen als Nullhypothese und die andere als Alternative bezeichnet. Man kann die Hypothesen formal als Menge aller Parameter p auffassen, für die die Hypothese zutrifft, d.h. (2) Testen von Hypothesen über Wahrscheinlichkeiten 13-4 2.2.16 13.1.1 Statistische Tests Gesucht ist eine Entscheidungsregel, die jeder Realisierung x E {0, ... , n} von X eine der beiden Hypothesen als Entscheidung zuordnet. Dies läßt sich durch eine Entscheidungsfunktion (engl.: decision function) d: {0, ... , n}-----+ {0, 1} mit folgender Inter- pretation formalisieren: (1) d(x) = U Entscheidung für Nullhypothese H0 aufgrundvon x Entscheidung für Alternative H aufgrund von x d.h. d ist die Indikatorfunktion für die Entscheidung zugunsten der Alternative. Das Testproblem (H ,H) zusammen mit einer Entscheidungsfunktion d wird auch als 0 ein statistischer Test bezeichnet. Wir wollen im folgenden einen Test d herleiten, der in einem noch zu präzisierenden Sinn optimal ist. Zuerst wollen wir die Klasse aller möglichen Tests d sinnvoll einschränken. Ausgehend von der Schätzung (2) (beobachtete relative Häufigkeit) ist es naheliegend, sich für die Alternative zu entscheiden, wenn als der Referenzwert p ist. Und wenn 0 p(x) p(x) deutlich größer deutlich kleiner als p ist, wird man die 0 Nullhypothese bevorzugen. Wir betrachten nun zwei Realisierungen 0 < x < x2 < 1. entscheidet, so sollte er wegen p(xJ 1 Wenn sich der Test bei x für die Alternative H 1 > p(x1) sich auch bei x für H entscheiden. Umgekehrt sollte sich der Test bei x für 2 1 die Nullhypothese H 0 entscheiden, wenn er sich bereits bei x2 für H 0 entschieden hat. Insgesamt sollte daher sinnvollerweise gelten (3) d(x1 ) = 1 d(x 2 ) = 1, d(x 2 ) = 0 d(x1 ) = 0 . Jeder Test d mit (3) ist eindeutig bestimmt durch k = Min { x I d(x) = 1} und wird daher mit dk bezeichnet, d.h. der Test dk: {0, ... , n}-----+ {0, 1} ist gegeben durch: (4) x>k dk(x) = 1 (Entscheidung für Alternative) {} p(x)>~. Wir betrachten jetzt nur noch Tests der Form dk für k E { 0, ... , n + 1}, wobei wir auch die konstanten Tests d0 1 und dn+ 1 0 zulassen (deren Entscheidung nicht von der Beobachtung x abhängt). Um unter diesen Tests ein optimales dk bestimmen zu können, betrachten wir zuerst die möglichen Fehlentscheidungen eines Tests. Testen von Hypothesen über Wahrscheinlichkeiten 13-5 2.2.16 13.1.2 Fehlerrisiken und Testschärfe Tab. 1: Fehlentscheidungen eines statistischen Tests d Testentscheidung In Wirklichkeit gilt Nullhypothese für Beobachtung x alternative Hypothese Nullhypothese wird falsch-negative nicht abgelehnt: d(x) = 0 richtige Entscheidung Nullhypothese wird falsch-positive abgelehnt d(x) = 1 Entscheidung: Entscheidung: Fehler 2. Art (ß) richtige Entscheidung Fehler 1. Art (a) Bei einem Test d sind für eine Beobachtung x prinzipiell zwei Arten von Fehlentscheidungen möglich (vgl. Tab. 1): • Fehler 1. Art (falsch-positive Entscheidung): Ablehnung der Nullhypothese H ( d.h. d(x) = 0 • Fehler 2. Art (falsch-negative Entscheidung): Annahme der Nullhypothese H ( d.h. d(x) = 0 1), obwohl sie zutrifft. o), obwohl sie nicht zutrifft. In konkreten Anwendungssituationen haben diese beiden Fehler typischerweise unterschiedliche Bedeutung und Konsequenzen. Wir erläutern dies kurz an den einleitenden Beispielen zu diesem Kapitel, wobei wir die jeweils erstgenannte Hypothese als Nullhypothese und die zweite als Alternative ansehen (vertauscht man jeweils Nullhypothese mit der Alternative, so vertauschen sich auch beide Fehler). Wahlumfrage (Fortsetzung): Betrachten wir konkret den Wert p = 5%, so bedeu0 tet der Fehler 1. Art eine Entscheidung für die Alternative H: p > p (und somit Zu0 stimmung zu Neuwahlen) obwohl dies nicht zutrifft, d.h. die Partei scheitert bei Neuwahlen an der 5%-Hürde. Und beim Fehler 2. Art entscheidet man sich für die Nullhypothese H 0 :p < p 0 (und somit gegen Neuwahlen), obwohl der erneute Einzug ins Parlament gesichert wäre, d.h. ein günstiger Wahltermin wird nicht genutzt. D Therapie-Erfolg (Fortsetzung): Beim Fehler 1. Art entscheidet man sich für die Alternative, also für die Einführung der neuen (und teureren) Therapie, obwohl sie nicht besser ist als der Standard. Und der Fehler 2. Art besteht darin, die bisherige Therapie beizubehalten, obwohl die neue besser ist. D Testen von Hypothesen über Wahrscheinlichkeiten 2.2.16 13-6 Genetik (Fortsetzung): Der Fehler 1. Art besteht darin, den dominaten Erbgang abzulehnen, obwohl er zutrifft. Und beim Fehler 2. Art entscheidet man sich für den dominanten Erbgang, obwohl er falsch ist. D Da die Entscheidung von der Realisierung x der Zufallsvariablen X abhängt - und somit auch vom Zufall abhängt - können wir die Wahrscheinlichkeilen für den Fehler 1. und 2. Art bestimmen. Hierzu betrachten wir für eine Entscheidungsfunktion d die zufällige Entscheidung d(X) E {0,1}. Die Verteilung von d(X) ist gegeben durch die Wahrscheinlichkeit für die Ablehnung der Nullhypothese 1 die man auch als Schärfe (engl.: power) des Tests d bezeichnet Pow iP) := P{ d(X) = 1 I p} (1) (Schärfe 1 Power von d) 1 wobei wir die Abhängigkeit der Wahrscheinlichkeit P{ d(X) = 1} vom Parameter p der B(n,p)-Verteilung von X explizit mit in die Notation aufgenommen haben. Die zugehörige Funktion Pow d: (0, 1)-----+ [ 0, 1] heißt die Schärfefunktion von d. Unter Verwendung der Schärfefunktion lassen sich beide Fehlerrisiken bestimmen. Unter der Nullhypothese, d.h. für p E H , ist das Fehlerrisiko 1. Art a(p) definiert als Wahr0 scheinlichkeit für einen Fehler 1. Art und somit durch die Schärfe gegeben (2) falls p EH 0 (Nullhypothese gilt). Und unter der Alternative, d.h. für p EH, ist das Fehlerrisiko 2. Art ß(p) definiert als Wahrscheinlichkeit für einen Fehler 2. Art und somit durch die komplementäre Schärfe gegeben (3) ßip) == 1- Pow iP) falls p EH (Alternative gilt). Wir betrachten jetzt wieder die Tests aus der Klasse { dk I k = 0, ... , n + 1}. Für den Test dk ist die Schärfefunktion gegeben durch (4) (p) = P{X>k IP} = G(klp) Powd mit Gaus 11.2 (1). k Für p < p ist das Fehlerrisko l.Art (vgl. Abb. 1) 0 (5) wachsend (für 0 < k < n sogar streng wachsend) in p und wird maximal für p = p 0 : Testen von Hypothesen über Wahrscheinlichkeiten (6) 13-7 2.2.16 P{X>k IP 0 } = G(klp 0 ) Max { a d (p) I p < p 0 } (maximales Fehlerrisiko J.Art). k Und für p > p ist das Fehlerrisiko 2. Art (vgl. Abb. 1) 0 (7) ßd (p) = P{X<k IP} = F(k-1lp) mit F aus 11.1 (1) k fallend (für 0 < k < n sogar streng fallend) in p und im Grenzfall p = p ergibt sich 0 (8) P{X<k IP 0 } = F(k-1lp 0 ) ßdk (Po) Cmaximales 11 Fehlerrisiko 2.Art). sup{ßd (p) lp>p 0 } k p 1 Po ! 0,6 0,7 0,8 60 70 80 p Po 1 ! 0,9 0,6 1.0 0,7 0,8 t t 0,9 1,0 90 100 k k Abb. 1: Die Fehlerrisiken des Test dk für p = 80% mit n _100 und k = 85 als mar0 kierte Fläche unter der Dichte von X"' B( n, p) bzw. X=~ X (obere Skala). links: Fehlerrisiko 1. Art P{ X> k Ip} für p = 75% < p und p = p (maximales Risiko) 1 0 0 0 0 rechts: Fehlerrisiko 2. Art P{ X< k IP} für p = 88% > p und p = p (maximales Risiko). Die Bezeichnung maximales Fehlerrisiko meint (hier und später) immer das Supremum, wenn das entsprechende Maximum nicht angenommen wird, wie z.B. in (8). Man beachte, daß die maximalen Fehlerrisiken 1. Art bzw. 2. Art jeweils für p = p und somit auf dem Rand {p 0 } zwischen der Nullhypothese H = (O,p 0 0 ] 0 und der Al- ternative H = (p , 1) angenommen wird. Für die maximalen Fehlerrisiken ist es da0 her unwesentlich, ob der Rand-Wert p = p (wie hier) zur Nullhypothese oder zur 0 Alternative gezählt wird. Für die modifizierten Hypothesen H~ = (O,p 0 ) und H* = [p 0, 1) - vgl. auch 13 (2) -ergeben sich daher auch obige maximale Fehlerrisken Testen von Hypothesen über Wahrscheinlichkeiten (9) 13-8 15.3.16 sup { ad (p) I p<po} k (10) Max { ßd (p) I p > p0 } k Typischerweise wird die Nullhypothese so gewählt, daß sie den Randwert p = p enthält, d.h. H = (0, p 0 0 ] bzw. H 0 0 :p < p . 0 13.1.3 Der optimale Test zum vorgegebenen Niveau Es wäre wünschenswert, unter allen Tests dk ein solches k E {0, ... , n + 1} auszuwählen, bei dem beide Fehlerrisiken a d (p 0 ) und k ßd (p 0 ) möglichst gering sind. Leider k läßt sich dies nicht erreichen weil das Fehlerrisiko 1. Art a d (p) bei wachsendem k k abnimmt, während gleichzeitig das Fehlerrisiko 2. Art ßd (p) zunimmt. Die maximalen k Risiken sind sogar zueinander komplementär, d.h. es gilt (vgl. auch Abb. 1) (1) Folglich kann man nicht beide Fehlerrisiken durch die Wahl von k gleichzeitig minimieren. Da in konkreten Anwendungssituationen die beiden Fehler typischerweise unterschiedliche Bedeutung haben, hat man sich darauf geeinigt, bei der Gewichtung der Fehler Prioritäten zu setzen, und dabei dem Fehler 1. Art eine größere Bedeutung beizumessen, als dem Fehler 2. Art (was man ggf. durch Vertauschen beider Hypothesen stets erreichen kann). Das Fehlerrisiko 1. Art soll dann durch Vorgabe eines nominalen Testniveaus 0 < a <~ kontrolliert werden, wobei man in der Praxis - wie bei den Konfidenzgrenzen - routinemäßig den Wert a = 5% (und nur in begründeten Fällen kleinere oder größere Werte) verwendet. Damit ergibt sich als erste Forderung an den Test dk (2) Unter allen Tests dk deren maximales Fehlerrisiko 1. Art höchstens a ist, d.h. für die (2) gilt, suchen wir jetzt dasjenige k , bei dem das Fehlerrisiko 2. Art ßd (p) für k Q jedes p > p0 minimal wird. Da ßd (p) wachsend in k E { 0, ... , n + 1} ist, ergibt sich das k gesuchte kQ als Minimum aller Werte k mit (2), d.h. (vgl. auch Abb. 21 links): Der zu diesem k(X gehörige Test ist der gesuchte optimale Test und wird jetzt mit d>: = dka bezeichnet (der Index ">" steht für die Alternative H: p > p0 ). Die zugehö- rige Test-Entscheidung läßt sich auf verschiedene Weise äquivalent formulieren: Testen von Hypothesen über Wahrscheinlichkeiten 13-9 2.2.16 Exakter einseitiger oberer Binomial-Test zum (nominellen) Niveau a.: Ablehnung der Nullhypothese H 0 :p < p bzw. Entscheidung für die Alternative 0 H: p > p0 aufgrund einer Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist: (4) Die Beobachtung x überschreitet einen oberen kritischen Wert k a(p 0 ) (5) Die Wahrscheinlichkeit P{ X> x I p (6) Die exakte untere Konfidenzgrenze 0 } unterschreitet das Niveau a: pu,a (x) überschreitet den Wert p0 p=po .l 0,4 0,6 0,8 I I 1 10 I 0,4 0,6 0,8 1,0 I I i I 0 ,4 0 ,6 0,8 1,0 10 15 20 25 ' ' ~ ; ' r: r- : ' ;' ' ' I ' ' ' ' I r I '' ' ' I 10 ~ 15 ' ' '' I 20 r vP <a rc ~ I 25 10 15 I I n 25 20 t X X Abb. 2: Dichten von X,.....__ B( n, p) bzw. X=~ X (obere Skala) zur Illustration des exakten einseitigen oberen Test mit n = 251 p = 0,8 und a = 5%. 0 links: Dichte für p = p0 mit kritischen Wert ka(p 0 ). Mitte: Dichte für p = p mit P = P{ X> x I p } als markierter Fläche. 0 0 rechts: Dichte für p = p (x) mit a als markierter Fläche. u,a Die Testentscheidung basiert also auf der Beobachtung x, dem Niveau a und dem Referenzwert p und die Bedingungen (4) - (6) unterscheiden sich dadurch, daß aus 0 jeweils zwei dieser Größen eine neue berechnet und diese mit der dritten Größe verglichen wird (vgl. Abb. 2). Obwohl man nur eine der äquivalenten Bedingungen (4) - Testen von Hypothesen über Wahrscheinlichkeiten 2.2.16 13-10 (6) nachprüfen muß, sollte man alle drei dort auftretenden Größen berechnen, weil sie über die Testentscheidung hinaus von Interesse sind. Über die Bedeutung der unteren Konfidenzgrenze pu,a (x) aus (6) haben wir schon ausführlich in Kap. 11 gesprochen. Im Zusammenhang mit obigem Test entspricht sie dem maximal möglichen Referenzwert p , bei dem die Nullhypothese aufgrund 0 der Beobachtung x noch abgelehnt wird (vgl. Abb. 21 rechts). Die in (5) auftretende Wahrscheinlichkeit P{ X> x I p 0 } wird auch als Signifikanz der Beobachtung x oder als P-Wert bezeichnet (vgl. Abb. 21 Mitte). Sie entspricht der unter der Nullhypthese H 0 :p < p 0 maximierten Wahrscheinlichkeit P{ X> x I p} für die Beobachtung x oder größerer Werte (da hier eine obere Alternative vorliegt). Der P- Wert beurteilt also den durch x gegeben oberen Randbereich unter der Nullhypothese: je kleiner der P- Wert desto unwahrscheinlicher ist die Beobachtung x unter der Nullhypothese im Hinblick auf die (obere) Alternative. In diesem Sinn ist der P- Wert ein Maß für die "Glaubwürdigkeit" der Nullhypothese im Lichte der Beoachtung x, und man lehnt die Nullhypothese gerrau dann ab, wenn dieser PWert das Niveau a unterschreitet. Auch der (nicht von der Beobachtung x abhängende) kritische Wert ka(p 0 ) ist für den Test d> von Bedeutung (vgl. Abb. 21 rechts), weil sich hieraus die Schärfe ergibt Das maximale Fehlerrisko 1. Art ist (als Folge der "Unstetigkeit" der Binomialverteilung) stets höchstens gleich dem nominalen Testniveau Man bezeichnet a>(p 0 ) auch als das effektive Testniveau. Der Test ist in dem Sinn konservativ, daß er die vorgebenene Irrtumswahrscheinlichkeit a im allgemeinen nicht voll ausschöpft. Der kritische Wert ka(p 0 ) kann mit geeigneter Software direkt ermittelt werden (vgl. z.B. Anhang V). Er läßt sich auch schrittweise wie folgt bestimmen. Für einen beliebigen Startwert k wird G(k) =P{ X> k I p 0 } berechnet. Falls G(k) < a bzw. G(k) > a ist, so wird k schrittweise verringert bzw. erhöht bis G(k) < a < G(k-1) gilt, und dann ist k = k a(p 0 ). Ein geeigneter Startwert ist der gannzahlig aufgerundete asymptotische Wert ka(p 0 ) aus 13.4.1 (3). Bei nicht zu großem n kann man auch einfach mit k = n starten. Testen von Hypothesen über Wahrscheinlichkeiten 13-11 2.2.16 Man beachte, daß im extremen Fall k rx(p 0 ) = n + 1 sogar a>(p 0 ) = 0 gilt, weil der Test dntl a 0 die Nullhypothese nie ablehnt. Dieser Fall tritt allerdings nur für < G(n Ip0 ) = p ~ ein, und läßt sich vermeiden, indem man n erhöht oder a entspre- chend heraufsetzt. Um diesen in der Praxis sinnlosen Fall auszuschließen, sollte n bzw. a in dem Sinn aufeinander abgestimmt sein, daß a > p~ gilt. Therapie-Erfolg (Fortsetzung) Wir gehen jetzt konkret davon aus, daß die Standard-Therapie eine Erfolgsquote von p = 80% hat und wollen über die Hypothesen aufgrund einer Studie mit nur 0 n = 25 Therapie-Anwendungen zum Niveau a = 5% entscheiden. Der kritische Wert ist dann krx (p 0 ) = 24, weil (vgl. Abb. 2 links) P{ X> 241 p 0 } = 2,74% < a = 5% < 9,82% = P{ X> 231 p 0 }. Insbesondere ist das effektive Testniveau mit 2,74% fast nur halb so groß wie das nominelle Niveau von 5%. Wir betrachten wieder das konkrete Ergebnis im Beipiel aus 11.4. Dort sind 3 Therapie-Versagen und somit x = 22 Therapie-Erfolge beobachtet worden, d.h. der beobachtete Therapie-Erfolg trat in p= 88% der Anwendungen ein. Nach (4) wird die Nullhypothese wegen x = 22 < 24 = krx(p 0 ) nicht abgelehnt. Der P- Wert aus (5) beträgt P{ X> 221 p 0 } = 23,40% und somit ist die Wahrscheinlichkeit für mindestens 22 Erfolge unter der Nullhypothese noch relativ hoch. Die untere Konfidenzgrenze für den Therapie-Erfolg ergibt sich (aus der in 11.4 angegeben oberen Grenze von 28,2 % für das Therapie-Versagen) zu pu = 71,8 % und liegt natürlich auch unterhalb von p , d.h. (6) trifft nicht zu. - Da sich der Test hier für die Nullhypothese entschieden 0 hat, kann ein Fehler 2. Art vorliegen, und über das zugehörige Fehlerrisiko 2. Art wissen wir zunächst noch nichts. Um den Einfluß des Umfangs n zu illustrieren gehen wir jetzt von n = 100 Anwendungen aus. Der kritische Wert ist dann krx(p 0 ) = 87 (vgl. auch Abb. 3), weil P{X>87I Po}= 4,69% < a = 5% < 8,04% =P{X>86I Po}' und das effektive Niveau a>(p 0 ) = 4,69%) weicht nur wenig vom nominellen Niveau a = 5% ab. Gehen wir wie oben von einer beobachteten Erfolgsquote von p= 88% aus, so entspricht dies x = 88 beobachteten Erfolgen, und der Test entscheidet sich jetzt für die Alternative. Hierbei ist zwar ein Fehler 1. Art möglich ist, aber dessen Risiko (Wahrscheinlichkeit) ist durch das Niveau a = 5% nach oben begrenzt. - Der Testen von Hypothesen über Wahrscheinlichkeiten 13-12 2.2.16 P-Wert P{ X> 881 p } = 2,53% liegt hier auch deutlich unter a = 5%. Die untere 0 Konfidenzgrenze pu = 81,3% liegt dann natürlich auch oberhalb von p = 80%. 0 D 13.1.4 Analyse des Fehlerrisikos 2. Art Die Prioritätensetzung bei den beiden Fehlerrisiken hat auch praktische Konsequenzen. Wenn man die Nullhypothese abgelehnen und sich für die Alternative entscheiden wird, so kann höchstens ein Fehler 1. Art vorliegen und das maximale Risiko hierfür ist durch das vorgegebene Testniveau a begrenzt. In diesem Fall wird die Alternative daher mit Wahrscheinlichkeit 1- a abgesichert. Wenn man sich jedoch für die Nullhypothese entscheiden wird, dann kann ein Fehler 2. Art vorliegen und das zugehörige Risiko wird nicht (direkt) durch den Test kontrolliert. Folglich ist die Sicherheit 1- ß>(p) = Pow>(p) einer Entscheidung für die Nullhypothese nicht kontrolliert und hängt sogar von der unbekannten Wahrscheinlichkeit p ab. Um dennoch in dieser Situation eine gewisse Sicherheit zu haben, kann man vorher die Schärfe Pow>(p) oder das Fehlerrisiko 2. Art ß>(p) für spezielle Werte von p bestimmen, die in der jeweiligen Anwendungssituation relevant sind, wie im folgenden Beispiel. Therapie-Erfolg (2. Fortsetzung) Typischerweise ist eine geringfügige Verbesserung der Erfolgs-Wahrscheinlichkeit z.B. p = 81% oder p = 82% der neuen Therapie gegenüber dem Standard von p = 80% klinisch nicht relevant (außer, wenn das Therapieversagen schwere Schä0 den oder sogar den Tod zur Folge hat). Von Relevanz sind meist deutliche Verbesserungen, wie z.B. p = 90% (d.h. eine Halbierung der Versagensquote von q = 20% 0 auf q = 10%) oder sogar p = 95% (d.h. q = 5%). Die Wahrscheinlichkeit, daß der Test diese relevanten Werte auch "entdecken", d.h. sich für die Alternative entscheiden wird, ist für n = 25 und krx(p 0 ) = 24 gegeben durch die zugehörigen Schärfen n=25: Pow>(90%) = G(24I90%) = 27%, Pow>(95%) = G(24l95%) = 64%. Diese Werte sind inakzeptabel gering, d.h. die Fehlerrisiken ßi90%) = 73% und ßi95%) = 36% sind zu groß. Der Grund hierfür ist die relative niedrige Anzahl Testen von Hypothesen über Wahrscheinlichkeiten 13-13 2.2.16 n = 25. Für n = 100 mit kr)p 0 ) = 87 ergibt sich schon bei p = 90% (vgl. Abb. 3) n = 100: Pow>(90%) = G(87I90%) = 88%, ß>(90%) = 12% was durchaus akzeptabel ist. D Wie das Beispiel zeigt, kann man allein durch Vergrößerung des Umfangs n die Schärfe des Tests erheblich verbessern. Dies sollte man bereits bei der Planung der Datenerhebung berücksichtigen, indem man vorher den erforderlichen Mindestumfang n bestimmt, der bei vorgegebenem a eine akzeptable Schärfe für ein anwendungsrelevantes p > p garantiert. Hierauf gehen wir erst später (in 13.5) näher ein. 0 p=p t 0 ,7 65 70 0 1,0 0,8 75 80 85 T ka 9o 95 100 Abb. 3: Die Testschärfe Pow(p) als markierte Fläche unter der Dichte von X,.....,_ B(n,p) bzw. X= ~X (obere Skala): links für p = p0 (Nullhypothese) und rechts für eine Alternative p = p1 > p0 . - Die Werte n = 100, p0 = 80%, a = 5%, ka = 871 p = 90% hier entsprechen dem Beispiel zum Therapie-Erfolg, wobei 1 Pow(p ) = 4,7% und Pow(p ) = 88%. 0 1 Testen von Hypothesen über Wahrscheinlichkeiten 13.2 2.2.16 13-14 Der exakte einseitige Binamial-Test mit unterer Alternative Für eine Zufallsvariable X mit B(n,p)-Verteilung betrachten wir jetzt die folgenden einseitigen Hypothesen mit der ;;unteren 11 Alternative: (1) Nullhypothese H : (Referenzwert wird nicht unterschritten) 0 Alternative H : (Referenzwert wird unterschritten). Dieses Hypothesen sind in gewisser Weise "dual" zu den bisher (in 13.1) betrachteten Hypothesen und lassen wie folgt auf diese zurückführen. Betrachten wir die Zufallsvariable Y = n- X mit B(n, q)- Verteilung, wobei q = 1- p die komplementäre Wahrscheinlichkeit ist, so lauten die Hypothesen mit q = 1- p 0 (1) I Nullhypothese H : q < qo' Alternative H : q > qo' 0 0 äquivalent und sind von der Form 13.1 (1). Obwohl sich der Test von (1) via (1) 1 auf den Test d> aus 13.1 zurückführen läßt, wollen wir ihn hier trotzdem explizit beschreiben und kurz behandeln. Der sich (aus 13.1 oder durch analoge Überlegungen) ergebende Test d< : { 0, ... , n}-----+ {0, 1} lautet wie folgt (vgl. Abb. 4). Exakter einseitiger unterer Binomial-Test zum (nominellen) Niveau a.: Ablehnung der Nullhypothese H : p > p bzw. Entscheidung für die Alternative 0 0 H: p < p 0 aufgrundeiner Realisierung x, d.h. d<(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist: (2) Die Beobachtung x unterschreitet einen unteren kritischen Wert k~(p 0 ): (3) Die Wahrscheinlichkeit P{ X< x I p (4) Die exakte obere Konfidenzgrenze 0 } unterschreitet das Niveau a: po, 0: (x) unterschreitet den Wert p 0 : Testen von Hypothesen über Wahrscheinlichkeiten p = po p= p p = po ! l 13-15 2.2.16 ! 0 ,2 0 ,4 0 ,6 o,o 0 ,2 0 ,4 0 ,6 I I I I I I I (x) ol a 0,0 0,2 0 ,4- 0,6 0 5 10 15 : ' ,...:.. r- . ' r- r- . I p"' ::; a )I 0 I I I I I I I I I h 5 r f I I I 10 15 0 ka1 I h I 5 I I 10 15 i r X X Abb. 4: Dichten von X,.....__ B( n, p) bzw. X=~ X (obere Skala) zur Illustration des exakten einseitigen unteren Test mit n = 251 p = 0,8 und a = 5%. 0 links: Dichte für p = p0 mit kritischen Wert k~(p 0 ). Mitte: Dichte für p = p mit P = P{ X< x I p } als markierter Fläche. 0 rechts: Dichte für p = po, 0:(x) 0 mit a als markierter Fläche. Der untere kritische Wert k~(p 0 ) läßt sich auch direkt aus dem oberen kritischen Wert ka(q 0 ) bestimmen: (5) mit k~(p ) 0 kann mit geeigneter Software direkt ermittelt werden (vgl. z.B. Anhang V). Er läßt sich auch schrittweise wie folgt bestimmen. Für einen beliebigen Startwert < a bzw. F(k) > a ist, so wird k schrittweise erhöht bzw. verringert bis F(k) < a < F(k + 1) gilt, und dann ist k wird F(k) = P{ X< k I p 0 } berechnet. Falls F(k) k = k~(p 0 ). Ein geeigneter Startwert ist der ganzzahlig abgerundete asymptotische Wert k~(p 0 ) aus 13.4.2 (3). Bei nicht zu großem n kann man auch einfach mit k = 0 starten. Die Schärfe des Tests d< ist gegeben durch Das effektive Testniveau (maximale Fehlerrisko 1. Art) ist höchstens gleich dem nomi- nalen Testniveau und somit ist der Test wieder konservativ. Testen von Hypothesen über Wahrscheinlichkeiten 13-16 10.3.16 Therapie-Erfolg bzw. Therapie-Versagen Bezeichnet q die Wahrscheinlichkeit für ein Therapie-Versagen, so lauten sind die überprüfenden Hypothesen von der Form (1) (mit q statt p) H>: q> qo (neue Therapie nicht besser als Standard) H<:q<qo (neue Therapie besser als Standard). vs. Wir betrachten die konkrete Studie aus 13.1.3 noch einmal aus dieser Sicht. Die Versagerquote der Standardtherapie war q = 20%. Für n = 25 und a = 5% ergibt 0 sich der kritische Wert k~(q 0 ) = 1 (vgl. Abb. 4 links). Die beobachtete Zahl x= 3 für Therapie-Versagen liegt oberhalb des kritischen Wertes und somit wird die Nullhypothese nicht abgelehnt. Der P- Wert P{ X< 3 I q 0 } = 23,40% (vgl. Abb. 4 Mitte) stimmt mit P{ X> 241 p } aus 13.1.3 überein, und die obere Konfidenzgrenze ist qo, 0: (3) = 0 28,2% (vgl. 11.4 und Abb. 4 rechts). D Der exakte zweiseitige Binomial-Test 13.3 Für eine Zufallsvariable X mit B(n,p)- Verteilung betrachten wir schließlich die folgende Nullhypothese mit der zweiseitigen Alternative (1) Nullhypothese H : p=p 0 (Referenzwert wird eingehalten) Alternative H : P :;=Po (Referenzwert wird nicht eingehalten). 0 Wegen (2) p<p p=p 0 0 und oder ist es naheliegend, sich für die Alternative p :;= p zu entscheiden, falls sich der ein0 seitig obere Test d> oder der untere Test d< für die jeweilige Alternative p > p0 oder p <p 0 entschieden haben. Oder anders formuliert, man entscheidet sich für die Nullhypothese p = p wenn sich beide einseitige Tests für ihre jeweilige Nullhypo0 these p < p bzw. p > p entschieden haben. Damit dieser zweiseitige Test das Niveau 0 0 a einhält, müssen die beiden einseitigen Tests jedoch zum halben Niveau ~ durchge- führt werden. Der sich so ergebende Test d:;Z: :{O, ... ,n}-----+{0,1} lautet wie folgt (vgl. auch Abb. 5). Testen von Hypothesen über Wahrscheinlichkeiten 13-17 2.2.16 Exakter zweiseitiger Binomial-Test zum (nominellen) Niveau a.: Ablehnung der Nullhypothese H : p = p bzw. Entscheidung für die Alternative 0 0 H: p :;= p0 aufgrundeiner Realisierung x, d.h. d:;zt.(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist (3) x > k9'(p0) x oder < 2 mit k~(p ) 0 2 Min { k E {0, ... , n + 1} I P{ X> k I p 0 } k0(Po) 2 <~ } Max{ kE{-1, ... ,n} IP{X<klp 0 }<~}. (4) oder Der Wert p0 liegt nicht im exakten zweiseitigen Konfidenzintervall Ia(x): (5) Po t 0,8 0 ,.6 1 1,0 0,6 l_ _l 0.8 I 1.0 0 ,6 l_ l i : ! I ' I I I ' ) 20 25 30 < l I 35 40 a 2~ { 20 25 I I i <a: : h: I I 30 35 t kb i k'a _l :i I I ::; a 1.0 i : ' ' 0,8 .l. i ' +' I I - 2 I I 40 20 ~ 25 I l I 30 j ka: 2 :l <a. rK35 40 i k 0! Abb. 5: Dichten von X,.....,_ B( n, p) bzw. X= ~X (obere Skala) unter H0 : p = p0 zum Vergleich der kritischen Werte des exakten zweiseitigen Test mit denen der beiden einseitigen Test für n = 40 1 p = 0,75 und a = 5%. Mitte: 0 kritische Werte k~(p ) und k0 (p ) des zweiseitigen Tests, 2 links: 0 2 0 kritischer unterer Wert k~(p 0 ) des einseitigen unteren Tests, rechts: kritischer oberer Wert k a(p 0 ) des einseitigen oberen Tests. Wenn man beim zweiseitigen Test die Nullhypothese ablehnt und sich für die Alternative H: p :;= p entscheidet, so gibt man zusätzlich noch die "Richtung" an, d.h. 0 Testen von Hypothesen über Wahrscheinlichkeiten 13-18 2.2.16 man entscheidet sich für die entsprechende Alternative desjenigen einseitigen Test (zum Niveau~), der für die Ablehnung verantwortlich ist. Konkret entscheidet man sich also für H: p > p falls x > k0 (p ) und für H: p < p falls x < k~(p ). 0 0 2 0 2 0 Bezeichnen wir die Schärfen der beiden einseitigen Tests zum Niveau ~ mit (6) Pow>(p I~) P{ X> k0 (p 0 ) I p} 2 (7) Pow<(p I~) P{X < k~(p 0 ) I p} 2 so ergibt sich die Schärfe des zweiseitigen Tests d:;Z: wegen für 0 < a (8) <1 als Summe beider einseitigen Schärfen Die Nullhypothese H enthält nur den Wert p = p und das effektive Testniveau bzw. 0 0 maximale Fehlerrisko 1. Art des Tests d:;Z: ist höchstens gleich dem nominellen Niveau d.h. der Test ist wieder konservativ. Einseitiger vs. zweiseitiger Test: Für eine Beobachtung x mit (vgl. auch Abb. 5) oder lehnt der zweiseitige Test die Nullhypothese nicht ab, während sich der entprechende einseitige Test zum Niveau a bereits für die jeweilige einseitige Alternative entscheidet. Man könnte daher auf die Idee kommen, im Fall (i) bzw. (ii) statt des ursprünlich geplanten zweiseitigen Tests doch lieber den einseitigen unteren bzw. oberen Test zum Niveau a durchzuführen, der dann zur Ablehnung der Nullhypothese führt. Dies ist jedoch nicht zulässig, weil man die zu prüfenden Hypothesen vor Beginn der Auswertung - und insbesondere unabhängig vom Ergebnis x - festlegen muß, damit das vorgegebene Niveau a eingehalten wird (konkret würde obige "falsche" Prozedur das Niveau 2a statt a haben). Ob man ein Testproblem ein- oder zweiseitig formuliert hängt von der jeweiligen inhaltlichen Fragestellung ab und läßt sich nicht rein mathematisch begründen. Al- lerdings hat der einseitig obere Test im Fall p > p bzw. der einseitig untere Test im 0 Testen von Hypothesen über Wahrscheinlichkeiten 13-19 2.2.16 Fall p <p gegenüber dem zweiseitigen Test eine größere Schärfe und damit ein 0 kleineres Fehlerrisiko 2. Art. - Diese Überlegungen gelten analog auch beim Vergleich aller folgenden zweiseitigen mit den entsprechenden einseitigen Tests. Genetik: Dominanter Erbgang (Fortsetzung) Bei einem Kreuzungsexperiment mit einem Umfang der F -Generation von n = 40 2 trat das Merkmal in x = 23 Fällen auf. Für a = 5% und p = 75% ergeben sich die 0 kritischen Werte zu ka(p 0 I~) = 36 und k ~(p 0 I~) = 23 und somit wird die Nullhypo- these (dominanter Erbgang) abgelehnt. Die P- Werte sind P{ X> 23 I p und P{ X< 231 p 0 } = 1,16% < ~- 0 } = 99,53% Und das zweiseitige 95%-Konfidenzintervall mit den Grenzen p a(x) ~~ p a(x) = 40,89%, ~~ = 72,96% enthält daher auch nicht den Referenzwert p = 75%. D 0 13.4 Asymptotische Tests Da sich die Binomial-Verteilung B(n,p) von X für wachsendes n beliebig gerrau durch die Normalverteilung approximieren läßt (vgl. 9.3.1) (1) B(n,p) ~ N(np, na (p)) 2 mit wollen wir für die bisherigen Hypothesen jetzt sogenannte asymptotische Tests herleiten, die auf dieser Approximation basieren. Konkret ersetzen wir bei den exakten Tests die exakten Konfidenzgrenzen durch die jeweiligen asymptotischen Grenzen aus 11.6 und untersuchen die daraus resultierenden asymptotischen Tests. 13.4.1 Der asymptotische einseitige obere Binomial-Test Für die einseitigen Hypothesen über die Wahrscheinlichkeit p (1) Nullhypothese H : 0 Alternative H : läßt sich der asymptotische Test (Referenzwert wird nicht überschritten) (Referenzwert wird überschritten), d>: {0, ... , n}-----+ {0, 1} auf verschiedene Weise äqui- valent formulieren (vgl. auch Abb. 6), wobei P die Verteilungsfunktion von N(O, 1) Testen von Hypothesen über Wahrscheinlichkeiten 13-20 2.2.16 und z Q : = <P-\1-a) das obere a-Quantil ist (vgl. AnhangT). Asymptotischer einseitiger oberer Test zum (asymptotischen) Niveau a.: Ablehnung der Nullhypothese H 0 :p < p 0 bzw. Entscheidung für die Alternative H: p > p0 aufgrundeiner Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist (2) Die asymptotische untere Konfidenzgrenze pu,a(x) überschreitet den Wert p0 (vgl. 11.6) (3) Die Beobachtung x überschreitet einen oberen kritischen Wert: bzw. (4) t(x) : = x- np 0 > a(po) Vn zQ ' Die Wahrscheinlichkeit P{ N(0,1) > t(x)} unterschreitet das Niveau a: P{ N(0,1) > t(x)} = <P(-t(x)) < a. p=po l 10 15 20 25 i k Q 0,4 0,6 0,8 1,0 0,4 0,6 0,8 1,0 10 15 20 25 10 15 20 25 i j X X Abb. 6: Normal-Approximation der Dichte von X,.....__ B(n,p) bzw. X= ~X (obere Skala) beim asymptotischen einseitigen oberen Test für n = 251 p = 0,8 und a = 5%. 0 links: p = p0 mit kritischem Wert ka(p 0 ) Mitte: p = p0 mit P = P { N(O, 1) > t(x)} = <P(- t(x)) als markierter Fläche. rechts: p = p (x) mit a als markierter Fläche. u,a Hierbei wird t(x) auch als Testwert bezeichnet. Die zugehörige Zufallsvariable t(X) Testen von Hypothesen über Wahrscheinlichkeiten 2.2.16 13-21 ist für p = p gerade die Standardisierung von X und somit für n---+ oo verteilungs0 konvergent gegen N(0,1). Folglich ist die in (4) auftretende Wahrscheinlichkeit eine Approximation für die Wahrscheinlichkeit in 13.1.3 (5) - also den P- Wert von x P{ X> x I p 0 } = P{ t(X) > t(x) I p 0 } ~ P{ N(0,1) > t(x)} = <P(-t(x)) (5) und deshalb heißt <P(- t(x)) auch der asymptotische P-Wert oder die asymptotische Sig- nifikanz der Beobachtung x. In (5) wird - ebenso wie in 11.6 (4)-(5) - bewußt auf die Stetigkeitskorrektur (vgl. 9.3.1) verzichtet um zu erreichen, daß der asymptotische Test nicht (wie der exakte Test) konservativ wird. Therapie-Erfolg (Fortsetzung) Wir wollen für das Beispiel aus 13.1.3 zum Vergleich jetzt auch den asymptotischen Test für n = 100 durchführen. Für p = 80%, a = 5% und x = 88 ergibt sich die 0 untere asymptotische Grenze (vgl. 11.6) zu der exakten Grenze pu asymptotischen Grenze pu = 81,6% und weicht nur wenig von = 81,3 %. Da der Referenzwert p = 80% unterhalb der 0 pu liegt, wird die Nullhypothese auch vom asymptotischen Test abgelehnt. D Wahlumfrage (Fortsetzung) Bei einer Wahlumfrage von Infratest dimap im Januar 2002 (vgl. 0.3 Abb. 4) ergaben sich bei n = 1300 Befragungen für die FDP ein Anteil von pFDP = 9% und für Die Grünen war Parune . = 6%. Von Interesse ist hier1 ob diese beiden Parteien an der 5%-Hürde scheitern würden oder nicht. Deshalb soll der einseitig obere Test mit p = 5% zum Niveau a = 5% für jede Partei einzeln durchgeführt werden. 0 Für die FDP ergibt sich die untere (asymptotische) Grenze zu pu,o: = 7,78% und so- mit entscheidet sich der Test für die Alternative (d.h. kein Scheitern an der 5%-Klausel). Für Die Grünen ist die asymptotische untere Grenze pu,o: = 5,01% nur minimal größer als p = 5% und der asymptotische Test entscheidet sich (ganz knapp) für die Alter0 native. Allerdings liegt die exakte untere Grenze pu,o: = 4,95% knapp unterhalb von p = 5% und der exakte Test entscheidet sich für die Nullhypothese (mit einem mö0 glichen Fehler 2. Art). Hier kommen der exakte und asymptotische Test zu unterschiedlichen Entscheidungen, wobei allerdings beides sehr knappe Entscheidungen sind. Wie wir später (in 13.5) sehen werden ist der Umfang n = 1300 hier nicht hoch Testen von Hypothesen über Wahrscheinlichkeiten 13-22 2.2.16 D genug, um zu einem zuverlässigen Ergebnis zu kommen. Der asymptotische Test ist auch von der Form dk aus 13.1.1 (4) mit k als nächstgrößere ganze Zahl von (6) kr)p 0 ), d.h. k:= { Min{lEZil>ka(p 0 )} n+1 } falls sonst Das maximale Fehlerrisiko 1. Art (effektive Niveau) ist daher nach 13.1.2 (6) gegeben durch und konvergiert für n---+ oo gegen das nominelle Niveau a - wobei wir wieder den zusätzlichen Index (n) verwenden, um die Abhängigkeit von n zu betonen (8) n---+ oo a. Man sagt daher, daß der Test das asymptotische Niveau a hat. Für ein konkretes n kann das effektive Niveau a>(p 0 ) sowohl nach oben als nach unten von a abweichen, wobei die Abweichung von a bei wachsendem n beliebig klein wird. Wegen der fehlenden Stetigkeitskorrektur in (5) ist der Test nicht konservativ. Der asymptotische Test ist wegen x < n nur dann sinnvoll, wenn gilt weil andernfalls die Nullhypothese nach (3) für kein x abgelehnt wird. Wegen (10) n---+ oo Po< 1 ist (9) für hinreichend großes n erfüllt. In der Praxis werden daher- wie beim exakten Test - bereits bei der Planung das Risiko a und der Umfang n so aufeinander abgestimmt, daß der Test die Nullhypothese auch ablehnen kann, d.h. (9) erfüllt ist. Die Schärfe des asymptotischen Tests läßt sich approximieren durch die asymptotische Schärfe (12) mit Die Approximation ist nach 9.3.1 (7) sogar von der Ordnung _l_ yn Testen von Hypothesen über Wahrscheinlichkeiten 13-23 2.2.16 wobei die Konstante c und die Funktion h in 9.3.1 angegeben sind. Unter der Alternativen H: p > p konvergiert die asymptotische Schärfe und damit 0 auch die exakte Schärfe sogar gegen 1 (vgl. Abb. 1) (14) 1' n---+ oo 1 und somit konvergiert das Fehlerrisiko 2. Art gegen Null (15) n---+ oo 0,7 0 1,0 0,9 0,7 n=400 n =lOO 65 70 1,0 75 80 85 90 95 100 260 280 300 320 340 i i ka ka 360 380' 400 Abb. 7: Zum Einfluß des Umfangs n beim asymptotischen oberen Test mit a = 5%. Dargestellt ist die Normal-Approximation der Dichte von X,.....__ B(n,p) bzw. X= ~X (obere x-Achse) für p = p = 80% und p =p = 85% mit n = 100 (links) und n = 400 0 1 (rechts). Die hell markierte Fläche (rechts vom kritischen Wert k ) entspricht der asymptotischen Schärfe APow~)(p) und die dunkel markierte Fläche (links vom kritischen Wert k0 ) ist das zugehörige asymptotische Risiko 2. Art ß~)(p). Bei wachsendem n wächst die Schärfe und das Risiko 2. Art fällt. Man beachte, daß die Skalierung der oberen x-Achse und der (nicht gezeichneten) y-Achse jeweils gleich ist, während die unteren x- Achsen unterschiedlich skaliert sind (die Flächen unter den Dichten entsprechen immer 100%). Testen von Hypothesen über Wahrscheinlichkeiten 13-24 2.2.16 13.4.2 Der asymptotische einseitige untere Binomial-Test Für die einseitigen Hypothesen über die Wahrscheinlichkeit p (1) Nullhypothese H 0 (Referenzwert wird nicht unterschritten) : Alternative H : (Referenzwert wird unterschritten). läßt sich der asymptotische Test d<: {0, ... , n}-----+ {0, 1} auf verschiedene Weise äquivalent formulieren (vgl. Abb. 8), wobei P die Verteilungsfunktion von N(0,1) und z : = <P-\1-a) das obere a-Quantil ist (vgl. AnhangT). Ct Asymptotischer einseitiger unterer Test zum (asymptotischen) Niveau a.: Ablehnung der Nullhypothese H 0 :p > p 0 bzw. Entscheidung für die Alternative H :p <p 0 aufgrundeiner Realisierung x, d.h. d<(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist (2) Die asymptotische obere Konfidenzgrenze po, Ct(x) unterschreitet p0 (vgl. 11.6) (3) Die Beobachtung x unterschreitet einen unteren kritischen Wert: bzw. (4) t(x) : = x- np 0 a(po) Vn < -z Ct Die Wahrscheinlichkeit P{ N(0,1) < t(x)} unterschreitet das Niveau a: P{ N(0,1) < t(x)} = <I>(t(x)) < a. Der asymptotische untere Test wird hier nur kurz erläutert, weil er völlig analog zum oberen Test aus 13.4.1 verläuft und durch Übergang auf Y = n-X auch auf diesen formal zurückführbar ist. Die in (4) auftretende Wahrscheinlichkeit ist eine Approximation für die Wahrscheinlichkeit in 13.2 (3) - also den P- Wert von x (5) P{ X< x I p 0 } = P{ t(X) < t(x) I p 0 } ~ P{ N(0,1) < t(x)} = <I>(t(x)) wobei bewußt auf die Stetigkeitskorrektur (vgl. 9.3.1) verzichtet wird. Die Wahrscheinlichkeit <!>( t( x)) heißt auch der asymptotische P-Wert oder die asymptotische Signifikanz der Beobachtung x. Testen von Hypothesen über Wahrscheinlichkeiten 13-25 2.2.16 p= p=po ! J 5 0 0,0 0.2 0.4 0 ,6 0,0 0,2 0,4 0.6 0 5 10 15 0 5 10 15 15 10 po, o (x) i i k'a i X Abb. 8: Normal-Approximation der Dichte von X,.....__ B(n,p) bzw. X= ~X (obere Skala) beim asymptotischen einseitigen oberen Test mit n = 251 p = 0,8 und a = 5%. 0 links: p = p0 mit kritischem Wert k~(p 0 ) Mitte: p = p0 mit P= P{ N(O,l) < t(x)} = <P(t(x)) als markierter Fläche. rechts: p = p (x) mit a als markierter Fläche. o,o: Das maximale Fehlerrisiko 1. Art (effektive Niveau) ist gegeben durch und konvergiert für (7) n---+ oo gegen das nominelle Niveau n---+ oo a a. d.h. der Test hat das asymptotische Niveau a. Die Schärfe des asymptotischen Tests läßt sich approximieren durch die asymptotische Schärfe (9) APow <(p) = <P( u(p)) mit u(p) = wobei die Approximation wieder von der Ordnung (10) I Pow<(p)- APow<(p) I < {n ·h(a(p)) mit der Konstanten c und der Funktion h aus 9.3.1. Vn (Po-P)- zo: a(po) Fn ist a(p) Testen von Hypothesen über Wahrscheinlichkeiten 2.2.16 13-26 Unter der Alternativen H: p < p konvergiert die asymptotische Schärfe und damit 0 auch die exakte Schärfe sogar gegen 1 (11) APow(<n)(p) n---+ oo Pow(n)(p) < 1, n---+oo 1 und somit konvergiert das Fehlerrisiko 2. Art gegen Null (12) n---+ oo für p <p 0 . 0 13.4.3 Der asymptotische zweiseitige Binomial- Test Für das zweiseitige Testproblem mit den Hypothesen über die Wahrscheinlichkeit p (1) Nullhypothese H : p=p 0 (Referenzwert wird eingehalten) Alternative H : P :;=Po (Referenzwert wird nicht eingehalten). 0 entspricht der zweiseitige asymptotische Test d :;Z: : {0, ... , n}-----+ {0, 1} wieder der Kombination beider einseitiger asymptotischer Tests zum halben Niveau ~. Asymptotischer zweiseitiger Test zum (asymptotischen) Niveau a.: Ablehnung der Nullhypothese H : p = p bzw. Entscheidung für die Alternative 0 0 H: p :;= p0 aufgrundeiner Realisierung x, d.h. d;Z:(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist (2) Der Wert p liegt nicht im asymptotischen zweiseitigen Konfidenzintervall: (3) Der Absolutbetrag des Testwerts überschreitet einen kritischen Wert: 0 I t(x) I : = I x- npo I > a(po) Vn (4) <P( -I t( X) I) < ~ 0 Die Schärfe des zweiseitigen asymptotischen Tests zum Niveau a ist die Summe der Schärfen beider einseitigen asymptotischen Tests zum Niveau ~, d.h. Also ist das (maximale) Fehlerrisko 1. Art des zweiseitigen Tests die Summe der Testen von Hypothesen über Wahrscheinlichkeiten 13-27 2.2.16 maximalen Fehlerrisko 1. Art beider einseitigen Tests zum Niveau ~, d.h. Für n---+ oo konvergiert das Fehlerrisko 1. Art gegen (7) a a, d.h. der zweiseitige Test hat das asymptotische Niveau a. Aus den Approximationen der Schärfen beider einseitigen asymptotischen Tests erhält man die asymptotische Schärfe des zweiseitigen Testes Unter der Alternativen H: p :;= p konvergiert die asymptotische Schärfe und damit 0 auch die exakte Schärfe sogar gegen 1 (9) und somit konvergiert das Fehlerrisiko 2. Art gegen Null ß(n)(p) = 1- Pow(n)(p) (10) 7':- p" p" p" Po Po Po ! L L 0 ,8 0,6 20 25 für p 7':- p0 . 0 n----+oo 7':- 30 0 ,6 1,0 35 40 20 0 ,8 25 30 1,0 40 35 0 ,8 0,6 20 25 1,0 30 35 f i t t k'a k~ ka 2 2 ka 40 Abb. 9: Normal-Approximation der Dichte von X,.....__ B( n, p) bzw. X=~ X (obere Skala) zum Vergleich der kritischen Werte des asymptotischen zweiseitigen Test mit denen der beiden einseitigen Test für n = 401 p = 0,75 und a = 5%. Die kritischen Werte k~(p ) und k 0 (p ) des zweiseitigen Tests. links: Der kritische untere Wert k ~(p 0 ) des einseitigen unteren Tests. 2 0 0 Mitte: ~ 2 0 rechts: Der kritische obere Wert ka(p 0 ) des einseitigen oberen Tests. Testen von Hypothesen über Wahrscheinlichkeiten 13-28 2.2.16 Genetik: Dominanter Erbgang (Fortsetzung) Bei dem schon in 13.3 betrachteten Kreuzungsexperiment mit n = 40 und x = 23 wollen wir (zur Illustration) auch den asymptotischen zweiseitigen Test für p = 75% 0 zum Niveau a = 5% durchführen. Das asymptotische Konfidenzintervall ist im exakten Konfidenzintervall enthalten weil pu,a/2 = 40,89% < 42,20% = pu,a/2 ' po,a/2 = 71,49% < po,a/2 = 72,96% ' wobei die Abweichungen der exakten von den asymptotischen Grenzen relativ gering sind. Der asymptotische Test entscheidet sich (wie der exakte) für die Alternative (kein dominanter Erbgang), weil p = 75% nicht im asymptotischen Intervall 0 liegt. Zur Illustration überprüfen wir auch noch die Bedingungen (3) und (4), die hier natürlich ebenfalls erfüllt sein müssen. Der absolute Testwert lt(x)l = 2,556 überschreitet das ~- Quantil z2,5% = 1,965. <!>(- 2,556) = 1,06% liegt unterhalb von~= 2,5% Und der asymptotische P- Wert und weicht nur gering vom exakten P-Wert P{ X< 231 p 0 } = 1,16% aus 13.3 ab. 13.5 D Planung des erforderlicher Stichproben-Mindestumfangs Per Konvention sind Tests so konstruiert, daß primär das Fehlerrisiko 1. Art a(pJ durch ein vorgegebenes Testniveau a kontrolliert wird. Das Fehlerrisiko 2. Art ß(p) wird hierbei für p---+ p 0 jedoch inakzeptabel groß und konvergiert sogar gegen 1- a(p ), vgl. 13.1.3 (1). Andererseits haben wir in 13.4 gesehen, daß für einen fe0 sten Wert p aus der (ein- oder zweiseitigen) Alternative das Fehlerrisiko ß(p) bei wachsenden Umfang n sogar gegen Null konvergiert. Folglich kann man für einen in der jeweiligen Anwendungsituation relevanten Wert p aus der Alternative, das Ri1 siko ß(p ) durch Wahl eines geeignet großen Umfang n entprechend gering halten. 1 Wir erläutern dies zunächst für den einseitigen oberen Test und daraus ergeben sich dann relativ einfach die entsprechenden Resultate für die anderen Tests. Testen von Hypothesen über Wahrscheinlichkeiten 2.2.16 13-29 13.5.1 Der einseitige obere Test Beim einseitigen oberen Test mit den Hypothesen H : p < p und H: p > p gehen 0 0 ten wir jetzt von einem anwendungsrelevanten Wert p und geben uns ein akzeptables Fehlerrisiko 2. Art 1 > p0 0 der Alternative aus ß (typischerweise wählt man ß = 2 a oder ß = 4 a) für diesen Wert p vor. Gesucht ist dann der kleinste Umfang n, 1 für den das Fehlerrisiko ß(n)(p ) unterhalb der Vorgabe ß ist, d.h. 1 ß~)(p 1 ) (1) = 1- Pow~)(p 1) < ß. Da der resultierende Umfang n typischerweise nicht gering ist, wollen wir ihn zuerst unter Verwendung der asymptotischen Schärfe bestimmen. Das asmptotische Fehlerrisiko 2. Art (vgl. 13.4.1(12)) 1- APow <(p) = <I>(- u(p)) mit ist formal nicht nur für n E W sondern sogar für beliebiges n E ( 0, oo) definiert und streng fallend in n. Wir suchen daher zunächst ein n E (O,oo) mit der Eigenschaft 1- APow~)(p ) = ß. 1 (2) Unter Verwendung des oberen ß-Quantils zß: = <P-\1-ß) von N(0,1) läßt sich (2) nach n auflösen und als Lösung ergibt sich ist der erforderliche Mindestumfang (3) mit ao = a(po) = JPo (1- Po) a1 = a(p1) = J P1 (1- P1) Da n( a,ß,p 0 ,p1 ) im allgemeinen keine ganze Zahl ist, erhält man den Mindestumfang n E W durch Aufrunden auf die nächst größere ganze Zahl. 1 wodurch sich das asymptotische Fehlerrisiko 2. Art verringert. Man beachte, daß der Mindestumfang n( a,ß,p 0 ,p1 ) umgekehrt proportional ist zum Quadrat des relevanten Unterschieds iJ.p = p - p ist (der die Abweichung von der Nullhypothese beschreibt). Halbiert 1 0 man z.B. den Unterschied iJ.p (durch Verringerung von p ) so wächst der Minde1 stumfang n ungefähr auf das Vierfache, wenn man die (eher geringfügige) Änderung von a 1 vernachlässigt. Der Einfluß von a und ß auf den Mindestumfang n( a,ß,p 0 ,p1 ) ist dagegen nicht ganz so gravierend, weil die Quantile von N(O, 1) im interessierenden Bereich von 1% bis 20% nicht so stark variieren: von z1% = 2,326 bis z20 % = 0,842 (vgl. AnhangT). Testen von Hypothesen über Wahrscheinlichkeiten 13-30 2.2.16 Der nach (3) ermittelte Mindestumfang n basiert auf dem asymptotischen und nicht auf den exakten Fehlerrisiken. Wenn man Zweifel daran hat, ob die verwendete Normalapproximation der B(n,p )-Verteilung für das so bestimmte n gerrau genug ist, so kann man das zugehörige exakte Fehlerrisiko nach 13.1.4 bestimmen. Falls die Bedingung (1) für das exakte Fehlerrisiko nicht gilt, so kann man n schrittweise solange erhöhen, bis (1) zutrifft. Therapie-Erfolg (Fortsetzung) Wir wollen den Mindestumfang bestimmen, bei dem das Fehlerrisiko 2.Art ß= 10% ist, wenn die Erfolgs-Wahrscheinlichkeit der neuen Therapie p = 90% bzw. 1 p = 85% beträgt, d.h. die Versagens-Wahrscheinlichkeit ist q = 10% bzw. q = 15% 1 1 1 (gegenüber q = 20% bei der Standardtherapie). Mit zß= 1,282 ergibt sich für 0 p = 90% der Umfang n(a,ß,p ,p ) ~ 109. Und für p = 85% erhält man den 1 1 0 1 wesentlich höheren Umfang n(a,ß,p ,p ) ~ 498. D 0 1 Wahlumfrage (Fortsetzung) In der oben betrachteten Umfrage hatten Die Grünen einen Anteil von p= 6%. Wir ß= 10% wollen jetzt überlegen, bei welchem Mindestumfang das Fehlerrisiko 2.Art ist, wenn der wahre Stimmanteil der Grünen mit p = 6% nur knapp über p = 5% 1 0 liegt. Mit zß= 1,282 ergibt sich der relativ hohe Umfang n( a,ß, p ,p 0 1 ) ~ 4394. D 13.5.2 Der einseitige untere Test Beim einseitigen unteren Test mit den Hypothesen H 0 :p > p 0 und H: p < p gibt 0 man sich einen anwendungsrelevanten Wert p <p der Alternative und ein zuge1 höriges Fehlerrisiko 2. Art ß vor. 0 Der erforderliche Mindestumfang n, für den das Fehlerrisiko ß(n)(p ) unterhalb der Vorgabe ß liegt ergibt sich durch Übergang auf 1 die komplementären Wahrscheinlichkeiten (1) q = 1- p) für i= 0, 1. q.=1-p. z z Mit denen lauten die Hypothesen äquivalent H 0 : q< q 13.5.1 (3) mit q stattpergibt sich der Mindestumfang zu 0 sowie H: q > q . Und aus 0 Testen von Hypothesen über Wahrscheinlichkeiten 13-31 2.2.16 ao = a(qo) = J qo (1- qo) a1 = a(q1) = Jq1 (1 -q1) mit Wegen (2) a(p.)z = a(q.)z läßt sich der erforderliche Mindestumfang auch als Funktion der ursprünglichen Wahrscheinlichkeiten p und p schreiben 0 1 (3) ao = a(po) = JPo (1- Po) a1 = a(p1) = J P1 (1- P1) mit Dieser Mindestunfang stimmt mit dem in 13.5.1 (3) überein, und somit kann der erforderliche Mindestumfang für beide einseitige Tests nach der gleichen Formel ermittelt werden. 13.5.3 Der zweiseitige Test Beim zweiseitigen Test mit den Hypothesen H : p = p und H: p :;= p gibt man sich 0 0 einen anwendungsrelevanten Wert p 1 :;= p 0 0 der Alternative und ein zugehöriges Feh- lerrisiko 2. Art ß vor. Die Schärfe des zweiseitigen Tests ist mindestens so groß ist wie die Schärfe jeder der beiden einseitigen Tests zum halben Niveau ~, und folglich ist das Fehlerrisiko 2. Art des zweiseitigen Tests höchstens so groß wie das der einseitigen Tests zum Niveau ~. Man bestimmt daher den erforderlichen Mindestumfang einfach für den zugehörigen einseitigen Test zum halben Niveau, d.h. (1) mit ao = a(po) = JPo (1- Po) a1 = a(p1) = Jp1 (1 -p1) Für den resultierenden (aufgerundeten) Umfang n E W ist das asymptotische Fehlerrisiko höchstens so groß wie die Vorgabe ß. Es handelt sich allerdings nicht notwendig um den kleinsten Umfang n mit dieser Eigenschaft. 1 Wenn man Wert darauf legt, daß sogar das exakte Fehlerrisiko 2. Art ß~)(p ) höchsten ß ist, so kann man ß~)(p 1 ) zunächst für obiges n nach 13.3 (9) berechnen, und Testen von Hypothesen über Wahrscheinlichkeiten 13-32 2.2.16 dann n gegebenfalls schrittweise verändern, bis das exakte Risiko ß~)(p ) 1 < ß ist. Genetik: Dominanter Erbgang (Fortsetzung) Wir wollen den Mindestumfang bestimmen, bei dem das Fehlerrisiko 2.Art ß= 10% beträgt, wenn die Wahrscheinlichkeit für das Auftreteten des Merkmals von p = 75% um 15% nach oben oder unten abweicht, d.h. für p = 90% und p = 60%. 0 1 1 Mit zrx; 2 = 1,960 und zß= 1,282 ergibt sich für p = 90% der Umfang n(~,ß,p ,p ) 0 1 1 ~ 68. Und für p1 = 60% erhält man - trotzgleicher Abweichung lp1- p I= 15% von 0 der Nullhypothese - den deutlich höheren Umfang n(~,ß,p 0 ,p 1 ) ~ 97. Dies liegt daran, daß die Standardabweichung a(p ) hier größer ist (als bei p = 90%). 1 1 D Tests für den Erwartungswert der Poissonverteilung 14.* 15.3.16 14-1 Tests für den Erwartungswert der Poisson-Verteilung Nachdem wir im vorigen Kapitel die Idee des statistischen Tests ausführlich am Beispiel des Tests über eine Wahrscheinlichkeit erläutert haben, wollen wir jetzt Tests über den Erwartungswert einer Poisson-Verteilung studieren. Da die grundlegenden Ideen und Verfahren völlig analog zum Testen von Wahrscheinlichkeiten sind, fallen die Erläuterungen hier etwas knapper aus. Zur formalen Vereinfachung betrachten wir (wie im Kapitel 12) zunächst nur eine Pois(,u)-verteilte Zufallsvariable X über deren Erwartungswert ,u > 0 wir ein- oder zweiseitige Hypothesen testen wollen. Am Ende des Kapitels behandeln wir dann den Fall mit n unabhängigen Wiederholungen von X. -Wer ein konkretes Anwendungsbeispiel vor Augen haben möchte, findet dies in der Einleitung (Abschnitt 0.1 oder 0.2). Für eine Realisierung x E W = WU { 0} von X bezeichnen w1r die zugehörigen 0 Poisson-Wahrscheinlichkeiten mit (1) p(xl,u) == P{X=xl,u} 1 IX. (2) F(xl,u) == P{X<xl,u} 2:: p( i I,u) , X -f..l ,u e ' X i=O 00 (3) 2:: G(xl,u) == P{X>xl,u} p(i l,u) 0 z=x Der einseitige Poisson-Test mit oberer Alternative 14.1* Für eine Zufallsvariable X mit Pois(,u)- Verteilung betrachten wir zuerst die folgenden einseitigen Hypothesen über den Erwartungswert ,u und einen festen Referenzwert ,u (1) 0 > 0: Nullhypothese H 0 (Referenzwert wird nicht überschritten), : Alternative H : (Referenzwert wird überschritten). Das maximale Fehlerrisiko 1. Art des Tests soll wieder höchstens so groß wie ein vorgegebenes Testniveau 0 < a <~ sein. Tests für den Erwartungswert der Poissonverteilung 14.1.1* 14-2 15.3.16 Der exakte einseitige obere Poisson-Test Der exakte Test d>:W 0 -----+{0,1}, der jeder Realisierung x von X eine Entscheidung zuordnet, ergibt sich analog zum Test einer Wahrscheinlichkeit in 13.1.3 zu: Exakter einseitiger oberer Poisson-Test zum (nominellen) Niveau a.: Ablehnung der Nullhypothese H : p, < p, bzw. Entscheidung für die Alternative 0 0 H: p, > p, 0 aufgrundeiner Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist: (1) Die Wahrscheinlichkeit P{ X> x lp, (2) Die exakte untere Konfidenzgrenze (t (3) Die Beobachtung x überschreitet einen oberen kritischen Wert ka(p, 0 ): 0 } unterschreitet das Niveau a: u,a (x) überschreitet den Wert p, : 0 Die Schärfe des Tests d> ist wachsend in p,. Das maximale Fehlerrisiko 1. Art liegt daher für p, = p, vor und ist 0 (als Folge der "Unstetigkeit" der Poisson-Verteilung) höchstens gleich dem nominalen Testniveau Man bezeichnet a>(p, 0 ) wieder als das effektive Testniveau. Der Test ist in dem Sinn konservativ, daß er die vorgebenene Irrtumswahrscheinlichkeit a im allgemeinen nicht voll ausschöpft. Das Fehlerrisiko 2. Art ist fallend in p, E (p, , oo) und konvergiert für p,---+ p, gegen das komplementäre ef0 fektive Testniveau 0 Tests für den Erwartungswert der Poissonverteilung 14-3 15.3.16 Also ist die Summe der maximalen Fehlerrisiken wieder 1. 14.1.2* Der asymptotische einseitige obere Poisson-Test Die Poisson-Verteilung Pois(p,) läßt sich für wachsendes p, beliebig gerrau durch die Normalverteilung approximieren (vgl. 9.4) (1) mit Hieraus ergibt sich für "großes" p, ein asymptotischer Test indem man beim exak0 ten Test die Poisson-Wahrscheinlichkeiten unter Verwendung der Normalverteilung approximiert bzw. die exakten Konfidenzgrenzen durch die jeweiligen asymptotischen Grenzen ersetzt. Der resultierende Test d>:W 0 -----+{0,1} ergibt sich mit der Verteilungsfunktion P von N(0,1) und dem oberen a-Quantil z : = <P-\1-a) wie folgt Ct Asymptotischer einseitiger oberer Test zum (asymptotischen) Niveau a.: Ablehnung der Nullhypothese H 0 : p, < p, 0 bzw. Entscheidung für die Alternative H: p, > p, 0 aufgrundeiner Realisierung x, d.h. d>(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist: (2) Die asymptotische untere Konfidenzgrenze fi u,a(x) überschreitet den Wert p, 0 : (vgl. 12.5) (3) Die Beobachtung x überschreitet einen oberen kritischen Wert ka(p, 0 ): t(x) : = bzw. (4) /iLo > zCt ' Die Wahrscheinlichkeit P{ N(0,1) > t(x)} unterschreitet das Niveau a: P{ N(0,1) > t(x)} = <I>(-t(x)) < Die Schärfe des asymptotischen Tests d> (5) X-J-L 0 a. Tests für den Erwartungswert der Poissonverteilung 15.3.16 14-4 ist wachsend in p,. Folglich tritt das maximale Fehlerrisiko 1. Art (effektive Niveau) wieder für p, = p, auf und ist gegeben durch 0 Dieses Risiko konvergiert für p, (7) a>(J-Lo) 0 ---+ oo gegen das nominelle Niveau a a' fL ---+oo 0 d.h. der Test hat das asymptotische Niveau a. Der asymptotische Test ist daher nur dann anwendbar, wenn p, so groß ist, daß die Normal-Approximation der Poisson0 Verteilung Pois(p, ) zufriedenstellend ist. Im Zweifelsfall sollte man den exakten 0 Test vorziehen. Die Schärfe des asymptotischen Tests läßt sich wieder approximieren durch die asymptotische Schärfe (8) 14.2* mit Der einseitige Poisson-Test mit unterer Alternative Für eine Zufallsvariable X mit Pois(p,)-Verteilung betrachten wir jetzt das Testproblem mit folgenden einseitigen Hypothesen: (1) Nullhypothese H 0 : Alternative H : (Referenzwert wird nicht unterschritten), (Referenzwert wird unterschritten). Im Gegensatz zur Binomialverteilung läßt sich dieses untere Testproblem nicht formal auf das schon behandelte obere Testproblem zurückführen. Der zugehörige exakte und asymptotische Test ergeben sich aber dennoch völlig analog sowohl zum entsprechenden Test einer Wahrscheinlichkeit als auch zum oberen Test aus 14.1. Tests für den Erwartungswert der Poissonverteilung 14-5 15.3.16 14.2.1* Der exakte einseitige untere Poisson-Test Der exakte Test d<: W0 -----+ {0, 1} ergibt sich analog zum Test einer Wahrscheinlichkeit in 13.2 zu: Exakter einseitiger unterer Poisson-Test zum (nominellen) Niveau a.: Ablehnung der Nullhypothese H 0 : p, > p, 0 bzw. Entscheidung für die Alternative H: p, < p, 0 aufgrundeiner Realisierung x, d.h. d<(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist: (1) Die Wahrscheinlichkeit P{ X:::; x 11-Lo} unterschreitet das Niveau a: (2) Die exakte obere Konfidenzgrenze (t (3) Die Beobachtung x unterschreitet einen unteren kritischen Wert k~(p, 0 ): o, 0: (x) unterschreitet den Wert p, 0 : Die Schärfe des Tests d< ist fallend in p,. Das maximale Fehlerrisko 1. Art liegt daher für p, = p, vor und ist 0 wieder höchstens gleich dem nominalen Testniveau Der Test ist folglich wieder konservativ. Das Fehlerrisiko 2. Art ist streng fallend in p, E (0, p, ) und konvergiert für p,---+ p, wieder gegen das kom0 plementäre effektive Testniveau 0 Tests für den Erwartungswert der Poissonverteilung 14.2.2* 14-6 15.3.16 Der asymptotische einseitige untere Poisson-Test Unter Verwendung der Normal-Approximation der Poisson-Verteilung Pois(p, ) er0 gibt sich für großes p, der folgende asymptotische Test, wobei <P die Verteilungs0 funktion <P von N(0,1) und z : = <P-\1-a) das obere a-Quantil ist. Ct Asymptotischer einseitiger unterer Test zum (asymptotischen) Niveau a.: Ablehnung der Nullhypothese H 0 : p, > p, 0 bzw. Entscheidung für die Alternative H: p, < p, 0 aufgrund einer Realisierung x, d.h. d<( x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist (1) Die asymptotische obere Konfidenzgrenze fi o, Ct(x) unterschreitet den Wert p, 0 (vgl. 12.5) (2) Die Beobachtung x unterschreitet einen unteren kritischen Wert: t(x) : = bzw. (3) X-J-L 0 $o < -z Ct Die Wahrscheinlichkeit P{ N(0,1) < t(x)} unterschreitet das Niveau a: P{ N(0,1) < t(x)} = <P(t(x)) < a. Die Schärfe des asymptotischen Tests d < ist fallend in p,. Folglich tritt das maximale Fehlerrisiko 1. Art (effektive Niveau) wieder für p, = p, auf und ist gegeben durch 0 Dieses Risiko konvergiert für p, (6) a<(J-Lo) fL ---+oo 0 ---+ oo gegen das nominales Niveau a a' 0 d.h. der Test hat das asymptotische Niveau a. Der asymptotische Test daher wieder nur dann anwendbar, wenn p, so groß ist, daß die Normal-Approximation der Pois0 son-Verteilung Pois(p, ) zufriedenstellend ist. Im Zweifelsfall sollte man den exak0 ten Test vorziehen. Tests für den Erwartungswert der Poissonverteilung 15.3.16 14-7 Die Schärfe des asymptotischen Tests läßt sich approximieren durch die asymptotische Schärfe (7) <!>( u(p,)) 14.3* mit Anwendung: Asbestmessungen in Schulgebäuden Wir betrachten die im Abschnitt 0.2 beschriebene Asbestmessung in Schulgebäuden, und gehen dabei davon aus, daß die Anzahl X der Asbestfasern in einem Stichprobenvolumen V (in hinreichender Näherung) Pois(p,)-verteilt ist. Die zu prüfenden Hypothesen beziehen sich hier auf die erwartete Asbestfaserkonzentration 3 ). = p,jV pro Kubikmeter (m ), sind aber äquivalent zu den enstprechenden Hypothe- sen über die Konzentration p, pro Stichprobenvolunen V. Für den (empfohlenen) Grenzwert >. = 500 [Fasern/rn 3 ] betrachten wir zuerst das Testproblem mit der 0 einseitig unteren Alternative (1) H : ..\ > >. 0 bzw. (Grenzwert nicht unterschritten) H : ..\ < >. 0 bzw. (Grenzwert unterschritten) 0 wobei p, = >. V der zugehörige Grenzwert für das Stichprobenvolumen V ist. 0 0 Das Ziel der Asbestmessungen bestand darin, eine Entscheidungsgrundlage für eine bauliche Sanierung der betroffenen Gebäudeteile zu erhalten. Wir gehen hier (vereinfachend) davon aus, daß eine Sanierung gerrau dann veranlaßt wird, wenn sich der Test für die Nullhypothese H (Grenzwert nicht unterschritten) entscheidet. 0 Eine Fehlentscheidung 1. Art liegt dann vor, wenn sich der Test nicht für die Sanierung entscheidet, obwohl sie erforderlich wäre (weil der Grenzwert nicht unterschritten wird) und stellt somit eine Gesundheitsgefährdung dar. Demgegenüber bedeutet ein Fehler 2.Art die Entscheidung für eine Sanierung, obwohl sie nicht erforderlich wäre, und dies läuft auf eine Geldverschwendung hinaus. Bei diesem Testproblem wird also primär das Gesundheitsrisiko (in Form des maximalen Fehlers 1. Art) und weniger das Risiko für Geldverschwendung kontrolliert. Für das Testproblem mit der einseitig oberen Alternative (2) bzw. (Grenzwert nicht überschritten) Tests für den Erwartungswert der Poissonverteilung bzw. 14-8 15.3.16 (Grenzwert überschritten) sind die Fehlentscheidungen gegenüber (1) gerade vertauscht. Hier wird primär das Risiko für Geldverschwendung (als Risiko l.Art) und weniger das einer Gesundheitsgefährdung kontrolliert. Man erkennt hieran erneut, wie wichtig bereits die Wahl von Nullhypothese und Alternative im Hinblick auf die primär zu kontrollierenden Fehlerrisiken ist. Obwohl man sich in der Praxis natürlich vor Beginn der Datenerhebung (Messung) auf eins der beiden Testprobleme festlegen sollte, wollen wir hier zwecks Illustration beide Tests an Hand der dritten Messung (vgl. 0.2 Tabelle 2 unten) durchführen mit den Daten x=8 V = 4,16 x 1,40/380 m 3 ~ 0,01533 ' m 3 . Einseitig unterer Test Beim Testproblem (1) soll jetzt zum nominellen Niveau a = 1% getestet werden. Hierdurch wird das Fehlerrisiko 1. Art (Gesundheitsgefährdung) auf 1% begrenzt, d.h. im Mittel wird bei 100 auf Asbest untersuchten Räumen nur ein sanierungsbedürftiger Raum nicht saniert. Aus Tabelle 1 (unten) ergibt sich der zugehörige untere kritische Wert zu k~ = 1 mit einem effektiven Testniveau a<(p, 0 ) = 0,41%, das deutlich unter dem nominellen Wert von 1% liegt. Da die Beobachtung x = 8 über dem kritischen Wert k'(X = 1 liegt, entscheidet sich der Test d< für die Nullhypothese H (Grenzwert nicht unterschritten) und somit für 0 eine Sanierung. Der P- Wert (Signifikanz der Beobachtung) ist daher größer als a und gibt an, wie wahrscheinlich höchstens 8 Asbestfasern im Volumen V sind, wenn A = >. wäre. Der Vorteil des P- Wertes liegt darin, daß man 0 an ihm auch sofort die Entscheidung eines Test mit einem anderen nominellen Niveau ablesen kann (z.B. würde man auch für a = 5% die Nullhypothese hier nicht ablehnen). Die zugehörige einseitige obere Konfidenzgrenze zur Sicherheit 1- a = 99% ist bzw A A 107 (8) = 1135/m o, 10 3 Tests für den Erwartungswert der Poissonverteilung 15.3.16 14-9 und liegt oberhalb von >. = 500jm 3. Der Vorteil der oberen Grenze liegt darin, daß 0 man an ihr auch Testentscheidungen für einen anderen Referenzwert >. 0 ablesen kann (z.B. würde man bei >. = 1500 die Nullhypothese hier ablehnen). 0 Da wir uns hier für die Nullhypothese entschieden haben, kann kommt als mögliche Fehlentscheidung nur ein Fehler 2. Art (Geldverschwendung) in Frage. Weil das maximale Risiko ß<(p,J = 1- a <(p,J = 99,59% für einen solchen Fehler extrem hoch ß<(p,1) ist, wollen wir das Fehlerrisiko für praktisch relevante Werte von \ bzw. p,1 nach 14.2.1 (6) berechnen. Hierbei ergeben sich z.B. \ = ~ >. 0 = 250 bzw. I-L1 = \ = ~ >. 0 = 100 bzw. /-L1 = sf-Lo = 1,533 1 2Yo = 3,832 1 ß<(p,1) ß<(p,1) = 89,5%' = 19,9% 0 Diese Risiken (für eine Geldverschwendung) sind immer noch relativ groß, und wir wollen jetzt exemplarisch zeigen, wie man diese Risiken durch eine aufwendigere Auswertung (deren zusätzliche Kosten in keinem Verhältnis zur denen einer überflüssigen Sanierung im Falle eines Fehlers 2. Art stehen) erheblich hätte verringern können. Hierzu genügt es, die ausgewertete Filterfläche oder den Volumendurchsatz (vgl. Tabelle 2 in 0.2) zu erhöhen, was auch intuitiv schon eine Präzisanssteigerung erwarten läßt. Zur Illustration gehen wir von einer Verdoppelung einer der beiden Größen aus, und haben dann statt V das doppelte Stichprobenvolumen V = 2V 2 Dann ergibt sich (bei gleichem >. 0 ) jetzt ein doppelt so großes p, 0 = >. 0 V2 = 15,326 als vorher. Aus Tabelle 1 entnimmt man den zugehörigen kritischen Wert k(X1 = 6 mit einem effektiven Testniveau a<(p,J = 0,621%, und die obigen Risiken für den Fehler 2. Art sind jetzt erheblich geringer als vorher: \ = ~ >. 0 = 250 bzw. \ = ~ >. 0 = 100 bzw. ß<(p,1) ß<(p,1) = 64,4% ' =3,7% 0 Hieran wird deutlich, daß man im Rahmen einer sorgfältigen Versuchsplanung bei vorgegebenem Testniveau a auch das Fehlerrisiko ß<(p,1) = ß<(\V) für eine vorgebene (relevante) Konzentration \ über eine geeignete Erhöhung des Stichprobenvolumens V noch kontrollieren kann. Tests für den Erwartungswert der Poissonverteilung 14-10 15.3.16 Tabelle 1: Werte der Poisson-Verteilungsfunktionen F(x IJ-L) und G(x IJ-L) mit f-L =).V für verschiedene Asbest-Konzentrationen ). [Fasernjm 3 ]. Die im Text zitierten Werte sind fett hervorgehoben. >. f-L=.AV X 500 7,6632 F(x I f-L) = 500 7,6632 G(x I f-L) = 1000 15,3263 F(x I f-L) = 1000 15,3263 G(x I f-L) = P{ X< X I f-L} P{X>xlf-L} P{ X< X I f-L} P{ X> X I f-L} 0 0,05% 1 0,41% 2 3 4 5 0,00% 0,00% 0,00% 0,02% 0,07% 0,22% 7 1,79% 5,31% 12,06% 22,41% 35,62% 50,09% 100,00% 99,95% 99,59% 98,21% 94,69% 87,94% 77,59% 64,38% 8 63,95% 49,91% 9 10 11 12 75,74% 84,79% 91,08% 95,11% 97,48% 98,78% 99,44% 99,76% 99,90% 99,96% 99,99% 99,99% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 36,05% 24,26% 15,21% 8,92% 100,00% 100,00% 100,00% 100,00% 99,98% 99,93% 99,78% 99,38% 98,51% 96,84% 94,01% 89,66% 83,59% 75,85% 66,73% 56,74% 46,53% 36,75% 27,94% 20,43% 14,38% 9,74% 6,35% 6 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 4,89% 2,52% 1,22% 0,56% 0,24% 0,10% 0,04% 0,01% 0,01% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,62% 1,49% 3,16% 5,99% 10,34% 16,41% 24,15% 33,27% 43,26% 53,47% 63,25% 72,06% 79,57% 85,62% 90,26% 93,65% 96,01% 97,58% 98,58% 99,20% 99,56% 99,77% 99,88% 99,94% 99,97% 3,99% 2,42% 1,42% 0,80% 0,44% 0,23% 0,12% 0,06% 15.3.16 Tests für den Erwartungswert der Poissonverteilung 14-11 Einseitig oberer Test Wenn man aus finanzpolitischer Sicht das Risiko einer Geldverschwendung auf a = 5% reduziert wissen will, so ist das Testproblem (2) angemessen. Aus Tabelle 1 ergibt sich der zugehörige obere kritische Wert zu k = 13 mit einem effektiven Testet niveau a>(,u 0 ) = 4,9% das dicht am nominellen Wert von 5% liegt. Da die Beobachtung x = 8 unter dem kritischen Wert k (X = 13 liegt, entscheidet sich der Test d> für die Nullhypothese H 0 (Grenzwert nicht überschritten) und somit für keine Sanierung (im Gegensatz zum einseitigen unteren Test!). Der P- Wert ist (vgl. Tabelle 1) und die einseitige untere Konfidenzgrenze zur Sicherheit 1- a = 95% ist (vgl. 12.6) 4u, 507(8) 10 bzw. = 3,98 3 A A 507 (8) = 260/m . u, 10 Auch hier ist (nur) ein Fehler 2. Art möglich und das zugehörige Risiko ß>(,u ) für 1 eine Gesundheitsgefährdung läßt sich nach 14.1.1 (6) für relevante Werte\ bzw. ,u 1 bestimmen, z.B. für 750 bzw. ,u1 =1,5 ·,u 0 = 11,49 ::::} ß>(,u1) = 63,4%' 2 ·-A 0 = 1000 bzw. ,u1 = 2 ·,u 0 = 15,33 ::::} ß>(,u1) = 24,2% \ = 1,5 . -A 0 = \ = 0 Diese Risiken lassen sich (wie beim einseitig unteren Test) durch eine Erhöhung des Stichprobenvolumens reduzieren. Für ein doppelt so großes ,u 0 = -A 0 V2 = 15,326. ergibt sich aus Tabelle 1 der zugehörige obere kritische Wert zu k(X = 23 mit einem effektiven Testniveau a>(,u ) = 3,99%, und die obigen Risiken für den Fehler 2. Art 0 sind jetzt erheblich geringer als vorher: 750 bzw. ,u1 =1,5 ·,u 0 = 22,99 ::::} ß>(,u1) =47,3%' 2 ·-A 0 = 1000 bzw. ,u1 = 2 ·,u 0 = 30,65 ::::} ß>(,u1) =6,5% \ = 1,5 . -A 0 = -A 1 = 0 Tests für den Erwartungswert der Poissonverteilung 14.4* 14-12 15.3.16 Der zweiseitige Poison-Test Für eine Zufallsvariable X mit Pois(p,)- Verteilung betrachten wir schließlich die folgende Nullhypothese mit der zweiseitigen Alternative: Nullhypothese H (1) 0 (Referenzwert wird eingehalten), : Alternative H : (Referenzwert wird nicht eingehalten). Die Entscheidung über diese Hypothesen führt man (wie in Kapitel 13) auf die bei- den einseitigen Tests zum jeweils halben Niveau ~ zurück, d.h. man entscheidet sich für die Alternative p, :;= p, , falls sich der einseitig obere Test oder der untere Test 0 zum Niveau ~ für die jeweilige Alternative p, > p, 0 oder p, < p, 0 entschieden hat. 14.4.1* Der exakte zweiseitige Poisson-Test Der exakte Test lautet daher: Exakter zweiseitiger Poisson-Test zum (nominellen) Niveau a.: Ablehnung der Nullhypothese H : p, = p, bzw. Entscheidung für die Alternative 0 0 H: p, :;= p, 0 aufgrundeiner Realisierung x, d.h. d:;zt.(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist (1) Der Wert p, 0 liegt nicht im exakten zweiseitigen Konfidenzintervall Irx(x): (2) oder (3) x > k0 (p, 0 ) oder 2 mit P{ X< x 11-Lo} < ~ x < k~(p, ) 2 0 k9' (1-Lo) : = Min { k E W0 I P{ X> k I p 0 } < ~ }, 2 k~(p, 0 ) : = Max { k E W0 U { -1} I P{ X< k I p 0 } 2 < ~ }. Bezeichnen wir die Schärfen der beiden einseitigen Tests zum Niveau ~ mit (5) Pow <(1-L I~) := P{ X< k~(p, 0 ) 11-L }, 2 Tests für den Erwartungswert der Poissonverteilung 15.3.16 14-13 so ergibt sich die Schärfe Pow:;Z: (p, I a) des zweiseitigen Tests d:;Z: wegen (6) für 0<a<1 als Summe beider einseitigen Schärfen Die Nullhypothese H enthält hier nur den Wert p, = p, und das effektive Testniveau 0 0 bzw. (maximale) Fehlerrisko 1. Art des zweiseitigen Tests ist wieder höchstens gleich dem nominalen Niveau (d.h. der Test ist konservativ) 14.4.2* Der asymptotische zweiseitige Poisson-Test Der asymptotische Test für großes p, lautet: 0 Asymptotischer zweiseitiger Test zum (asymptotischen) Niveau a.: Ablehnung der Nullhypothese H : p, = p, bzw. Entscheidung für die Alternative 0 0 H: p, :;= p, 0 aufgrundeiner Realisierung x, d.h. d;Z:(x) = 1, gerrau dann wenn eine der folgenden äquivalenten Bedingungen erfüllt ist (1) Der Wert p, liegt nicht im asymptotischen zweiseitigen Konfidenzintervall: (2) Der absolute Testwert überschreitet einen kritischen Wert: 0 I t(x) I : = I x- flo I > v1lo (3) <P( -I t( X) I) < ~ 0 Die Schärfe Pow :;Z:(p, I a) des zweiseitigen asymptotischen Tests zum Niveau a ist die Summe der Schärfen beider einseitigen asymptotischen Tests zum Niveau ~, d.h. Das (maximale) Fehlerrisko 1. Art des zweiseitigen Tests ist die Summe der maximalen Fehlerrisko 1. Art beider einseitigen Tests zum Niveau ~, d.h. Tests für den Erwartungswert der Poissonverteilung Dieses Risiko konvergiert für p, (6) a~(f-Lo) fL ---+oo 0 ---+ 14-14 15.3.16 oo gegen das nominelle Niveau a a' 0 d.h. der zweiseitige Test hat das asymptotische Niveau a. Aus den Approximationen der Schärfen beider einseitiger asymptotischer Tests erhält man die asymptotische Schärfe des zweiseitigen Testes (7) APow ~(1-L Ia) : = APow >(1-L I~) 14.5* Poisson-Tests bei unabhängigen Wiederholungen + APow <(1-L I~). Sind jetzt (wie in 12.7) n unabhängige Pois(p,)-verteilte Zufallsvariablen X , ... , Xn gegeben, so ist ihre Summe X t == X (1) X + "'Pois(p,(n)) + ... +Xn Poisson-verteilt 1 1 p,(n) = np,. mit Die Testprobleme mit den Hypothesen über p, (2) Ho: 1-L < 1-Lo vs. H: 1-L (3) Ho: 1-L > 1-Lo vs. H: 1-L < 1-Lo ' (4) Ho: 1-L = 1-Lo vs. H: 1-L > 1-Lo ' :;= 1-Lo ' lassen sich äquivalent formulieren als Hypothesen über den Erwartungswert p,(n) von X+ bzgl. des Referenzwerts p,~n) = n p, : 0 (2)' HO: 1-L(n) < 1-L~n) vs. H: 1-L(n) > 1-L~n) ' (3)' HO: 1-L(n) > 1-L~n) vs. H: 1-L(n) < 1-L~n). (4)' HO: 1-L(n) = 1-L~n) vs. H: 1-L(n) :;= 1-L~n). Ersetzt man in den obigen Abschnitten die Zufallsvariable X durch X+ und die Erwartungswerte p, bzw. p, durch p,(n) bzw. p,~n), so ergeben sich die entsprechenden 0 Tests, die wir hier nicht mehr explizit formulieren. Es sei noch darauf hingewiesen, daß für hinreichend großes n die asymptotischen Tests anwendbar sind, weil (5) n---+oo 00 0 G. Osius: Statistik-Funktionen in Tabellenkalkulationen S s- 1 11.3.16 Statistische Funktionen in Tabellenkalkulationen Gerhard Osius Für die wichtigsten im Skript behandelten Verteilungen sind hier die zugehörigen Statistik-Funktionen von Microsoft Excel tabellearisch zusammengestellt. Für Details -und weitere Verteilungen- konsultiere man die Microsoft Excel-Hilfe. Die unten genannten Funktione stehen auch in anderen (zu Excel kompatiblen) Tabellenkalkulationen zur Verfügung, z.B. OpenOffice Calc und LibreOffice Calc. Diskrete Verteilungen Funktion Beschreibung (Kommentar) Fakultät und Binomialkoeffizient FAKULTAT[n) n! KOMBINATIONEN[n, k) (~) Bernoulli-Verteilung B(1,p) s.u. für n = 1 Binomial-Verteilung X~ vgl. 1.2.3 BINOMVERT[k; n; p; 0) P {X= k} = b( k I n,p) kE { 0, ... , n} BINOMVERT[k; n; p; 1) P{X<k} kE { 0, ... , n} KRITBINOM[n;p; a) Min { k E Z I P {X< k Ip } > a } + KRITBINOM[n; p; 1- a) B(n,p), kCt (p) vgl. 13.1.3 (4) KRITBINOM[n; p; a) -1 k'Ct (p) vgl. 13.2 (2) Poisson-Verteilung X~ POISSON[k; p,; 0) P {X= k} = p( k 11-L) kEW POISSON[k; p,; 1) P{X<k} kEW Geometrische Verteilung Geo(p) = NB(1,p) s.u. für n = 1 Negativ-Binomial-Verteilung X~ vgl. 6.1.4 NEGBINOMVERT[k; n; p) P{X=k} kEW Hypergeometrische Verteilung X~ vgl. 9.8.3 HYPERGEOMVERT[m; n; p; 0) P{X=m} = h(mln,M,N), 1 Pois(p,), NB(n,p), H(n,M,N), vgl. 1.3.1 0 0 0 mET MN n, ' G. Osius: Statistik-Funktionen in Tabellenkalkulationen 11.3.16 s- 2 Stetige Verteilungen Funktion Beschreibung Standard-Normalverteilung N( 0, 1), (Kommentar) vgl. 4.3.3 STANDNORMVERT[x) Verteilungsfunktion <I>(x) von N(O, 1) STANDNORMINV(p) Inverse <I>-\p) von <I>, 0 <p < 1 -STANDNORMINV[a) a-QuantilzCt =-<I>-\a), 0<a<1 Normalverteilung X,.....__ N(p,, a 2 ), vgl. 1.4.1 NORMVERT[x; p,; a; 0) 2 Dichte f(x) von X,.....__ N(p,, a ) NORMVERT[x; p,; a; 1) 2 Verteilungsfunktion F(x) = P{ X< x} von X,.....__ N(p,, a ) Exponential-Verteilung X,.....__ Expo(>.), vgl. 1.4.2 Expo(>.) = Gam(1, >.-1), vgl. 6.2.2 EXPONVERT[x;).; 0) Dichte f(x) von X EXPONVERT[x;).; 1) Verteilungsfunktion F(x) = P{ X< x} von X Gamma-Verteilung X,.....__ Gam( a,ß) GAMMAVERT[x; a; ß; 0) Dichte f(x) von X GAMMAVERT[x; a; ß; 1) Verteilungsfunktion F(x) = P{ X< x} von X Gamma-Funktion und ihr (natürlicher) Logarithmus vgl. 6.2.2 vgl. 6.2.4 GAMMALN[x) Zn (T(x)), x>O EXP[GAMMALN[ x)) r(x), x>O t-Verteilung X,.....__ TVERT(x; m; 1) P{X>x} nur für x> 0 P{X>-x} = 1-P{X>x} nur für x> 0 t vgl. 10.3 m' TINV(2a; m) a-Quantil Chiquadrat-Verteilung x,.....__xm' tm;a der tm -Verteilung 2 vgl. 8.3.3 X~= Gam(~,2) CHIVERT[x; m) P{X>x} CHIINV[a; m) a-Quantil F-Verteilung x,.....__p FVERT(x; m; n] P{X>x} FINV[a; m; n] a-Quantil F der F -Verteilung mn;a mn x2m·a der x2m-Verteilung, ' mn' vgl. 11.5 T Statistische Tabellen Gerhard Osius 1. Verteilungsfunktion .P(x) der Normalverteilung für negative Argumente positive 2. Argumente Quantile z der N(0,1)-Verteilung für a Quantile tFG-a der t- Verteilung tFG für ' N( 0,1 )-Verteilung für Quantile z der a Quantile tFG-a der t- Verteilung tFG für a = 0,1%, ... , 10% a = 0,1% ,... , 10% a = 15% ,.... , 45% a = 15% ,.... , 45% ' 3. Quantile X~c-a der Chiquadrat-Verteilung X~G für FG = 1,... , 50 ' und a = 0,1%, ... , 10% a = 20%, ... , 80% a = 90%, ... , 99,9% 4. a-Quantile F m,n;a der F- Verteilung mit den Freiheitsgraden m, n = 1,... , 15, 30, 60, 120, 240 und a = 10% 5% 2,5% 1% 0,5% Hinweise zu den Tabellen Vor der Nutzung einer Tabelle sollte man das Ablese-Beipiel nachvollziehen. Die Funktionswerte y = f(x) sind in der jeweiligen Tabelle nicht lückenlos aufgeführt. Wenn ein Argument x innerhalb des Tabellenbereich liegt, aber nicht aufgeführt ist, so kann man den zugehörigen Funktionswert y wie folgt durch lineare Interpolation approximieren. Hierfür liest man für die beiden benachbarten Argumente x1 < x < x2 in der Tabelle die Funktionswerte yi = f(x) für i = 1, 2 ab. Die Gerade durch beide Punkte (x , y ) und (x , y ) approximiert die Funktion f im Inter1 1 2 2 vall [x , x ] und man verwendet den Funktionswert g(x) auf der Geraden als Nähe1 2 rung für f(x). Die zugehörige Geradengleichung lautet (1) Wenn das Argument außerhalb des Bereiches einer Tabelle liegt, so kann man dieInterpolation (1) für die ersten bzw. letzten beiden Argumente x < x < x bzw. 1 2 x < xx < x aus der Tabelle für eine (grobe) Approximation vonf(x) verwenden. 1 Die Funktionswerte bei Beispielen im Skript sind exakt berechnet und können von durch Interpolation gewonnen Werten aus den Tabellen (geringfügig) abweichen. T-1 G. Osius: Statistische Tabellen Verteilungsfunktion .P(x) der Normalverteilung N( 0,1) in Prozent für negative Argumente x < 0 Ablese-Beispiele: .P(-1,00) .P(-1,64) = 15,87%, = 5,050% X 0 0 -,00 -,01 -,02 -,03 -,04 -,05 -,06 -,07 -,08 -,09 X -0,0 -0,1 -0,2 -0,3 -0,4 50,00 46,02 42,07 38,21 34,46 49,60 45,62 41,68 37,83 34,09 49,20 45,22 41,29 37,45 33,72 48,80 44,83 40,90 37,07 33,36 48,40 44,43 40,52 36,69 33,00 48,01 44,04 40,13 36,32 32,64 47,61 43,64 39,74 35,94 32,28 47,21 46,81 43,25 42,86 39,36 38,97 35,57 35,20 31,92 31,56 46,41 42,47 38,59 34,83 31,21 -0,0 -0,1 -0,2 -0,3 -0,4 -0,5 -0,6 -0,7 -0,8 -0,9 30,85 27,43 24,20 21,19 18,41 30,50 27,09 23,89 20,90 18,14 30,15 26,76 23,58 20,61 17,88 29,81 26,43 23,27 20,33 17,62 29,46 26,11 22,96 20,05 17,36 29,12 25,78 22,66 19,77 17,11 28,77 25,46 22,36 19,49 16,85 28,43 25,14 22,06 19,22 16,60 28,10 24,83 21,77 18,94 16,35 27,76 24,51 21,48 18,67 16,11 -0,5 -0,6 -0,7 -0,8 -0,9 -1,0 -1,1 -1,2 -1,3 -1,4 15,87 13,57 11,51 9,680 8,076 15,62 13,35 11,31 9,510 7,927 15,39 15,15 13,14 12,92 11,12 10,93 9,342 9,176 7,780 7,636 14,92 12,71 10,75 9,012 7,493 14,69 12,51 10,56 8,851 7,353 14,46 12,30 10,38 8,692 7,215 14,23 12,10 10,20 8,534 7,078 14,01 11,90 10,03 8,379 6,944 13,79 11,70 9,853 8,226 6,811 -1,0 -1,1 -1,2 -1,3 -1,4 -1,5 -1,6 -1,7 -1,8 -1,9 6,681 5,480 4,457 3,593 2,872 6,552 5,370 4,363 3,515 2,807 6,426 5,262 4,272 3,438 2,743 6,301 5,155 4,182 3,362 2,680 6,178 5,050 4,093 3,288 2,619 6,057 4,947 4,006 3,216 2,559 5,938 4,846 3,920 3,144 2,500 5,821 5,705 4,746 4,648 3,836 3,754 3,074 3,005 2,442 2,385 5,592 4,551 3,673 2,938 2,330 -1,5 -1,6 -1,7 -1,8 -1,9 -2,0 -2,1 -2,2 -2,3 -2,4 2,275 1,786 1,390 1,072 0,820 2,222 1,743 1,355 1,044 0,798 2,169 2,118 1,700 1,659 1,321 1,287 1,017 0,990 0,776 0,755 2,068 1,618 1,255 0,964 0,734 2,018 1,578 1,222 0,939 0,714 1,970 1,539 1,191 0,914 0,695 1,923 1,500 1,160 0,889 0,676 1,876 1,463 1,130 0,866 0,657 1,831 1,426 1,101 0,842 0,639 -2,0 -2,1 -2,2 -2,3 -2,4 -2,5 -2,6 -2,7 -2,8 -2,9 0,621 0,466 0,347 0,256 0,187 0,604 0,453 0,336 0,248 0,181 0,587 0,440 0,326 0,240 0,175 0,570 0,427 0,317 0,233 0,169 0,554 0,415 0,307 0,226 0,164 0,539 0,402 0,298 0,219 0,159 0,523 0,391 0,289 0,212 0,154 0,508 0,379 0,280 0,205 0,149 0,494 0,368 0,272 0,199 0,144 0,480 0,357 0,264 0,193 0,139 -2,5 -2,6 -2,7 -2,8 -2,9 -3,0 -3,1 -3,2 -3,3 -3,4 0,135 0,097 0,069 0,048 0,034 0,131 0,094 0,066 0,047 0,032 0,126 0,090 0,064 0,045 0,031 0,122 0,087 0,062 0,043 0,030 0,118 0,084 0,060 0,042 0,029 0,114 0,082 0,058 0,040 0,028 0,111 0,079 0,056 0,039 0,027 0,107 0,076 0,054 0,038 0,026 0,104 0,074 0,052 0,036 0,025 0,100 0,071 0,050 0,035 0,024 -3,0 -3,1 -3,2 -3,3 -3,4 -,00 -,01 -,02 -,03 -,04 -,05 -,06 -,07 -,08 -,09 X X X T-2 G. Osius: Statistische Tabellen Verteilungsfunktion .P(x) der Normalverteilung N( 0,1) in Prozent für positive Argumente x > 0 Ablese-Beispiele: .P(+1,00) .P(+1,64) = 84,13%, = 94,9 5%0 0 X +,OO +,01 +,02 +,03 +,04 +,05 +,06 +,07 +,08 +,09 X +O,O +0,1 +0,2 +0,3 +0,4 50,00 53,98 57,93 61,79 65,54 50,40 54,38 58,32 62,17 65,91 50,80 54,78 58,71 62,55 66,28 51,20 55,17 59,10 62,93 66,64 51,60 55,57 59,48 63,31 67,00 51,99 55,96 59,87 63,68 67,36 52,39 56,36 60,26 64,06 67,72 52,79 56,75 60,64 64,43 68,08 53,19 57,14 61,03 64,80 68,44 53,59 57,53 61,41 65,17 68,79 +O,O +0,1 +0,2 +0,3 +0,4 +0,5 +0,6 +0,7 +0,8 +0,9 69,15 72,57 75,80 78,81 81,59 69,50 72,91 76,11 79,10 81,86 69,85 73,24 76,42 79,39 82,12 70,19 73,57 76,73 79,67 82,38 70,54 73,89 77,04 79,95 82,64 70,88 74,22 77,34 80,23 82,89 71,23 74,54 77,64 80,51 83,15 71,57 74,86 77,94 80,78 83,40 71,90 75,17 78,23 81,06 83,65 72,24 75,49 78,52 81,33 83,89 +0,5 +0,6 +0,7 +0,8 +0,9 +1,0 +1,1 +1,2 +1,3 +1,4 84,13 86,43 88,49 90,32 91,92 84,38 86,65 88,69 90,49 92,07 84,61 86,86 88,88 90,66 92,22 84,85 87,08 89,07 90,82 92,36 85,08 87,29 89,25 90,99 92,51 85,31 87,49 89,44 91,15 92,65 85,54 87,70 89,62 91,31 92,79 85,77 87,90 89,80 91,47 92,92 85,99 88,10 89,97 91,62 93,06 86,21 88,30 90,15 91,77 93,19 +1,0 +1,1 +1,2 +1,3 +1,4 +1,5 +1,6 +1,7 +1,8 +1,9 93,32 94,52 95,54 96,41 97,13 93,45 94,63 95,64 96,49 97,19 93,57 94,74 95,73 96,56 97,26 93,70 94,84 95,82 96,64 97,32 93,82 94,95 95,91 96,71 97,38 93,94 95,05 95,99 96,78 97,44 94,06 95,15 96,08 96,86 97,50 94,18 95,25 96,16 96,93 97,56 94,29 95,35 96,25 96,99 97,61 94,41 95,45 96,33 97,06 97,67 +1,5 +1,6 +1,7 +1,8 +1,9 +2,0 +2,1 +2,2 +2,3 +2,4 97,72 98,21 98,61 98,93 99,18 97,78 98,26 98,64 98,96 99,20 97,83 98,30 98,68 98,98 99,22 97,88 98,34 98,71 99,01 99,25 97,93 98,38 98,75 99,04 99,27 97,98 98,42 98,78 99,06 99,29 98,03 98,46 98,81 99,09 99,31 98,08 98,50 98,84 99,11 99,32 98,12 98,54 98,87 99,13 99,34 98,17 98,57 98,90 99,16 99,36 +2,0 +2,1 +2,2 +2,3 +2,4 +2,5 +2,6 +2,7 +2,8 +2,9 99,38 99,53 99,65 99,74 99,81 99,40 99,55 99,66 99,75 99,82 99,41 99,56 99,67 99,76 99,82 99,43 99,57 99,68 99,77 99,83 99,45 99,59 99,69 99,77 99,84 99,46 99,60 99,70 99,78 99,84 99,48 99,61 99,71 99,79 99,85 99,49 99,62 99,72 99,79 99,85 99,51 99,63 99,73 99,80 99,86 99,52 99,64 99,74 99,81 99,86 +2,5 +2,6 +2,7 +2,8 +2,9 +3,0 +3,1 +3,2 +3,3 +3,4 99,87 99,90 99,93 99,95 99,97 99,87 99,91 99,93 99,95 99,97 99,87 99,91 99,94 99,95 99,97 99,88 99,91 99,94 99,96 99,97 99,88 99,92 99,94 99,96 99,97 99,89 99,92 99,94 99,96 99,97 99,89 99,92 99,94 99,96 99,97 99,89 99,92 99,95 99,96 99,97 99,90 99,93 99,95 99,96 99,97 99,90 99,93 99,95 99,97 99,98 +3,0 +3,1 +3,2 +3,3 +3,4 +,OO +,01 +,02 +,03 +,04 +,05 +,06 +,07 +,08 +,09 X X X T-3 G. Osius: Statistische Tabellen Quantile z 0 der N(0,1)-Verteilung für a = 0,1% ,.... , 10%._ Beispiel: a Za (\ ~ ~ Für a = 5% ist z5% = 1,645 . 0,1% 0,25% 0,5% 1% 2,5% 5% 10% a 3,090 2,576 2,326 1,960 1,645 1,282 Za 2,807 Quantile t~;a der I-Verteilung tFGfür a = 0,1%, ... , 10%~ Bezspzel: FG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 80 100 200 300 400 500 00 FG Fur FG = 10, a = 5% 1st t10 . 507 = 1,812. 0,1% 0,25% 318,31 127,32 22,327 14,089 10,215 7,453 7,173 5,598 5,893 4,773 5,208 4,317 4,785 4,029 4,501 3,833 4,297 3,690 4,144 3,581 4,025 3,497 3,930 3,428 3,852 3,372 3,787 3,326 3,733 3,286 3,686 3,252 3,646 3,222 3,610 3,197 3,579 3,174 3,552 3,153 3,527 3,135 3,505 3,119 3,485 3,104 3,467 3,091 3,450 3,078 3,435 3,067 3,421 3,057 3,408 3,047 3,396 3,038 3,385 3,030 3,307 2,971 3,261 2,937 3,232 2,915 3,195 2,887 3,174 2,871 3,131 2,839 3,118 2,828 3,111 2,823 3,107 2,820 3,090 2,807 0,1% 0,25% , 0,5% 63,66 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,678 2,660 2,639 2,626 2,601 2,592 2,588 2,586 2,576 0,5% 10 1% 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,403 2,390 2,374 2,364 2,345 2,339 2,336 2,334 2,326 1% 2,5% 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,009 2,000 1,990 1,984 1,972 1,968 1,966 1,965 1,960 2,5% 5% 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,676 1,671 1,664 1,660 1,653 1,650 1,649 1,648 1,645 5% 0 tFG·a 10% 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,299 1,296 1,292 1,290 1,286 1,284 1,284 1,283 1,282 10% FG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 80 100 200 300 400 500 00 FG Quantile z 0 der N(0,1)-Verteilung für a = 15% ,.... , 45%. Beispiel: Für a /k T-4 Go Osius: Statistische Tabellen = 25% ist z2507 = 0,674 0 0 10 Za a 15% 20% 25% 30% 35% 40% 45% a Za 1,036 0,842 0,674 0,524 0,385 0,253 0,126 Za Quantile t~;a der t- Verteilung tFG für: = 15% ,.... , 45%~ Bezspzelo Fur FG -10, a - 25% 1st t100 2507 - 0,700 0 , 10 0 tFG·a FG 15% 20% 25% 30% 35% 40% 45% FG 1 2 3 4 5 6 7 1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,849 0,848 0,846 0,845 0,843 0,843 0,843 0,842 0,842 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,679 0,678 0,677 0,676 0,675 0,675 0,675 0,674 0,727 0,617 0,584 0,569 0,559 0,553 0,549 0,546 0,543 0,542 0,540 0,539 0,538 0,537 0,536 0,535 0,534 0,534 0,533 0,533 0,532 0,532 0,532 0,531 0,531 0,531 0,531 0,530 0,530 0,530 0,529 0,528 0,527 0,526 0,526 0,525 0,525 0,525 0,525 0,524 0,510 0,445 0,424 0,414 0,408 0,404 0,402 0,399 0,398 0,397 0,396 0,395 0,394 0,393 0,393 0,392 0,392 0,392 0,391 0,391 0,391 0,390 0,390 0,390 0,390 0,390 0,389 0,389 0,389 0,389 0,388 0,388 0,387 0,387 0,386 0,386 0,386 0,386 0,386 0,385 0,325 0,289 0,277 0,271 0,267 0,265 0,263 0,262 0,261 0,260 0,260 0,259 0,259 0,258 0,258 0,258 0,257 0,257 0,257 0,257 0,257 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,256 0,255 0,255 0,254 0,254 0,254 0,254 0,254 0,254 0,253 0,253 0,158 0,142 0,137 0,134 0,132 0,131 0,130 0,130 0,129 0,129 0,129 0,128 0,128 0,128 0,128 0,128 0,128 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,127 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 0,126 1 2 3 4 5 6 7 00 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,050 1,047 1,045 1,043 1,042 1,039 1,038 1,038 1,038 1,036 FG 15% 20% 25% 30% 35% 40% 45% 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 80 100 200 300 400 500 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 80 100 200 300 400 500 00 FG T-5 G. Osius: Statistische Tabellen Quantile X~c-a der Chiquadrat-Verteilung X~G für ~ FG = 1,... , 50,(Zeilen) und a = 0,1%, ... , 10% (Spalten) Beispiel: FG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 Für FG = 10, a = 5% ist X~o·, 5070;c = 18,307 . 0,1% 0,25% 10,828 13,816 16,266 18,467 20,515 22,458 24,322 26,124 27,877 29,588 31,264 32,909 34,528 36,123 37,697 39,252 40,790 42,312 43,820 45,315 46,797 48,268 49,728 51,179 52,620 54,052 55,476 56,892 58,301 59,703 61,098 62,487 63,870 65,247 66,619 67,985 69,346 70,703 72,055 73,402 74,745 76,084 77,419 78,750 80,077 81,400 82,720 84,037 85,351 86,661 9,141 11,983 14,320 16,424 18,386 20,249 22,040 23,774 25,462 27,112 28,729 30,318 31,883 33,426 34,950 36,456 37,946 39,422 40,885 42,336 43,775 45,204 46,623 48,034 49,435 50,829 52,215 53,594 54,967 56,332 57,692 59,046 60,395 61,738 63,076 64,410 65,739 67,063 68,383 69,699 71,011 72,320 73,624 74,925 76,223 77,517 78,809 80,097 81,382 82,664 I"N a x2 FG;a 0 0,5% 1% 2,5% 5% 10% FG 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,559 46,928 48,290 49,645 50,993 52,336 53,672 55,003 56,328 57,648 58,964 60,275 61,581 62,883 64,181 65,476 66,766 68,053 69,336 70,616 71,893 73,166 74,437 75,704 76,969 78,231 79,490 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 52,191 53,486 54,776 56,061 57,342 58,619 59,893 61,162 62,428 63,691 64,950 66,206 67,459 68,710 69,957 71,201 72,443 73,683 74,919 76,154 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 48,232 49,480 50,725 51,966 53,203 54,437 55,668 56,896 58,120 59,342 60,561 61,777 62,990 64,201 65,410 66,617 67,821 69,023 70,222 71,420 3,841 5,991 7,815 9,488 11,071 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 44,985 46,194 47,400 48,602 49,802 50,998 52,192 53,384 54,572 55,758 56,942 58,124 59,304 60,481 61,656 62,830 64,001 65,171 66,339 67,505 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 41,422 42,585 43,745 44,903 46,059 47,212 48,363 49,513 50,660 51,805 52,949 54,090 55,230 56,369 57,505 58,641 59,774 60,907 62,038 63,167 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 T-6 G. Osius: Statistische Tabellen Quantile X~c-a , der Chiquadrat-Verteilung X~G für FG = 1, ... , 50 (Zeilen) und a Beispiel: = 20%, ... , 80% (Spalten) Für FG = 10, a =50% ist X~o; SO%= 9,342 . o fh XFG;a FG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20% 1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 30% 1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775 40% 0,708 1,833 2,946 4,045 5,132 6,211 7,283 8,351 9,414 10,473 11,530 12,584 13,636 14,685 15,733 16,780 17,824 18,868 19,910 20,951 50% 0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 60% 0,275 1,022 1,869 2,753 3,655 4,570 5,493 6,423 7,357 8,295 9,237 10,182 11,129 12,078 13,030 13,983 14,937 15,893 16,850 17,809 70% 0,148 0,713 1,424 2,195 3,000 3,828 4,671 5,527 6,393 7,267 8,148 9,034 9,926 10,821 11,721 12,624 13,531 14,440 15,352 16,266 80% 0,064 0,446 1,005 1,649 2,343 3,070 3,822 4,594 5,380 6,179 6,989 7,807 8,634 9,467 10,307 11,152 12,002 12,857 13,716 14,578 FG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250 37,359 38,466 39,572 40,676 41,778 42,879 43,978 45,076 46,173 47,269 48,363 49,456 50,548 51,639 52,729 53,818 54,906 55,993 57,079 58,164 23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530 34,598 35,665 36,731 37,795 38,859 39,922 40,984 42,045 43,105 44,165 45,224 46,282 47,339 48,396 49,452 50,507 51,562 52,616 53,670 54,723 21,991 23,031 24,069 25,106 26,143 27,179 28,214 29,249 30,283 31,316 32,349 33,381 34,413 35,444 36,475 37,505 38,535 39,564 40,593 41,622 42,651 43,679 44,706 45,734 46,761 47,787 48,814 49,840 50,866 51,892 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336 30,336 31,336 32,336 33,336 34,336 35,336 36,336 37,335 38,335 39,335 40,335 41,335 42,335 43,335 44,335 45,335 46,335 47,335 48,335 49,335 18,768 19,729 20,690 21,652 22,616 23,579 24,544 25,509 26,475 27,442 28,409 29,376 30,344 31,313 32,282 33,252 34,222 35,192 36,163 37,134 38,105 39,077 40,050 41,022 41,995 42,968 43,942 44,915 45,889 46,864 17,182 18,101 19,021 19,943 20,867 21,792 22,719 23,647 24,577 25,508 26,440 27,373 28,307 29,242 30,178 31,115 32,053 32,992 33,932 34,872 35,813 36,755 37,698 38,641 39,585 40,529 41,474 42,420 43,366 44,313 15,445 16,314 17,187 18,062 18,940 19,820 20,703 21,588 22,475 23,364 24,255 25,148 26,042 26,938 27,836 28,735 29,635 30,537 31,441 32,345 33,251 34,157 35,065 35,974 36,884 37,795 38,708 39,621 40,534 41,449 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 T-7 G. Osius: Statistische Tabellen Quantile ;FG·a der Chiquadrat-Verteilung ;FG für ~ ~O,(Zeilen) und a . 90~,..., 99,9% (Spalten)~ Fur FG = 10, a = 95% 1st x10 . 95 = 3,940 . 0 x2 , ;o FG;a FG . 1, ... , Bezspzel: FG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 (!1 90% 0,016 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 21,434 22,271 23,110 23,952 24,797 25,643 26,492 27,343 28,196 29,051 29,907 30,765 31,625 32,487 33,350 34,215 35,081 35,949 36,818 37,689 95% 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 19,281 20,072 20,867 21,664 22,465 23,269 24,075 24,884 25,695 26,509 27,326 28,144 28,965 29,787 30,612 31,439 32,268 33,098 33,930 34,764 97,5% 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 17,539 18,291 19,047 19,806 20,569 21,336 22,106 22,878 23,654 24,433 25,215 25,999 26,785 27,575 28,366 29,160 29,956 30,755 31,555 32,357 99% 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,879 13,565 14,256 14,953 15,655 16,362 17,074 17,789 18,509 19,233 19,960 20,691 21,426 22,164 22,906 23,650 24,398 25,148 25,901 26,657 27,416 28,177 28,941 29,707 99,5% 99,75% 0,000 0,000 0,010 0,005 0,072 0,045 0,207 0,145 0,412 0,307 0,676 0,527 0,989 0,794 1,344 1,104 1,735 1,450 2,156 1,827 2,603 2,232 3,074 2,661 3,565 3,112 4,075 3,582 4,601 4,070 5,142 4,573 5,697 5,092 6,265 5,623 6,844 6,167 7,434 6,723 8,034 7,289 8,643 7,865 9,260 8,450 9,886 9,044 10,520 9,646 11,160 10,256 11,808 10,873 12,461 11,497 13,121 12,128 13,787 12,765 14,458 13,407 15,134 14,056 15,815 14,709 16,501 15,368 17,192 16,032 17,887 16,700 18,586 17,373 19,289 18,050 19,996 18,732 20,707 19,417 21,421 20,106 22,138 20,799 22,859 21,496 23,584 22,196 24,311 22,900 25,041 23,606 25,775 24,316 26,511 25,029 27,249 25,745 27,991 26,464 99,9% 0,000 0,002 0,024 0,091 0,210 0,381 0,598 0,857 1,152 1,479 1,834 2,214 2,617 3,041 3,483 3,942 4,416 4,905 5,407 5,921 6,447 6,983 7,529 8,085 8,649 9,222 9,803 10,391 10,986 11,588 12,196 12,811 13,431 14,057 14,688 15,324 15,965 16,611 17,262 17,916 18,575 19,239 19,906 20,576 21,251 21,929 22,610 23,295 23,983 24,674 FG 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 G. Osius: Statistische Tabellen T-8 15.06.07 α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner) α = 10% FQ (m =5, n =14; α=10%) = Beispiele: FQ (m =14, n =5; α=10%) = 2,307 n F -Verteilung 3,247 1-α m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 30 60 120 240 1 2 3 4 5 6 7 8 9 10 39,86 8,526 5,538 4,545 4,060 3,776 3,589 3,458 3,360 3,285 49,50 9,000 5,462 4,325 3,780 3,463 3,257 3,113 3,006 2,924 53,59 9,162 5,391 4,191 3,619 3,289 3,074 2,924 2,813 2,728 55,83 9,243 5,343 4,107 3,520 3,181 2,961 2,806 2,693 2,605 57,24 9,293 5,309 4,051 3,453 3,108 2,883 2,726 2,611 2,522 58,20 9,326 5,285 4,010 3,405 3,055 2,827 2,668 2,551 2,461 58,91 9,349 5,266 3,979 3,368 3,014 2,785 2,624 2,505 2,414 59,44 9,367 5,252 3,955 3,339 2,983 2,752 2,589 2,469 2,377 59,86 9,381 5,240 3,936 3,316 2,958 2,725 2,561 2,440 2,347 60,19 9,392 5,230 3,920 3,297 2,937 2,703 2,538 2,416 2,323 60,47 9,401 5,222 3,907 3,282 2,920 2,684 2,519 2,396 2,302 60,71 9,408 5,216 3,896 3,268 2,905 2,668 2,502 2,379 2,284 60,90 9,415 5,210 3,886 3,257 2,892 2,654 2,488 2,364 2,269 61,07 9,420 5,205 3,878 3,247 2,881 2,643 2,475 2,351 2,255 61,22 9,425 5,200 3,870 3,238 2,871 2,632 2,464 2,340 2,244 62,26 9,458 5,168 3,817 3,174 2,800 2,555 2,383 2,255 2,155 62,79 9,475 5,151 3,790 3,140 2,762 2,514 2,339 2,208 2,107 63,06 9,483 5,143 3,775 3,123 2,742 2,493 2,316 2,184 2,082 63,19 9,487 5,138 3,768 3,114 2,732 2,482 2,304 2,172 2,069 11 12 13 14 15 3,225 3,177 3,136 3,102 3,073 2,860 2,807 2,763 2,726 2,695 2,660 2,606 2,560 2,522 2,490 2,536 2,480 2,434 2,395 2,361 2,451 2,394 2,347 2,307 2,273 2,389 2,331 2,283 2,243 2,208 2,342 2,283 2,234 2,193 2,158 2,304 2,245 2,195 2,154 2,119 2,274 2,214 2,164 2,122 2,086 2,248 2,188 2,138 2,095 2,059 2,227 2,166 2,116 2,073 2,037 2,209 2,147 2,097 2,054 2,017 2,193 2,131 2,080 2,037 2,000 2,179 2,117 2,066 2,022 1,985 2,167 2,105 2,053 2,010 1,972 2,076 2,011 1,958 1,912 1,873 2,026 1,960 1,904 1,857 1,817 2,000 1,932 1,876 1,828 1,787 1,986 1,918 1,861 1,813 1,771 16 17 18 19 20 3,048 3,026 3,007 2,990 2,975 2,668 2,645 2,624 2,606 2,589 2,462 2,437 2,416 2,397 2,380 2,333 2,308 2,286 2,266 2,249 2,244 2,218 2,196 2,176 2,158 2,178 2,152 2,130 2,109 2,091 2,128 2,102 2,079 2,058 2,040 2,088 2,061 2,038 2,017 1,999 2,055 2,028 2,005 1,984 1,965 2,028 2,001 1,977 1,956 1,937 2,005 1,978 1,954 1,932 1,913 1,985 1,958 1,933 1,912 1,892 1,968 1,940 1,916 1,894 1,875 1,953 1,925 1,900 1,878 1,859 1,940 1,912 1,887 1,865 1,845 1,839 1,809 1,783 1,759 1,738 1,782 1,751 1,723 1,699 1,677 1,751 1,719 1,691 1,666 1,643 1,735 1,703 1,674 1,649 1,626 21 22 23 24 25 2,961 2,949 2,937 2,927 2,918 2,575 2,561 2,549 2,538 2,528 2,365 2,351 2,339 2,327 2,317 2,233 2,219 2,207 2,195 2,184 2,142 2,128 2,115 2,103 2,092 2,075 2,060 2,047 2,035 2,024 2,023 2,008 1,995 1,983 1,971 1,982 1,967 1,953 1,941 1,929 1,948 1,933 1,919 1,906 1,895 1,920 1,904 1,890 1,877 1,866 1,896 1,880 1,866 1,853 1,841 1,875 1,859 1,845 1,832 1,820 1,857 1,841 1,827 1,814 1,802 1,841 1,825 1,811 1,797 1,785 1,827 1,811 1,796 1,783 1,771 1,719 1,702 1,686 1,672 1,659 1,657 1,639 1,622 1,607 1,593 1,623 1,604 1,587 1,571 1,557 1,605 1,586 1,568 1,552 1,538 26 27 28 29 30 2,909 2,901 2,894 2,887 2,881 2,519 2,511 2,503 2,495 2,489 2,307 2,299 2,291 2,283 2,276 2,174 2,165 2,157 2,149 2,142 2,082 2,073 2,064 2,057 2,049 2,014 2,005 1,996 1,988 1,980 1,961 1,952 1,943 1,935 1,927 1,919 1,909 1,900 1,892 1,884 1,884 1,874 1,865 1,857 1,849 1,855 1,845 1,836 1,827 1,819 1,830 1,820 1,811 1,802 1,794 1,809 1,799 1,790 1,781 1,773 1,790 1,780 1,771 1,762 1,754 1,774 1,764 1,754 1,745 1,737 1,760 1,749 1,740 1,731 1,722 1,647 1,636 1,625 1,616 1,606 1,581 1,569 1,558 1,547 1,538 1,544 1,531 1,520 1,509 1,499 1,524 1,511 1,500 1,489 1,478 60 120 240 2,791 2,748 2,727 2,393 2,347 2,325 2,177 2,130 2,107 2,041 1,992 1,968 1,946 1,896 1,871 1,875 1,824 1,799 1,819 1,767 1,742 1,775 1,722 1,696 1,738 1,684 1,658 1,707 1,652 1,625 1,680 1,625 1,598 1,657 1,601 1,573 1,637 1,580 1,552 1,619 1,562 1,533 1,603 1,545 1,516 1,476 1,409 1,376 1,395 1,320 1,281 1,348 1,265 1,219 1,321 1,232 1,180 G. Osius: Statistische Tabellen T-9 15.06.07 α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner) α = 5% FQ (m =5, n =14; α=5%) = Beispiele: FQ (m =14, n =5; α=5%) = 2,958 n F -Verteilung 4,636 1-α m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 30 60 120 240 1 2 3 4 5 6 7 8 9 10 161,4 18,51 10,13 7,709 6,608 5,987 5,591 5,318 5,117 4,965 199,5 19,00 9,552 6,944 5,786 5,143 4,737 4,459 4,256 4,103 215,7 19,16 9,277 6,591 5,409 4,757 4,347 4,066 3,863 3,708 224,6 19,25 9,117 6,388 5,192 4,534 4,120 3,838 3,633 3,478 230,2 19,30 9,013 6,256 5,050 4,387 3,972 3,687 3,482 3,326 234,0 19,33 8,941 6,163 4,950 4,284 3,866 3,581 3,374 3,217 236,8 19,35 8,887 6,094 4,876 4,207 3,787 3,500 3,293 3,135 238,9 19,37 8,845 6,041 4,818 4,147 3,726 3,438 3,230 3,072 240,5 19,38 8,812 5,999 4,772 4,099 3,677 3,388 3,179 3,020 241,9 19,40 8,786 5,964 4,735 4,060 3,637 3,347 3,137 2,978 243,0 19,40 8,763 5,936 4,704 4,027 3,603 3,313 3,102 2,943 243,9 19,41 8,745 5,912 4,678 4,000 3,575 3,284 3,073 2,913 244,7 19,42 8,729 5,891 4,655 3,976 3,550 3,259 3,048 2,887 245,4 19,42 8,715 5,873 4,636 3,956 3,529 3,237 3,025 2,865 245,9 19,43 8,703 5,858 4,619 3,938 3,511 3,218 3,006 2,845 250,1 19,46 8,617 5,746 4,496 3,808 3,376 3,079 2,864 2,700 252,2 19,48 8,572 5,688 4,431 3,740 3,304 3,005 2,787 2,621 253,3 19,49 8,549 5,658 4,398 3,705 3,267 2,967 2,748 2,580 253,8 19,49 8,538 5,643 4,382 3,687 3,249 2,947 2,727 2,559 11 12 13 14 15 4,844 4,747 4,667 4,600 4,543 3,982 3,885 3,806 3,739 3,682 3,587 3,490 3,411 3,344 3,287 3,357 3,259 3,179 3,112 3,056 3,204 3,106 3,025 2,958 2,901 3,095 2,996 2,915 2,848 2,790 3,012 2,913 2,832 2,764 2,707 2,948 2,849 2,767 2,699 2,641 2,896 2,796 2,714 2,646 2,588 2,854 2,753 2,671 2,602 2,544 2,818 2,717 2,635 2,565 2,507 2,788 2,687 2,604 2,534 2,475 2,761 2,660 2,577 2,507 2,448 2,739 2,637 2,554 2,484 2,424 2,719 2,617 2,533 2,463 2,403 2,570 2,466 2,380 2,308 2,247 2,490 2,384 2,297 2,223 2,160 2,448 2,341 2,252 2,178 2,114 2,426 2,319 2,230 2,155 2,090 16 17 18 19 20 4,494 4,451 4,414 4,381 4,351 3,634 3,592 3,555 3,522 3,493 3,239 3,197 3,160 3,127 3,098 3,007 2,965 2,928 2,895 2,866 2,852 2,810 2,773 2,740 2,711 2,741 2,699 2,661 2,628 2,599 2,657 2,614 2,577 2,544 2,514 2,591 2,548 2,510 2,477 2,447 2,538 2,494 2,456 2,423 2,393 2,494 2,450 2,412 2,378 2,348 2,456 2,413 2,374 2,340 2,310 2,425 2,381 2,342 2,308 2,278 2,397 2,353 2,314 2,280 2,250 2,373 2,329 2,290 2,256 2,225 2,352 2,308 2,269 2,234 2,203 2,194 2,148 2,107 2,071 2,039 2,106 2,058 2,017 1,980 1,946 2,059 2,011 1,968 1,930 1,896 2,035 1,986 1,943 1,905 1,870 21 22 23 24 25 4,325 4,301 4,279 4,260 4,242 3,467 3,443 3,422 3,403 3,385 3,072 3,049 3,028 3,009 2,991 2,840 2,817 2,796 2,776 2,759 2,685 2,661 2,640 2,621 2,603 2,573 2,549 2,528 2,508 2,490 2,488 2,464 2,442 2,423 2,405 2,420 2,397 2,375 2,355 2,337 2,366 2,342 2,320 2,300 2,282 2,321 2,297 2,275 2,255 2,236 2,283 2,259 2,236 2,216 2,198 2,250 2,226 2,204 2,183 2,165 2,222 2,198 2,175 2,155 2,136 2,197 2,173 2,150 2,130 2,111 2,176 2,151 2,128 2,108 2,089 2,010 1,984 1,961 1,939 1,919 1,916 1,889 1,865 1,842 1,822 1,866 1,838 1,813 1,790 1,768 1,839 1,811 1,785 1,762 1,740 26 27 28 29 30 4,225 4,210 4,196 4,183 4,171 3,369 3,354 3,340 3,328 3,316 2,975 2,960 2,947 2,934 2,922 2,743 2,728 2,714 2,701 2,690 2,587 2,572 2,558 2,545 2,534 2,474 2,459 2,445 2,432 2,421 2,388 2,373 2,359 2,346 2,334 2,321 2,305 2,291 2,278 2,266 2,265 2,250 2,236 2,223 2,211 2,220 2,204 2,190 2,177 2,165 2,181 2,166 2,151 2,138 2,126 2,148 2,132 2,118 2,104 2,092 2,119 2,103 2,089 2,075 2,063 2,094 2,078 2,064 2,050 2,037 2,072 2,056 2,041 2,027 2,015 1,901 1,884 1,869 1,854 1,841 1,803 1,785 1,769 1,754 1,740 1,749 1,731 1,714 1,698 1,683 1,720 1,702 1,685 1,669 1,654 60 120 240 4,001 3,920 3,880 3,150 3,072 3,033 2,758 2,680 2,642 2,525 2,447 2,409 2,368 2,290 2,252 2,254 2,175 2,136 2,167 2,087 2,048 2,097 2,016 1,977 2,040 1,959 1,919 1,993 1,910 1,870 1,952 1,869 1,829 1,917 1,834 1,793 1,887 1,803 1,761 1,860 1,775 1,733 1,836 1,750 1,708 1,649 1,554 1,507 1,534 1,429 1,375 1,467 1,352 1,290 1,430 1,307 1,237 G. Osius: Statistische Tabellen T - 10 15.06.07 α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner) α = 2,5% FQ (m =5, n =14; α=2,5%) = Beispiele: FQ (m =14, n =5; α=2,5%) = 3,663 n F -Verteilung 6,456 1-α m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 30 60 120 240 1 2 3 4 5 6 7 8 9 10 647,8 38,51 17,44 12,22 10,01 8,813 8,073 7,571 7,209 6,937 799,5 39,00 16,04 10,65 8,434 7,260 6,542 6,059 5,715 5,456 864,2 39,17 15,44 9,979 7,764 6,599 5,890 5,416 5,078 4,826 899,6 39,25 15,10 9,605 7,388 6,227 5,523 5,053 4,718 4,468 921,8 39,30 14,88 9,364 7,146 5,988 5,285 4,817 4,484 4,236 937,1 39,33 14,73 9,197 6,978 5,820 5,119 4,652 4,320 4,072 948,2 39,36 14,62 9,074 6,853 5,695 4,995 4,529 4,197 3,950 956,7 39,37 14,54 8,980 6,757 5,600 4,899 4,433 4,102 3,855 963,3 39,39 14,47 8,905 6,681 5,523 4,823 4,357 4,026 3,779 968,6 39,40 14,42 8,844 6,619 5,461 4,761 4,295 3,964 3,717 973,0 39,41 14,37 8,794 6,568 5,410 4,709 4,243 3,912 3,665 976,7 39,41 14,34 8,751 6,525 5,366 4,666 4,200 3,868 3,621 979,8 39,42 14,30 8,715 6,488 5,329 4,628 4,162 3,831 3,583 982,5 39,43 14,28 8,684 6,456 5,297 4,596 4,130 3,798 3,550 984,9 39,43 14,25 8,657 6,428 5,269 4,568 4,101 3,769 3,522 1001,4 39,46 14,08 8,461 6,227 5,065 4,362 3,894 3,560 3,311 1009,8 39,48 13,99 8,360 6,123 4,959 4,254 3,784 3,449 3,198 1014,0 39,49 13,95 8,309 6,069 4,904 4,199 3,728 3,392 3,140 1016,1 39,49 13,92 8,283 6,042 4,877 4,171 3,699 3,363 3,110 11 12 13 14 15 6,724 6,554 6,414 6,298 6,200 5,256 5,096 4,965 4,857 4,765 4,630 4,474 4,347 4,242 4,153 4,275 4,121 3,996 3,892 3,804 4,044 3,891 3,767 3,663 3,576 3,881 3,728 3,604 3,501 3,415 3,759 3,607 3,483 3,380 3,293 3,664 3,512 3,388 3,285 3,199 3,588 3,436 3,312 3,209 3,123 3,526 3,374 3,250 3,147 3,060 3,474 3,321 3,197 3,095 3,008 3,430 3,277 3,153 3,050 2,963 3,392 3,239 3,115 3,012 2,925 3,359 3,206 3,082 2,979 2,891 3,330 3,177 3,053 2,949 2,862 3,118 2,963 2,837 2,732 2,644 3,004 2,848 2,720 2,614 2,524 2,944 2,787 2,659 2,552 2,461 2,914 2,756 2,628 2,520 2,429 16 17 18 19 20 6,115 6,042 5,978 5,922 5,871 4,687 4,619 4,560 4,508 4,461 4,077 4,011 3,954 3,903 3,859 3,729 3,665 3,608 3,559 3,515 3,502 3,438 3,382 3,333 3,289 3,341 3,277 3,221 3,172 3,128 3,219 3,156 3,100 3,051 3,007 3,125 3,061 3,005 2,956 2,913 3,049 2,985 2,929 2,880 2,837 2,986 2,922 2,866 2,817 2,774 2,934 2,870 2,814 2,765 2,721 2,889 2,825 2,769 2,720 2,676 2,851 2,786 2,730 2,681 2,637 2,817 2,753 2,696 2,647 2,603 2,788 2,723 2,667 2,617 2,573 2,568 2,502 2,445 2,394 2,349 2,447 2,380 2,321 2,270 2,223 2,383 2,315 2,256 2,203 2,156 2,350 2,282 2,222 2,169 2,121 21 22 23 24 25 5,827 5,786 5,750 5,717 5,686 4,420 4,383 4,349 4,319 4,291 3,819 3,783 3,750 3,721 3,694 3,475 3,440 3,408 3,379 3,353 3,250 3,215 3,183 3,155 3,129 3,090 3,055 3,023 2,995 2,969 2,969 2,934 2,902 2,874 2,848 2,874 2,839 2,808 2,779 2,753 2,798 2,763 2,731 2,703 2,677 2,735 2,700 2,668 2,640 2,613 2,682 2,647 2,615 2,586 2,560 2,637 2,602 2,570 2,541 2,515 2,598 2,563 2,531 2,502 2,476 2,564 2,528 2,497 2,468 2,441 2,534 2,498 2,466 2,437 2,411 2,308 2,272 2,239 2,209 2,182 2,182 2,145 2,111 2,080 2,052 2,114 2,076 2,041 2,010 1,981 2,079 2,040 2,005 1,973 1,944 26 27 28 29 30 5,659 5,633 5,610 5,588 5,568 4,265 4,242 4,221 4,201 4,182 3,670 3,647 3,626 3,607 3,589 3,329 3,307 3,286 3,267 3,250 3,105 3,083 3,063 3,044 3,026 2,945 2,923 2,903 2,884 2,867 2,824 2,802 2,782 2,763 2,746 2,729 2,707 2,687 2,669 2,651 2,653 2,631 2,611 2,592 2,575 2,590 2,568 2,547 2,529 2,511 2,536 2,514 2,494 2,475 2,458 2,491 2,469 2,448 2,430 2,412 2,451 2,429 2,409 2,390 2,372 2,417 2,395 2,374 2,355 2,338 2,387 2,364 2,344 2,325 2,307 2,157 2,133 2,112 2,092 2,074 2,026 2,002 1,980 1,959 1,940 1,954 1,930 1,907 1,886 1,866 1,917 1,892 1,869 1,847 1,827 60 120 240 5,286 5,152 5,088 3,925 3,805 3,746 3,343 3,227 3,171 3,008 2,894 2,839 2,786 2,674 2,620 2,627 2,515 2,461 2,507 2,395 2,341 2,412 2,299 2,245 2,334 2,222 2,167 2,270 2,157 2,102 2,216 2,102 2,047 2,169 2,055 1,999 2,129 2,014 1,958 2,093 1,977 1,921 2,061 1,945 1,888 1,815 1,690 1,628 1,667 1,530 1,460 1,581 1,433 1,354 1,534 1,376 1,289 G. Osius: Statistische Tabellen T - 11 15.06.07 α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner) α = 1% FQ (m =5, n =14; α=1%) = Beispiele: FQ (m =14, n =5; α=1%) = 4,695 n F -Verteilung 9,770 1-α m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 30 60 120 240 1 2 3 4 5 6 7 8 9 10 4052,2 98,50 34,12 21,20 16,26 13,75 12,25 11,26 10,56 10,04 4999,5 99,00 30,82 18,00 13,27 10,92 9,547 8,649 8,022 7,559 5403,4 99,17 29,46 16,69 12,06 9,780 8,451 7,591 6,992 6,552 5624,6 99,25 28,71 15,98 11,39 9,148 7,847 7,006 6,422 5,994 5763,6 99,30 28,24 15,52 10,97 8,746 7,460 6,632 6,057 5,636 5859,0 99,33 27,91 15,21 10,67 8,466 7,191 6,371 5,802 5,386 5928,4 99,36 27,67 14,98 10,46 8,260 6,993 6,178 5,613 5,200 5981,1 99,37 27,49 14,80 10,29 8,102 6,840 6,029 5,467 5,057 6022,5 99,39 27,35 14,66 10,16 7,976 6,719 5,911 5,351 4,942 6055,8 99,40 27,23 14,55 10,05 7,874 6,620 5,814 5,257 4,849 6083,3 99,41 27,13 14,45 9,963 7,790 6,538 5,734 5,178 4,772 6106,3 99,42 27,05 14,37 9,888 7,718 6,469 5,667 5,111 4,706 6125,9 99,42 26,98 14,31 9,825 7,657 6,410 5,609 5,055 4,650 6142,7 99,43 26,92 14,25 9,770 7,605 6,359 5,559 5,005 4,601 6157,3 99,43 26,87 14,20 9,722 7,559 6,314 5,515 4,962 4,558 6260,6 99,47 26,50 13,84 9,379 7,229 5,992 5,198 4,649 4,247 6313,0 99,48 26,32 13,65 9,202 7,057 5,824 5,032 4,483 4,082 6339,4 99,49 26,22 13,56 9,112 6,969 5,737 4,946 4,398 3,996 6352,6 99,49 26,17 13,51 9,066 6,925 5,694 4,903 4,354 3,953 11 12 13 14 15 9,646 9,330 9,074 8,862 8,683 7,206 6,927 6,701 6,515 6,359 6,217 5,953 5,739 5,564 5,417 5,668 5,412 5,205 5,035 4,893 5,316 5,064 4,862 4,695 4,556 5,069 4,821 4,620 4,456 4,318 4,886 4,640 4,441 4,278 4,142 4,744 4,499 4,302 4,140 4,004 4,632 4,388 4,191 4,030 3,895 4,539 4,296 4,100 3,939 3,805 4,462 4,220 4,025 3,864 3,730 4,397 4,155 3,960 3,800 3,666 4,342 4,100 3,905 3,745 3,612 4,293 4,052 3,857 3,698 3,564 4,251 4,010 3,815 3,656 3,522 3,941 3,701 3,507 3,348 3,214 3,776 3,535 3,341 3,181 3,047 3,690 3,449 3,255 3,094 2,959 3,647 3,405 3,210 3,050 2,914 16 17 18 19 20 8,531 8,400 8,285 8,185 8,096 6,226 6,112 6,013 5,926 5,849 5,292 5,185 5,092 5,010 4,938 4,773 4,669 4,579 4,500 4,431 4,437 4,336 4,248 4,171 4,103 4,202 4,102 4,015 3,939 3,871 4,026 3,927 3,841 3,765 3,699 3,890 3,791 3,705 3,631 3,564 3,780 3,682 3,597 3,523 3,457 3,691 3,593 3,508 3,434 3,368 3,616 3,519 3,434 3,360 3,294 3,553 3,455 3,371 3,297 3,231 3,498 3,401 3,316 3,242 3,177 3,451 3,353 3,269 3,195 3,130 3,409 3,312 3,227 3,153 3,088 3,101 3,003 2,919 2,844 2,778 2,933 2,835 2,749 2,674 2,608 2,845 2,746 2,660 2,584 2,517 2,799 2,700 2,613 2,537 2,470 21 22 23 24 25 8,017 7,945 7,881 7,823 7,770 5,780 5,719 5,664 5,614 5,568 4,874 4,817 4,765 4,718 4,675 4,369 4,313 4,264 4,218 4,177 4,042 3,988 3,939 3,895 3,855 3,812 3,758 3,710 3,667 3,627 3,640 3,587 3,539 3,496 3,457 3,506 3,453 3,406 3,363 3,324 3,398 3,346 3,299 3,256 3,217 3,310 3,258 3,211 3,168 3,129 3,236 3,184 3,137 3,094 3,056 3,173 3,121 3,074 3,032 2,993 3,119 3,067 3,020 2,977 2,939 3,072 3,019 2,973 2,930 2,892 3,030 2,978 2,931 2,889 2,850 2,720 2,667 2,620 2,577 2,538 2,548 2,495 2,447 2,403 2,364 2,457 2,403 2,354 2,310 2,270 2,409 2,355 2,306 2,261 2,220 26 27 28 29 30 7,721 7,677 7,636 7,598 7,562 5,526 5,488 5,453 5,420 5,390 4,637 4,601 4,568 4,538 4,510 4,140 4,106 4,074 4,045 4,018 3,818 3,785 3,754 3,725 3,699 3,591 3,558 3,528 3,499 3,473 3,421 3,388 3,358 3,330 3,304 3,288 3,256 3,226 3,198 3,173 3,182 3,149 3,120 3,092 3,067 3,094 3,062 3,032 3,005 2,979 3,021 2,988 2,959 2,931 2,906 2,958 2,926 2,896 2,868 2,843 2,904 2,871 2,842 2,814 2,789 2,857 2,824 2,795 2,767 2,742 2,815 2,783 2,753 2,726 2,700 2,503 2,470 2,440 2,412 2,386 2,327 2,294 2,263 2,234 2,208 2,233 2,198 2,167 2,138 2,111 2,183 2,148 2,117 2,087 2,060 60 120 240 7,077 6,851 6,742 4,977 4,787 4,695 4,126 3,949 3,864 3,649 3,480 3,398 3,339 3,174 3,094 3,119 2,956 2,878 2,953 2,792 2,714 2,823 2,663 2,586 2,718 2,559 2,482 2,632 2,472 2,395 2,559 2,399 2,322 2,496 2,336 2,260 2,442 2,282 2,205 2,394 2,234 2,157 2,352 2,192 2,114 2,028 1,860 1,778 1,836 1,656 1,565 1,726 1,533 1,432 1,666 1,462 1,351 G. Osius: Statistische Tabellen T - 12 15.06.07 α-Quantil FQ (m,n; α) der F- Verteilung mit den Freiheitsgraden m (Zähler), n (Nenner) α = 0,5% FQ (m =5, n =14; α=0,5%) = Beispiele: FQ (m =14, n =5; α=0,5%) = 5,562 n F -Verteilung 13,21 1-α m 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 30 60 120 240 1 2 3 4 5 6 7 8 9 10 16211 198,5 55,55 31,33 22,78 18,63 16,24 14,69 13,61 12,83 19999 199,0 49,80 26,28 18,31 14,54 12,40 11,04 10,11 9,427 21615 199,2 47,47 24,26 16,53 12,92 10,88 9,596 8,717 8,081 22500 199,2 46,19 23,15 15,56 12,03 10,05 8,805 7,956 7,343 23056 199,3 45,39 22,46 14,94 11,46 9,522 8,302 7,471 6,872 23437 199,3 44,84 21,97 14,51 11,07 9,155 7,952 7,134 6,545 23715 199,4 44,43 21,62 14,20 10,79 8,885 7,694 6,885 6,302 23925 199,4 44,13 21,35 13,96 10,57 8,678 7,496 6,693 6,116 24091 199,4 43,88 21,14 13,77 10,39 8,514 7,339 6,541 5,968 24224 199,4 43,69 20,97 13,62 10,25 8,380 7,211 6,417 5,847 24334 199,4 43,52 20,82 13,49 10,13 8,270 7,104 6,314 5,746 24426 199,4 43,39 20,70 13,38 10,03 8,176 7,015 6,227 5,661 24505 199,4 43,27 20,60 13,29 9,950 8,097 6,938 6,153 5,589 24572 199,4 43,17 20,51 13,21 9,877 8,028 6,872 6,089 5,526 24630 199,4 43,08 20,44 13,15 9,814 7,968 6,814 6,032 5,471 25044 199,5 42,47 19,89 12,66 9,358 7,534 6,396 5,625 5,071 25253 199,5 42,15 19,61 12,40 9,122 7,309 6,177 5,410 4,859 25359 199,5 41,99 19,47 12,27 9,001 7,193 6,065 5,300 4,750 25411 199,5 41,91 19,40 12,21 8,941 7,135 6,008 5,244 4,695 11 12 13 14 15 12,23 11,75 11,37 11,06 10,80 8,912 8,510 8,186 7,922 7,701 7,600 7,226 6,926 6,680 6,476 6,881 6,521 6,233 5,998 5,803 6,422 6,071 5,791 5,562 5,372 6,102 5,757 5,482 5,257 5,071 5,865 5,525 5,253 5,031 4,847 5,682 5,345 5,076 4,857 4,674 5,537 5,202 4,935 4,717 4,536 5,418 5,085 4,820 4,603 4,424 5,320 4,988 4,724 4,508 4,329 5,236 4,906 4,643 4,428 4,250 5,165 4,836 4,573 4,359 4,181 5,103 4,775 4,513 4,299 4,122 5,049 4,721 4,460 4,247 4,070 4,654 4,331 4,073 3,862 3,687 4,445 4,123 3,866 3,655 3,480 4,337 4,015 3,758 3,547 3,372 4,281 3,960 3,703 3,492 3,317 16 17 18 19 20 10,58 10,38 10,22 10,07 9,944 7,514 7,354 7,215 7,093 6,986 6,303 6,156 6,028 5,916 5,818 5,638 5,497 5,375 5,268 5,174 5,212 5,075 4,956 4,853 4,762 4,913 4,779 4,663 4,561 4,472 4,692 4,559 4,445 4,345 4,257 4,521 4,389 4,276 4,177 4,090 4,384 4,254 4,141 4,043 3,956 4,272 4,142 4,030 3,933 3,847 4,179 4,050 3,938 3,841 3,756 4,099 3,971 3,860 3,763 3,678 4,031 3,903 3,793 3,696 3,611 3,972 3,844 3,734 3,638 3,553 3,920 3,793 3,683 3,587 3,502 3,539 3,412 3,303 3,208 3,123 3,332 3,206 3,096 3,000 2,916 3,224 3,097 2,987 2,891 2,806 3,168 3,041 2,931 2,834 2,749 21 22 23 24 25 9,830 9,727 9,635 9,551 9,475 6,891 6,806 6,730 6,661 6,598 5,730 5,652 5,582 5,519 5,462 5,091 5,017 4,950 4,890 4,835 4,681 4,609 4,544 4,486 4,433 4,393 4,322 4,259 4,202 4,150 4,179 4,109 4,047 3,991 3,939 4,013 3,944 3,882 3,826 3,776 3,880 3,812 3,750 3,695 3,645 3,771 3,703 3,642 3,587 3,537 3,680 3,612 3,551 3,497 3,447 3,602 3,535 3,475 3,420 3,370 3,536 3,469 3,408 3,354 3,304 3,478 3,411 3,351 3,296 3,247 3,427 3,360 3,300 3,246 3,196 3,049 2,982 2,922 2,868 2,819 2,841 2,774 2,713 2,658 2,609 2,730 2,663 2,602 2,546 2,496 2,673 2,605 2,543 2,488 2,437 26 27 28 29 30 9,406 9,342 9,284 9,230 9,180 6,541 6,489 6,440 6,396 6,355 5,409 5,361 5,317 5,276 5,239 4,785 4,740 4,698 4,659 4,623 4,384 4,340 4,300 4,262 4,228 4,103 4,059 4,020 3,983 3,949 3,893 3,850 3,811 3,775 3,742 3,730 3,687 3,649 3,613 3,580 3,599 3,557 3,519 3,483 3,450 3,492 3,450 3,412 3,377 3,344 3,402 3,360 3,322 3,287 3,255 3,325 3,284 3,246 3,211 3,179 3,259 3,218 3,180 3,145 3,113 3,202 3,161 3,123 3,088 3,056 3,151 3,110 3,073 3,038 3,006 2,774 2,733 2,695 2,660 2,628 2,563 2,522 2,483 2,448 2,415 2,450 2,408 2,369 2,333 2,300 2,391 2,348 2,309 2,273 2,239 60 120 240 8,495 8,179 8,027 5,795 5,539 5,417 4,729 4,497 4,387 4,140 3,921 3,816 3,760 3,548 3,447 3,492 3,285 3,187 3,291 3,087 2,991 3,134 2,933 2,837 3,008 2,808 2,713 2,904 2,705 2,610 2,817 2,618 2,524 2,742 2,544 2,450 2,677 2,479 2,385 2,620 2,423 2,329 2,570 2,373 2,278 2,187 1,984 1,886 1,962 1,747 1,640 1,834 1,606 1,488 1,764 1,524 1,396 Stochastik 15.3.16 Index- 1 Index Der Index enthält vorwiegend Begriffe aus dem methodischen Textteil (also nicht aus allen Beispielen und Anwendungen), wobei für jedes Stichwort nur die wichtigsten (nicht alle) Textstellen aufgeführt sind, an denen es erwähnt wird. A Absolutbetrag 4-13 absolute Konvergenz eines Integrals 7-3 absolutes Moment 7-20 9-10 absolutes zentrales Moment 9-28 absteigendes Produkt abzählbare Produkte von Wahrscheinlichkeitsräumen 4-35 1-8 Additionsformel 13-3 Alternative 3-4 Alterungs pro zeß 6-11 9-5 arithmetische Operation 7-4 8-2 arithmetisches Mittel Asbestmessung 0-4 12-10 14-7 asym ptotische - Irrtumswahrscheinlichkeit 10-9 - Konfidenzgrenze 10-7 11-11 Poisson 12-6 grobe 11-16 - obere Grenze Binomial 11-13 12-8 14-6 Poisson - Schärfe 13-22 13-25 13-27 14-4 14-7 - Sicherheit 10-9 - Signifikanz der Beobachtung 13-2113-24 - untere Grenze 11-13 Binomial 12-8 Poisson - untere Konfidenzgrenze 13-20 Binomial. 14-3 Poisson asymptotischer einseitiger oberer Test - Binomial 13-20 14-3 Poisson asymptotischer einseitiger unterer Test - Binomial 13-24 14-6 - Poisson asymptotischer P-Wert 13-2113-24 asym ptotischer Test 13-19 asymptotischer zweiseitiger Test - Binomial 13-26 14-13 - Poisson asym ptotisches Konfidenzintervall - Binomial. 13-26 asymptotisches Niveau 13-22 13-25 14-4 14-6 14-14 2-6 Augensummezweier Würfel B B(1,p), Bernoulli-Verteilung 1-10 B(n,p), Binomial-Verteilung 1-11 Bayes, Formel 3-4 bedingte Wahrscheinlichkeit 3-1 Bernoulli-Verteilung 1-10 2-1 3-9 6-2 11-1 S-1 9-10 Berry-Esseen, Theorem 7-31 Bestimmthei tsmaß 2-2 4-35 4-38 Bildmaß Binamial-Approximation der hypergeometrischen Vertwilung 9-30 Binomial-Grenzwertsatz 9-12 Binomial-Test 13-1 13-19 13-24 13-26 - asymptotischer - exakter 13-9 13-14 13-17 Binomial-Verteilung 1-11 3-9 4-4 6-2 7-9 7-17 7-21 9-18 S-1 6-4 7-9 - negative 8-4 Binomial-Verteilungsmodell S-1 Binomialkoeffizient 1-5 Bore1-Menge - mehrdimensionale 4-20 c C(-,-), Cauchy-Verteilung Cauchy-Verteilung Cauchy-Verteilungsmodell Che bychev-Ungleichung Chiquadrat-Verteilung Clopper-Pearson - Konfidenzgrenze Corr(-,-), Korrelation Cov(-,-), Covarianz Covarianz Covarianz-Matrix 7-11 7-11 7-18 10-12 8-6 7-23 8-8 S-2 T -5 11-2 11-4 7-28 7-16 7-16 7-26 7-29 D de Moivre - Laplace, Grenzwertsatz DG(-), diskrete Gleichverteilung diag(-), Diagonalmatrix Diagonalmatrix 9-12 7-9 5-8 5-8 Stochastik 1-14 4-6 4-8 Dichte 4-24 - eines Zufallsvektors 1-18 4-7 - kanonische 4-30 - mehrdimensionale - zweidimensionale 4-23 Differenz von Mengen 1-4 Differenz von Zufallsvariablen 6-11 Dirac(-), Dirac-Verteilung 4-4 Dirac-Verteilung 4-4 7-7 7-17 7-24 diskret - Wahrscheinlichkeitmaß, Verteilung 2-5 diskrete Gleichverteilung 1-10 7-9 7-17 diskrete Zufallsvariable 4-3 5-3 diskreter W-Raum 1-13 4-22 diskreter Zufallsvektor E 7-2 7-3 E(-), Erwartungswert effektives Testniveau 13-10 14-2 14-5 14-13 Einpunkt-Verteilung 4-4 7-17 7-24 Einschränkung 2-4 einseitig oberer Test, Binomial 13-29 einseitig oberer Test, Poisson 14-1 einseitig unterer Test, Binomial 13-30 einseitig unterer Test, Poisson 14-4 einseitiger Test 13-18 Elementar-Ereignis 1-1 Elementar-Wahrscheinlichkeit 1-9 empirische Verteilung 1-12 7-25 8-7 8-10 empirisches Gesetz der großen Zahlen 1-1 endlich-additiv 1-7 endliche Produkte von Wahrscheinlichkeitsräumen 4-33 endlicher Wahrscheinlichkeitsraum 1-9 Entscheidungsfunktion 13-4 Ereignis 1-1 1-3 Erfolg 1-10 Ergebnis 1-1 Ergebnisraum 1-1 8-2 8-6 8-7 erwartungstreu 7-114-1 Erwartungswert 7-9 - spezieller Verteilungen 7-7 - Eigenschaften 8-8 - quadratische Form - Schätzen 8-2 1-5 erzeugte Sigma-Algebra 4-19 Erzeugung von Zufallszahlen 6-7 Eulersche Gammafunktion exakte obere Konfidenzgrenze - Binomial 11-2 13-14 - Poisson 12-114-5 exakte untere Konfidenzgrenze 15.3.16 Index- 2 - Binomial 11-4 13-9 - Poisson 12-3 14-2 exakter einseitiger oberer Test - Binomial 13-9 - Poisson 14-2 exakter einseitiger unterer Test - Binomial 13-14 - Poisson 14-5 exakter zweiseitiger Test - Binomial 13-17 - Poisson 14-12 exaktes Konfidenzintervall - Binomial 13-17 - Poisson 12-4 exaktes zweiseitiges Konfidenzintervall 11-5 S-1 Excel Expo(-), Exponentialverteilung 1-20 Exponential-Verteilung 1-20 3-4 4-9 4-13 4-18 5-7 7-10 7-18 S-2 - Faltung 6-7 F F-Verteilung 11-7 11-8 S-2 T-8 Fakultät 6-10 S-1 falsch-negativ 13-5 falsch-positiv 13-5 Faltung 6-1 9-11 - diskreter Verteilungen 6-1 - stetiger Verteilungen 6-6 Fehlentscheidung 13-5 Fehler 1. Art 13-5 13-5 Fehler 2. Art 13-5 Fehlerrisiko - 1. Art 13-6 14-2 14-5 14-13 - 2. Art 13-6 13-12 14-2 14-5 2-4 Fortsetzung 4-25 4-26 4-31 Fubini, Satz von G Garn(-,-), Gamma-Verteilung 6-7 Gamma-Funktion 6-7 6-10 S-2 Gamma-Grenzwertsatz 9-22 Gamma-Verteilung 6-7 7-10 7-18 7-21 9-22 S-2 8-5 Gamma-Verteilungsmodell 1-19 Gaußsehe Glockenkurve Gedächtnislosigkeit 3-4 5-7 gemeinsame Verteilung 4-21 5-4 gemeinsame Verteilungsfunktion 5-10 Geo(-), geometrische Verteilung 5-6 geometrische Verteilung 5-5 5-6 6-4 7-9 7-17 S-1 Stochastik 8-2 9-1 Gesetz der großen Zahlen 1-1 - empirisches - schwaches 9-3 - starkes 9-4 7-2 gewichtetes Mittel Gleichverteilung - diskrete 1-10 7-9 7-17 - stetige 1-20 4-13 4-19 7-10 Grenzwertsatz, zentraler 9-1 H hypergeometrischer Grenzwertsatz 9-31 - multivariat 9-36 hypergeometrische Verteilung 9-25 9-28 S-1 - multivariat 9-31 9-34 9-35 I 8-1 8-10 iid Indikatorfunktion 2-1 Integral 1-14 1-16 4-23 4-30 7-5 4-20 Intervall, mehrdimensionales Intervall-Schätzer 10-1 Intervall-Wahrscheinlichkeit 4-1 10-1 Irrtumswahrscheinlichkeit - asym ptotische 10-9 K 1-18 4-7 kanonische Dichte 2-5 kanonischer Träger 0-8 5-4 klinische Vergleichsstudie 1-3 1-7 Kolmogorov 1-3 Korn plementär- Ereignis 10-1 Konfidenzgrenze 10-1 - für Erwartungswert - asym ptotische 10-7 10-10 - Normalverteilung - Binomial-Verteilung 11-1 - Poisson-Verteilung 12-112-12 10-1 Konfidenzintervall 13-26 - asym ptotisches 10-5 - Normalverteilung 11-3 12-2 13-22 konservativ - Test 13-10 14-2 14-13 9-6 konsistent 9-6 Konsistenz 9-8 konvergent nach Verteilung Konvergenz 9-23 - nach Verteilung 9-3 9-5 - nach Wahrscheinlichkeit 2-5 konzentriert 7-28 8-10 Korrelation Korrelationskoeffizient 4-28 5-8 7-28 7-29 15.3.16 Index- 3 kritischer Wert 13-9 13-14 13-20 13-24 13-26 14-2 14-6 4-23 Kronecker-Symbol L Lebensdauer 3-4 4-18 Lebesgue-Dichte 4-6 Lebesgue - Doppel-Integral 4-25 1-14 1-16 4-23 4-25 4-30 4-31 - Integral Leukämiefälle 0-2 S-1 Libreüffice Lindeberg-Levy 9-9 zentraler Grenzwertsatz 4-12 lineare Transformation linearer Zusammenhang 7-29 links-stetig 4-1 linksseitiger Grenzwert 4-1 Log-Normalverteilung 4-16 7-10 7-18 7-21 M M(-,-), Multinomial-Verteilung 4-23 7-27 7-23 Markov-Ungleichung 7-1 Maßzahl 4-30 mehrdimensionale Dichte 4-30 mehrdimensionale Verteilung 1-3 Mengensystem 2-2 meßbar 2-2 meßbare Menge S-1 Microsoft Excel 13-29 13-30 13-31 Mindestumfang 2-5 minimaler Träger 7-25 8-2 9-1 9-9 Mittelwert - standardisierter 9-2 - Verteilung 8-3 7-20 Moment - absolutes 7-20 9-10 zentrales - zentrales 7-20 8-6 1-8 monoton monotone Transformation 4-12 Multinomial-Verteilung 4-22 6-2 7-27 multivariate hypergeometrische Verteilung 9-31 9-34 9-35 multivariate Normal-Verteilung 4-32 multivariater hypergeometrischer Grenzwertsatz 9-36 N 1-18 N(-,-), Normalverteilung N(0,1), Standard-Normalverteilung 1-19 n-dimensionales Intervall 4-31 n-faches Lebesgue-Integral 4-31 NB(n,p), negative Binomial-Verteilung 6-4 Stochastik negative Binomial-Verteilung 6-4 7-9 7-17 7-21 9-21 S-1 13-22 13-25 Niveau, asymptotisches 14-6 14-13 nominales Niveau nominales Testniveau 13-8 14-2 14-5 Normal-Approximation 9-13 - Gamma-Verteilung 9-22 9-12 - Binomial-Verteilung - Poisson-Verteilung 9-20 Normal-Verteilung 1-18 4-9 4-13 5-8 7-10 7-17 7-24 10-10 S-2 T-1 T-3 6-6 - Faltung 10-3 - Konfidenzgrenzen - multivariate 4-32 - zweidimensionale 4-27 7-29 Normal-Verteilungsmodell 8-5 8-8 normale asymptotische Grenzen 11-17 Nullhypothese S 13-3 0 obere Konfidenzgrenze für Erwartungswert 10-8 obere Konfidenzgrenze Normalverteilung 10-5 10-12 oberer kritischer Wert 13-9 13-20 14-2 14-3 OpenOffice S-1 p P-Wert 13-10 - asymptotischer 13-2113-24 Parameter 7-1 8-1 Phi, N(0,1)- Verteilungsfunktion 4-9 1-19 phi, N(0,1)-Dichte Planung 13-28 Pois(-), Poison-Verteilung 1-13 Poisson-Approximation 9-18 Poisson-Grenzwertsatz 9-20 12-6 Poisson-Grenzwertsatz - für Binomial- Verteilung 9-18 Poisson-Prozeß 6-9 Poisson-Test 14-2 14-3 14-5 14-6 14-12 14-13 14-14 Poisson-Verteilung 1-13 4-4 6-9 7-9 7-17 7-21 9-20 12-114-1 S-1 6-3 - Faltung 8-5 Poisson-Verteilungsmodell 4-13 Potenz 13-6 Power Produkt - diskrete Wahrscheinlichkeitsräume 3-7 4-33 - endliches - abzählbares 4-35 - Zufallsvariablen 6-11 15.3.16 Index- 4 3-8 4-35 4-38 5-4 Produktmaß - abzählbar-vieler 4-37 Wahrscheinlichkeitsmaße - endlich vieler Wahrscheinlichkeitsmaße 4-34 Produktraum 3-8 4-35 4-38 5-2 7-30 Prognose 3-8 4-35 4-36 5-2 Projektion Punkt-Schätzer 10-1 Q quadratische Form 8-8 Qualitätskontrolle 9-29 Quantil - Chiquadrat-Verteilung 12-5 T-5 - F-Verteilung 11-7 T-8 - Normalverteilung 10-4 T -3 10-12 T-3 - t- Verteilung Quasi-Inverse 4-2 4-19 Quotient von Zufallsvariablen 6-12 R Rand- Verteilungsfunktion 5-10 randomisierte klinische Studie 5-4 Randverteilung 4-21 5-4 rechts-stetig 4-1 reelle Zufallsvariable 2-3 Regressionsfunktion 7-30 Regressionsgerade 7-30 8-10 relative Häufigkeit 1-1 1-8 1-11 7-25 8-4 8-10 7-30 Residuum 1-16 Riemann-Integral s Sammlerproblem 7-12 Satz von Fubini 4-25 4-26 4-31 Schärfe 13-6 13-15 13-18 13-26 14-2 14-3 14-4 14-5 14-6 14-7 14-13 14-14 - asymptotische 13-22 13-25 13-6 Schärfefunktion 8-2 Schätzer 8-2 Schätzfunktion 8-2 Schätzgröße 8-1 8-2 8-6 Schätzung 7-18 7-20 7-25 Schiefe 8-10 - Schätzung schwaches Gesetz der großen Zahlen 9-1 9-3 Schwartzsche Ungleichung 7-26 SD(-), Standardabweichung 7-15 SG(-,-) stetige Gleichverteilung 1-20 Sicherheit 10-111-1 10-9 - asymptotische Stochastik sigma-additiv 1-7 sigma-Algebra 1-4 - erzeugte 1-5 Signifikanz der Beobachtung 13-10 - asymptotische 13-2113-24 9-23 Slutzky, Theorem Standard-Cauchy- Verteilung 7-11 Standard-Gamma-Verteilung 6-8 Standard-Normalverteilung 1-19 S-2 Standardabweichung 7-15 - Schätzung 8-7 standardisierter Mittelwert 9-1 9-2 Standardisierung 4-10 7-16 9-9 starkes Gesetz der großen Zahlen 9-4 Statistik 0-1 statistischer Test 13-4 stetig (verteilt) 4-6 stetige Gleichverteilung 1-20 4-9 4-13 4-19 7-10 7-17 4-24 stetiger Zufallsvektor 9-13 Stetigkeitskorrektur 13-28 Stich proben-Mindestumfang 8-1 Stich proben-Modell 1-1 Stich probenraum 0-1 Stochastik 9-3 9-5 stochastisch konvergent 3-5 5-1 stochastische Unabhängigkeit 0-1 1-1 stochastischer Vorgang 10-10 Studentsehe t- Verteilung 6-11 Summe von Zufallsvariablen 7-18 symmetrische Verteilung T 10-10 S-2 T-3 t- Verteilung S-1 Tabellenkalkulation 13-4 14-1 Test Testniveau 13-8 13-10 13-15 13-18 14-2 Testwert 13-20 13-26 totale Zerlegung, Satz 3-3 Träger 2-5 Trägerintervall 4-7 - kanonisches 4-7 2-6 4-7 - minimales Transformation - einer Zufallsvariablen 4-11 - lineare 4-12 - monotone 4-12 1-10 3-9 5-5 6-4 Treffer 15.3.16 Index- 5 u 3-5 Unabhängigkeit 5-3 - diskreter Zufallsvariabl. 5-8 - stetiger Zufallsvariablen - von Zufallsvariablen 5-1 - von Zufallsvektoren 5-9 7-23 Ungleichung von Chebychev 7-23 Ungleichung von Markov 7-26 Ungleichung von Schwartz untere Konfidenzgrenze 10-8 - für Erwartungswert 10-5 10-12 - Normalverteilung unterer kritischer Wert 13-14 13-24 14-5 14-6 unverfälscht 8-2 Urbild 2-1 V 7-15 Var(-) Varianz Varianz 7-15 7-25 7-26 - quadratische Form 8-8 - Schätzung 8-6 7-17 - spezieller Verteilungen verteilt 2-2 Verteilung 1-7 2-2 7-25 - empirische 4-21 - gememsame - Zufallsvektoren 4-21 - zweidimensionale 4-23 4-1 4-5 4-8 7-5 9-8 Verteilungsfunktion T-1 - Normalverteilung - Standard-Normalverteilung 4-9 - Zufallsvektors 4-21 9-7 Verteilungskonvergenz 10-1 Vertrauensgrenze w Wahrscheinlichkeitsmaß 1-7 Wahrscheinlichkeitsraum 1-7 - endlicher 1-9 Wahlumfrage 0-6 9-16 9-25 9-29 13-113-5 13-2113-30 1-1 1-7 Wahrscheinlichkeit 3-1 - bedingte 1-14 1-17 Wahrscheinlichkeitsdichte Wahrscheinlichkeitsdichte - mehrdimensionale 4-30 - zweidimensionale 4-23 1-10 1-13 Wahrscheinlichkeitsfunktion 0-1 Wahrscheinlichkeitstheorie 4-23 Wahrscheinlichkeitsvektor 3-4 5-7 6-9 Wartezeit 4-18 Weibull-Verteilung Stochastik Wiederholungen Würfel z 15.3.16 8-1 9-1 3-10 1-10 1-13 4-3 Zähldichte 9-1 9-7 zentraler Grenzwertsatz zentrales Moment 7-20 3-3 Zerlegung, totale Ziehen (mit und ohne Zurücklegen) 9-26 1-10 Ziel-Ereignis Zufallselement 2-2 Zufallsvariable 2-2 Zufallsvariable - diskrete 4-3 5-3 - reelle 2-3 4-6 - stetige 4-19 4-21 Zufallsvektor 4-22 - diskreter 4-24 - stetiger 4-19 Zufallszahlen 7-29 Zusammenhang, linearer zweidimensionale 4-23 - Dichte 4-27 7-29 - Normal-Verteilung 4-23 zweidimensionale Verteilung 4-24 zweidimensionales Intervall 13-16 zweiseitige Alternative 13-18 zweiseitiger Test - Binomial 13-31 14-12 14-13 Poisson 4-37 Zylindermenge Index- 6