(c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Stetige Verteilungsmodelle Worum geht es in diesem Modul? Stetige Verteilungsfunktionen Quantile Dichtefunktion Maßzahlen stetiger Verteilungen Stetige Gleichverteilung Exponentialverteilung Überprüfung der Exponentialverteilung Die Laplace-Verteilung Die Pareto-Verteilung Worum geht es in diesem Modul? Stetige Verteilungsfunktionen werden unter zwei Gesichtspunkten eingeführt. Einmal sind sie bei Zufallsvariablen, die viele verschiedene Realisationsmöglichkeiten haben und nicht-ganzzahlige oder negative Werte annehmen können, zur Modellierung angebracht. Dann dienen sie auch zur Approximation für diskrete Verteilungen, um Wahrscheinlichkeiten einfacher zu berechnen. Wir lernen in diesem Modul die wichtigsten Eigenschaften stetiger Verteilungen und die zu einer stetigen Verteilungsfunktion gehörige Dichtefunktion kennen. Wir übertragen das Konzept der Maßzahlen von den diskreten auf die stetigen Verteilungen. Zudem werden einige wichtige Verteilungsmodelle vorgestellt. Stetige Verteilungsfunktionen Die Notwendigkeit stetiger Verteilungsfunktionen Bei Zufallsvariablen, die viele verschiedene Realisationsmöglichkeiten haben und auch nicht-ganzzahlige oder negative Werte annehmen können, ist es schwieriger, ein theoretisches Verteilungsmodell zu bestimmen. Zudem ist es nicht opportun, für jede vorgegebene Messgenauigkeit ein besonderes Modell in Betracht zu ziehen. Als Ausweg bietet sich an, die durch eine stetige Funktion zu approximieren. Um dies zu illustrieren, betrachten wir ein Beispiel. In 15 verschiedenen Geschäften ermittelte man Preise von 100g Kaffee (in Pence). Auch wenn die Preise ganzzahlige Werte sind, ist ein stetiges Verteilungsmodell einem diskreten vorzuziehen. Denn es gibt relativ wenige gleich große Werte. Bei einer Erweiterung der Erhebung würden wir Page 1 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle eher erwarten, dass es noch mehr unterschiedliche Werte gibt, als dass für einzelne Preise sich größere Häufigkeiten einstellen. Approximation der Binomialverteilung Quelle: Eigene Berechnungen Ein weiterer wichtiger Grund für die Verwendung stetiger Verteilungsfunktionen ist die näherungsweise Berechnung von Wahrscheinlichkeiten mit den bereits eingeführten Wahrscheinlichkeitsmodellen, etwa der Binomialverteilung oder der Poisson-Verteilung. Dies ist nötig, da bei großem die Binomialkoeffizienten nicht mehr durch einfaches Ausmultiplizieren bestimmt werden können; die darzustellende Zahl wird auch für leistungsstarke Computer zu groß. In der Abbildung wird eine spezielle durch eine stetige Funktion überlagert. Diese ist mit Hilfe der Wahl der Parameter dabei gerade so gewählt, dass sie "gut" durch die diskrete Verteilungsfunktion verläuft. (Im Übrigen ist die angegebene Funktion nicht die beste, die zur Approximation verwendet werden kann. Eine bessere wird später vorgestellt.) Sie können die Approximation auch mit anderen Parametern überprüfen. Labordatei öffnen ( a21.spf ) Quelle: Eigene Berechnungen Eigenschaften stetiger Verteilungsfunktionen Eine stetige Funktion, die als stetige Verteilungsfunktion soll, muss offensichtlich drei Eigenschaften besitzen: Page 2 verwendet werden (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Aus diesen Eigenschaften ergibt sich weiter: Natürlich darf schon an irgendeiner Stelle den Wert eins annehmen. Allerdings ist rechts von null sein bzw. an einer Stelle dann links von ebenfalls null und konstant eins. Wahrscheinlichkeiten für Intervalle ergeben sich bei stetigen Verteilungsfunktionen gemäß ; dabei ist vorausgesetzt. Die Wahrscheinlichkeit, dass die Zufallsvariable , für die eine stetige Verteilungsfunktion als Modell sinnvoll ist, einen speziellen Wert annimmt, ist null: . Hier müssen wir uns klarmachen, dass ein spezieller Wert beispielsweise nicht einfach bedeutet. Vielmehr ist dies die 10 mit allen Nachkommastellen: Somit wird einsichtig, dass auch bei langen Versuchsserien ein solches Ereignis eine verschwindende relative Häufigkeit aufweisen wird; die statistische Wahrscheinlichkeit ist null. Beispiel: Bogenschütze Wir betrachten einen ungeübten Bogenschützen, der auf eine kreisrunde Zielscheibe vom Radius 1 m schießt. (Der Sicherheit halber sei die Zielscheibe an einem Scheunentor befestigt.) Nur Versuche, bei denen der Schütze die Zielscheibe trifft, werden berücksichtigt. Wegen der mangelnden Übung können wir davon ausgehen, dass jedes Flächenstück der Zielscheibe mit einer Wahrscheinlichkeit getroffen wird, die ihrem Flächeninhalt entspricht. Page 3 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Titel : Zielscheibe Quelle: Eigene Berechnungen Nun interessieren wir uns für die Zufallsvariable = "Abstand zum Mittelpunkt der Scheibe". Mit den Voraussetzungen gilt: Damit haben wir aber schon die Verteilungsfunktion von : Die Wahrscheinlichkeit, in den mittleren Teil der Zielscheibe zu treffen, so dass der Abstand höchstens 0.5 m beträgt, ist also 0.52 =0.25. Page 4 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Quantile Bei stetigen Verteilungen sind die Quantile i.d.R. eindeutig durch die Inverse der Verteilungsfunktion gegeben: In vielen Anwendungen sind Intervalle von Interesse, die durch Paare von Quantilen festgelegt werden, welche jeweils die gleiche Wahrscheinlichkeitsmasse links und rechts abspalten. Intervalle , bei denen die Zufallsvariable mit gleicher Wahrscheinlichkeit einen Wert links von der Untergrenze wie rechts von der Obergrenze annimmt, werden als zentrale -Schwankungsintervalle bezeichnet. Beispiel: Bogenschütze (Fortsetzung) Für die Zielgenauigkeit des ungeübten Bogenschützen gilt die Verteilungsfunktion Das zentrale -Schwankungsintervall erhalten wir dadurch, dass das 0.1-Quantil und das 0.9-Quantil bestimmt wird: Das zentrale Schwankungsintervall ist daher [0.316,0.945]. Dichtefunktion Wie wir gesehen haben, gilt für jedes einzelne : Daher ist bei stetigen Verteilungen eine nicht sinnvoll. Vielmehr ist ein theoretisches Gegenstück zum von Bedeutung. Beim Histogramm stellt der Flächeninhalt unter der Häufigkeitsdichte ein Maß für die relative Häufigkeit dar. Im theoretischen Fall ist der Flächeninhalt unter einer Dichtefunktion dann gleich der Wahrscheinlichkeit, dass die Zufallsvariable einen Wert aus dem entsprechenden Intervall annimmt. Flächeninhalte werden mathematisch durch Integrale dargestellt. Damit ist: Page 5 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Mit der Verteilungsfunktion ausgedrückt ist die Wahrscheinlichkeit gleich . Beides zusammen ergibt: Die Wahrscheinlichkeit wird durch den Inhalt der gesamten Fläche unter der Funktion liegt, dargestellt. Formal ist dies das Integral von , die links von . Die zu einer stetigen Verteilungsfunktion Funktion , für die gilt: Quelle: Eigene Berechnungen Page 6 gehörige Dichtefunktion ist die (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Auf dieser Laborseite ( b29.spf ) haben Sie die Möglichkeit, die Beziehung zwischen Dichte- und Verteilungsfunktion selber noch weiter zu erkunden. Zwischen Dichte- und Verteilungsfunktion gilt die Beziehung, die in der Mathematik als Hauptsatz der Differential- und Integralrechnung bezeichnet wird: Damit eine Funktion eine Dichte sein kann, muss sie die beiden folgenden Eigenschaften aufweisen: Beispiel: Monatsrenditen Im Management von Geldanlagen ist die zukünftige Kursentwicklung von besonderem Interesse. Die Rendite der Geldanlage über einen in der Zukunft liegenden Planungshorizont wird als zufällige Größe aufgefasst. Auf Grund der Komplexität der Einflussgrößen ist die Vorhersage von Kursentwicklungen äußerst problematisch. Um dennoch Aussagen treffen zu können, werden für die Entwicklung Modelle aufgestellt. Für eine spezielle Monatsrendite wird aufgrund der Erfahrung eine symmetrische Dreiecksverteilung unterstellt. Da sich die Renditen um den Wert Eins zentrierten, wird für die Dichte der Ansatz gewählt. Hier ist die Wahrscheinlichkeit, dass die zukünftige Monatsrendite zwischen 1,5% und 3,5% liegt: Beispiel: Bogenschütze - Fortsetzung Für die Treffergenauigkeit des ungeübten Bogenschützen haben wir die folgende Page 7 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Verteilungsfunktion erhalten: Mit der Beziehung bekommen wir die Dichte: Maßzahlen stetiger Verteilungen Wir haben gesehen, dass für Kaffeepreise ein stetiges Verteilungsmodell sinnvoll ist, da wir bei weiteren Beobachtungen eher erwarten würden, dass es noch mehr unterschiedliche Werte gibt. Die Frage, welchen Preis wir denn erwarten würden, ist wie bei den diskreten Verteilungen die Frage nach dem . Bei diesen ist er durch gegeben. Bei stetigen Verteilungen haben wir nun keine (sinnvolle) Wahrscheinlichkeitsfunktion. Wahrscheinlichkeiten werden vielmehr durch Flächeninhalte unter der Dichtefunktion angegeben. Daher ist eine Annäherung an den Erwartungswert bei diskreten Verteilungen: Dabei ist durch die eine Klasseneinteilung der x-Achse mit der Klassenbreite gegeben. Je feiner diese Klasseneinteilung wird, desto besser ist sicherlich die Annäherung. Im Grenzübergang sind wir damit aber beim Integral. Der Erwartungswert einer stetigen Verteilung ist definiert durch: Entsprechend erhalten wir die Varianz: Die Varianz einer stetigen Verteilung ist definiert durch: Die Eigenschaften dieser Maßzahlen sind die gleichen, die für diskrete Verteilungen gelten: Beispiel: Monatsrenditen - Fortsetzung Im Management von Geldanlagen haben wir eine Dreiecksverteilung für die zukünftige Kursentwicklung unterstellt. Das Zentrum liegt bei 1, der Bereich geht symmetrisch zu 1 von -2 bis 4. Die erwartete Rendite beträgt 1; der Erwartungswert stimmt bei symmetrischen Verteilungen mit dem Symmetriepunkt überein. Die Varianz beträgt Dies ergibt sich mit wegen Page 8 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Für einen ungeübten Bogenschützen ist ein sinnvolles Modell für die Entfernung vom Zielscheibenmittelpunkt die Dichte Bestimmen Sie den Erwartungswert und die Varianz. Link zur Lösung ( : bc9.pdf ) Stetige Gleichverteilung Verteilungsfunktion und Dichte Das einfachste Beispiel einer stetigen Verteilung ist die stetige Gleichverteilung über dem Intervall . Die zugehörige Verteilungsfunktion ist Eine Zufallsvariable mit dieser Verteilungsfunktion heißt gleichverteilt über dem Intervall Für eine Zufallsvariable ergibt sich die Dichtefunktion: Maßzahlen Die Maßzahlen für die Lage und Streuung sind: Anwendung Das Grundmodell für viele computermäßig erzeugte (Pseudo-) Zufallszahlen bildet gerade die -Verteilung. Der Hintergrund besteht darin, dass eine einfache Transformation aus einer gleichverteilten Zufallszahl solche mit einer anderen Verteilungsfunktion hervorbringt. Die so genannte Inversionsmethode nutzt die Inverse der stetigen Verteilungsfunktion und transformiert die gleichverteilten Zufallszahlen gemäß . Beispiel: Beispiel zur Inversionsmethode (Monatsrenditen) Wir setzen das Beispiel zu den Monatsrenditen fort. Als Modell wurde die Dichte gewählt. Die zugehörige Verteilungsfunktion ist Mit der Umkehrfunktion von , erhalten wir daraufhin eine Zufallsstichprobe gemäß Erzeugung von gleichverteilten Zufallszahlen Transformation der . in mittels . Um zu verdeutlichen, dass dieses Vorgehen korrekt ist, stellen wir ein Histogramm aus 10000 Zufallszahlen der theoretischen Dichte gegenüber. Labordatei öffnen ( c44.spf ) Page 9 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Exponentialverteilung Es wird wieder die Ausgangssituation der betrachtet. Allerdings sei das Augenmerk jetzt auf die Zeit gerichtet, die verstreicht, bis zum ersten Mal ein Vorkommnis eintritt. Folgt die Anzahl der Vorkommnisse einem Poisson-Prozess mit der Rate (, so ist die Wahrscheinlichkeit, dass im Intervall kein Vorkommnis passiert, gleich . Diese Wahrscheinlichkeit ist offensichtlich gleich der, dass mindestens bis zum Zeitpunkt t auf ein Vorkommnis gewartet werden muss. Also gilt Die zugehörige Verteilung heißt Exponentialverteilung. Eine Zufallsvariable mit der Verteilungsfunktion heißt exponentialverteilt mit dem Parameter , Die Exponentialverteilung hat die Dichte Für die Maßzahlen gilt: Applet Exponentialverteilung (c8e.jar) Beispiel: Strecke bis zum ersten "a" Sprachwissenschaftler interessieren sich unter anderem für die Häufigkeiten einzelner Buchstaben in verschiedenen Texten. Auch der Abstand zwischen dem Auftreten des jeweils gleichen Buchstabens ist von Interesse. Der Abstand zwischen zwei gleichen Buchstaben kann dabei als "Warten" auf den nächsten gleichen Buchstaben interpretiert werden. Somit ist zu vermuten, dass der Abstand ebenfalls durch eine Exponentialverteilung modelliert werden kann. Unter diesem Vorzeichen wurde in dem Buch "The Sexual Wilderness" von Vance Packard jeweils die Länge von Zeilenanfang (= ) bis zum ersten Auftreten des Buchstabens "a" ausgemessen. Kam in einer Zeile kein "a" vor, so wurde die gesamte Zeilenlänge (3.3 inch) der Strecke der folgenden Zeile hinzuaddiert. Insgesamt erhielt man 1980 Werte. (Aus: Griffin, Smith und Watts (1982): Deriving the Normal and Exponential Densities Using EDA Techniques; The American Statistician, 36, 373 377.) 0.0 0.1 0.1 0.2 0.2 0.3 0.3 0.4 0.4 0.5 0.5 0.6 0.6 0.7 0.7 0.8 Page 10 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle 0.8 0.9 0.9 1.0 1.0 1.1 1.1 1.2 1.2 1.3 1.3 1.4 1.4 1.5 1.5 1.6 1.6 1.7 1.7 1.8 1.8 1.9 1.9 2.0 2.0 2.5 2.5 3.0 3.0 3.5 3.5 4.0 4.0 4.5 4.5 5.0 5.0 5.5 5.5 6.0 6.0 6.5 Page 11 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle Quelle: Eigene Berechnungen Überprüfung der Exponentialverteilung Zur Überprüfung der Frage, ob die Exponentialverteilung ein angemessenes Modell für einen Datensatz ist, ist ein Quantildiagramm, kurz QQ-Diagramm, geeignet. In dem Akronym kommt doppelt vor, weil die empirischen gegen die zugehörigen theoretischen Quantile abgetragen werden. Sofern die Verteilung passt, sollten die empirischen und die theoretischen Quantile in etwa übereinstimmen. Die geordneten beobachteten Werte des Datensatzes sind die empirischen Quantile. Diesen werden die entsprechenden theoretischen -Quantile gegenübergestellt. "Entsprechend" bedeutet dabei . Eine Verbesserung ergibt sich noch durch eine Stetigkeitskorrektur, so dass genommen wird. Die theoretischen -Quantile erhalten wir aus . Für das QQ-Diagramm werden wie ausgeführt die theoretischen Quantile für bestimmt. ist nun i.d.R. nicht bekannt; dies ist aber auch nicht nötig. Wir stellen die einfach in Abhängigkeit von den dar. Damit sollten die Punkte eine Gerade mit einer von 45° abweichenden Steigung durch den Nullpunkt bilden. Wichtig ist nur, ob die Punkte eine systematische Abweichung vom erwarteten linearen Verhalten aufweisen. Beispiel: Zusammenbrüche In einem Experiment wurde bei 19 Versuchwiederholungen jeweils die Zeit bis zum Zusammenbruch der isolierenden Wirkung einer Flüssigkeit ermittelt. Die Daten stammen aus Nelson, W. (1982) Applied Life Data Analysis; New York: Wiley. Das QQ-Diagramm hat die folgende Gestalt: Quelle: Eigene Berechnungen Die Daten und die Befehle zur Erstellung des QQ-Diagramms finden Sie auch auf folgender Laborseite ( e9e.spf ) . Die Punkte bilden keine gute lineare Form. Das hängt mit dem recht geringen Umfang des Datensatzes zusammen. Erst bei größeren Datenumfängen ist die "ruhige" Linienform deutlich. Entscheidend ist hier, dass keine systematisch von einer Geraden abweichenden Struktur zu erkennen ist. Somit bildet die Exponentialverteilung für diese Daten ein durchaus akzeptables Modell. Professor T. Lewis beobachtete in den späten Abendstunden Zeiten zwischen je zwei aufeinander folgenden Fahrzeugen an der M345. (Aus: Lewis, T. and the M345 Course Team (1986) M345 Statistical Methods, Unit 2: Basic Methods: Testing and Estimation, Milton Keynes: The Open University, 16) Ist die Exponentialverteilung hierfür ein passendes Modell? Labordatei öffnen ( eaa.zmpf ) Die Laplace-Verteilung Einer der frühen Versuche, ein geeignetes Verteilungsmodell für Messfehler zu finden, Page 12 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle führte Laplace 1774 zu der nach ihm benannten Verteilung. Die Dichtefunktion der Laplace-Verteilung, die ihr Zentrum bei einem Parameterwert hat, lautet: . Dabei ist ein Skalenparameter. Die Laplace-Verteilung erhalten wir auch als Differenz zweier unabhängiger exponentialverteilter Zufallsvariablen, die beide den gleichen Parameter haben. Der Erwartungswert ist , die Varianz beträgt . Tagesrenditen von Aktien sind i.d.R. symmetrisch um Null verteilt. Sie enthalten oft extreme Werte; daher ist zu ihrer Modellierung eine Laplace-Verteilung geeignet. Beispielsweise lassen sich die Renditen der Aktie einer Rückversicherung (=) durch eine Laplace-Verteilung mit den Parametern und approximieren. a) Wie groß ist demnach die Wahrscheinlichkeit, eine Rendite größer als 0.04 zu erzielen? b) Geben Sie ferner ein zentrales Schwankungsintervall an, in dem mit einer Wahrscheinlichkeit von 0.99 die Tagesrenditen liegen. Link zur Lösung ( : eea.pdf ) Die Pareto-Verteilung Die Pareto-Verteilung ist ein Beispiel für eine stetige Verteilung, die aus einfachen Annahmen ableitbar ist. Paretos Einkommensgesetz, das er aus empirischen Untersuchungen gewonnen hat, sagt: Die Verteilung des Einkommens von Personen mit einem Mindesteinkommen kann beschrieben werden durch die Beziehung: Dabei ist die Anzahl der Personen, deren Einkommen mindestens Geldeinheiten beträgt, und sind populationsspezifische Konstanten. Quelle: Dies führt für alle Einkommen , die größer oder gleich sind, sofort zu Somit ist die zugehörige Verteilung durch die Verteilungsfunktion gegeben. Erwartungswert und Varianz sind: Für die Anpassung der Verteilung an empirische Daten ist es hilfreich, die Verteilungsfunktion umzustellen und zu Logarithmen überzugehen: Diese lineare Beziehung zwischen und sollte sich in etwa auch zeigen, wenn für die theoretische Verteilungsfunktion die empirische an den Stellen eingesetzt wird. Genauer betrachten wir (wieder mit der Stetigkeitskorrektur) das Streudiagramm der Punkte Liegen die Punkte in etwa auf einer Geraden, so können die empirischen Daten gut Page 13 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle durch eine Pareto-Verteilung approximiert werden. Beispiel: Haftpflichtschäden Versicherungen benutzen für eine Risikoabschätzung Informationen der Vergangenheit. Es ist aber stets schwierig, extreme Schäden abzuschätzen. Daher werden Wahrscheinlichkeitsverteilungen gesucht, die solche Daten gut beschreiben. Damit wird dann die Kalkulation durchgeführt. Für Haftpflichtschäden über 100000 SF einer Schweizer Autoversicherung liegen die folgenden Daten vor: 103765 109168 112341 113800 114791 115731 118264 123464 127611 133504 142821 152270 163491 164968 168915 169346 172668 191954 193102 208522 209070 219111 243910 280302 313898 330461 418074 516218 595310 742198 791874 822787 1074499 (Aus Klüppelberg, C. and Villasenor, J. A. (1993) Estimation of distribution tails -- A semiparametric approach, Bl. Dtsch. Ges. Versicherungsmath. 21, No.2, 213-235.) Hier ist die Pareto-Verteilung ein nahe liegender Kandidat für ein Verteilungsmodell, handelt es sich doch um Schäden, die eine gewisse Höhe überschreiten. Dies führt zu dem folgenden QQ-Diagramm, bei dem die Schadenshöhen jeweils um 100000 verringert wurden. Labordatei öffnen ( I1001.spf ) Quelle: Eigene Berechnungen Offensichtlich gibt es eine systematische Abweichung der Punkte von der Ausgleichsgeraden. Dies deutet darauf hin, dass die Pareto-Verteilung hier kein adäquates Modell darstellt. Bestimmen Sie die Dichtefunktion der Pareto-Verteilung und stellen Sie sie grafisch dar. Wie verändert sich die Dichte, wenn der Parameter verändert wird? Page 14 (c) Projekt Neue Statistik 2003 - Lernmodul: Stetige Verteilungsmodelle : I1014.pdf ) Exponentialverteilung ErklärungGleichverteilung ErklärungLaplace-Verteilung ErklärungPareto-Verteilung ErklärungQQ-Diagramm ErklärungQuantildiagramm Erklärungstetige Verteilungsfunktion Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 15