(c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle Verteilungsmodelle Verteilungsfunktion und Dichte von T Survivalfunktion von T Hazardrate von T Beziehungen zwischen F(t), S(t), f(t) und h(t) Vorüberlegung zu Lebensdauerverteilungen Die Exponentialverteilung Die Weibull-Verteilung Eigenschaften der Weibull-Verteilung Aus dem Modul wissen wir, dass die Lebensdauer eine Zufallsvariable ist. Für die Beschreibung des Verhaltens dieser Zufallsvariablen existieren diverse theoretische Verteilungsmodelle. In diesem Modul werden zwei einfachere Verteilungsmodelle für die Lebensdauer vorgestellt. Verteilungsfunktion und Dichte von T Das Verhalten der Zufallsvariablen "Lebensdauer" beschreiben wir genau so wie das jeder anderen Zufallsvariablen durch ihre Verteilungsfunktion ; vgl. Modul . Verteilungsfunktion F(t) einer Zufallsvariablen T. Wir setzen außerdem voraus, dass keine negativen Werte annehmen kann und kontinuierlich ist. Wir können die Zufallsvariable also durch ihre Dichtefunktion beschreiben. Verteilungsfunktion F(t) und zugehörige Dichte f(t) einer Lebensdauer T. Selbstverständlich dienen zur Beschreibung von auch bestimmte Parameter, insbesondere der Erwartungswert , die mittlere Lebensdauer, und die Varianz der Lebensdauer (vgl. Modul , Abschnitt "Maßzahlen stetiger Verteilungen"). Survivalfunktion von T Bei Lebensdauerverteilungen zieht man neben der Verteilungsfunktion und der Dichte noch zwei weitere Beschreibungsmöglichkeiten heran. Die Verteilungsfunktion gibt für jedes die Wahrscheinlichkeit an, mit der die Lebensdauer kleiner oder gleich ist. Oft ist aber die Wahrscheinlichkeit von Interesse, mit der die Lebensdauer den Wert überschreitet, also die Wahrscheinlichkeit, mit der überlebt wird. Als Funktion von heißt sie Überlebenswahrscheinlichkeitsfunktion (Survival Funktion) Verteilungsfunktion F(t), Survivalfunktion S(t) und Dichte f(t) einer Lebensdauer T. Die Wahrscheinlichkeit, dass die Lebensdauer im Intervall Page 1 liegt, ist (c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle (vgl. Abb. oben). Hazardrate von T Die Wahrscheinlichkeit, dass die Lebensdauer im Intervall liegt, interessiert oft weniger als die Wahrscheinlichkeit, dass die Lebensdauer im Intervall liegt unter der Bedingung, dass der Zeitpunkt erlebt wurde Wahrscheinlichkeit des Lebensendes bis oder anders gesagt: die , falls erlebt wurde (vgl. Modul , Abschnitt "bedingte Wahrscheinlichkeiten"): Im Zähler ist eine Teilmenge von , so dass die Schnittmenge gleich der Teilmenge ist: Hält man den Überlebenszeitpunkt fest, an dem die Betrachtung beginnt, dann ist diese Wahrscheinlichkeit umso größer, je größer das anschließende Intervall, d.h. je größer ist. Bezieht man die Wahrscheinlichkeit auf die Intervalllänge , dann erhält man die Ausfallrate im Intervall , Lässt man die Länge des Intervalls immer kürzer werden, , dann erhält man die Hazardrate vgl. Abb. unten. Erleben von ist die Ausfallrate, die auf den kurzen Augenblick nach dem folgt. Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) einer Lebensdauer T. Beziehungen zwischen F(t), S(t), f(t) und h(t) Durch jede der Funktionen und lässt sich das Verhalten der Lebensdauer gleichermaßen beschreiben, d.h. jede lässt sich in jede andere umrechnen, wie aus der Tabelle zu ersehen ist. Bei Lebensdaueruntersuchungen stehen und im Vordergrund. Dabei ist die kumulierte Hazardrate; und . Beispiel: Sterbetafel für Deutschland Die folgende Abb. zeigt die vier Funktionen und für die Lebensdauer der Deutschen gemäß der Sterbetafel von 1999/2001. Die Sterbetafeln werden in Abständen von einigen Jahren vom veröffentlicht. Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) für die Sterbetafel 1999/2001. Die nächste Abb. zeigt noch einmal die Überlebenswahrscheinlichkeitsfunktionen und die Hazardfunktionen aufgrund der Sterbetafel 1999/2001, jeweils ergänzt um die Sterbetafeln 1949/51, 1901/10 und 1871/80. Page 2 (c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle Survivalfunktion S(t) und Hazardrate h(t) für die Sterbetafeln 1871/90, 1901/10, 1949/51 und 1999/01. Die Überlebenswahrscheinlichkeitsfunktionen von 1871 bis 1949 verlaufen zunächst steil, dann moderat und bei größeren wieder steil. Entsprechend fällt die Hazardrate zunächst ab, ist dann konstant und steigt danach steil an. Man spricht von der Badewannenkurve der Hazardrate aufgrund der Sterbetafel. Die hohen, aber fallenden Hazardraten bei kleinen (bis zu etwa einem Jahr) sind durch die Säuglingssterblichkeit bedingt (im technischen Bereich spricht man von Frühausfällen). Die im mittleren Bereich annähernd konstante Hazardrate besagt, dass die Sterbewahrscheinlichkeit im nächsten Augenblick nicht vom erreichten Alter abhängt, dass es also (annähernd) nicht zu einer alterungsbedingten Vergrößerung der Sterbewahrscheinlichkeit kommt. Im rechten Bereich steigt die Hazardrate steil an und zeigt damit die im hohen Alter stark ansteigende Sterbewahrscheinlichkeit (im technischen Bereich spricht man von Altersoder Verschleißausfällen). Die Abb. oben lässt erkennen, wie stark die Überlebenswahrscheinlichkeit in den vergangenen 150 Jahren angestiegen ist, im 19. Jahrhundert vor allem durch die erheblich verringerte Säuglingssterblichkeit (bei fällt die Überlebenswahrscheinlichkeit weniger stark ab; entsprechend fällt auch die Hazardrate weniger stark). Datensatz zu diesem Beispiel: sterbetafeln.xls ( b3e.xls ) Vorüberlegung zu Lebensdauerverteilungen Leider sind theoretische Verteilungsmodelle, die eine Ausfallrate in Form einer Badewannenkurve haben (vgl. Beispiel Sterbetafel ), vor allem aber die dann darauf aufbauenden Schätz- und Testverfahren so kompliziert, dass man sich fast immer mit einfacheren, handlichen Modellen begnügt. Wenn man beispielsweise bei der menschlichen Lebensdauer die Zeit bis zum ersten Geburtstag ausklammert, also nicht die Lebensdauer von Neugeborenen, sondern die von Einjährigen betrachtet, dann ergeben sich aus der Sterbetafel 1999/2001 und der Abb. unten. Survivalfunktion S(t) und Hazardrate h(t) für die Sterbetafel 1999/01 beginnend ab Lebensalter 1 Jahr. Die Hazardrate steigt monoton, und für diesen Fall gibt es einige passende Verteilungsmodelle. Die Exponentialverteilung Eine Familie von Verteilungen gewinnen wir, indem wir zunächst einmal die Hazardrate zeitlich konstant annehmen, für Einheiten, deren Hazardrate konstant ist, altern nicht, verjüngen sich aber auch nicht. Aus der Tabelle entnehmen wir, dass in diesem Falle und daher ist (vgl. Abb.). Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) der Exponentialverteilung. Das ist die Exponentialverteilung, die uns aus dem Modul bekannt ist. Die mittlere Lebensdauer ist die Varianz der Lebensdauer ist Page 3 (c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle Wir berechnen nun die Verteilung der restlichen Lebensdauer, d.h. die Wahrscheinlichkeit, eine weitere Zeit zu überleben, nachdem die Zeit erlebt wurde (vgl. Modul , Abschnitt "bedingte Wahrscheinlichkeiten"): Die Überlebenswahrscheinlichkeit für Einheiten, die das Alter erreicht haben, ist vom Alter unabhängig und gleich der Überlebenswahrscheinlichkeit zu Beginn (). D.h. für jede erlebte Zeit ist die Verteilung der restlichen Lebensdauer gleich der Verteilung der Lebensdauer (ab ) oder anders gesagt: zu jedem Zeitpunkt sind die mit der Exponentialverteilung beschreibbaren Einheiten so gut (oder schlecht) wie neu. Zur Beurteilung der menschlichen Lebensdauer taugt die Exponentialverteilung genau so wenig wie zur Beschreibung der restlichen Lebensdauer der Einjährigen. Ist die Exponentialverteilung also nur ein zwar einfaches Modell, aber zur Beschreibung irgendwelcher realen Lebensdauern ungeeignet? Nein; Untersuchungen der Lebensdauer von Halbleitern (Transistoren, Dioden, Computerchips) zeigen immer wieder, dass deren Lebensdauern gut durch eine Exponentialverteilung modelliert werden können: Computerchips können durchaus kaputt gehen, verschleißen aber nicht (oder zumindest nicht innerhalb der heutzutage genutzten Lebensdauer), sind also immer so gut wie neu. Die Weibull-Verteilung Um ein flexibleres Verteilungsmodell zu bekommen, setzen wir die kumulierte Hazardrate , die bei der Exponentialverteilung linear steigt (), als Potenzfunktion an; die Hazardrate ist dann Für ergibt sich als Sonderfall die Exponentialverteilung mit . Für ist die Hazardrate monoton steigend, für monoton fallend; vgl. Abb. für . Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) der Weibull-Verteilung. Es erweist sich manchmal als zweckmäßig, statt des Parameters seinen Reziprokwert als Parameter einzuführen. Dann ist Gemäß der Tabelle ist Diese Verteilung ist in den letzten 100 Jahren sowohl von Theoretikern als auch von Praktikern immer wieder "entdeckt" worden. Als Name hat sich Weibull-Verteilung durchgesetzt, nach einem schwedischen Physiker, der sie um 1940 zur Modellierung der Lebensdauer in der Materialprüfung verwendet hat. Sie hat in der Zuverlässigkeitsanalyse von technischen Produkten und Komponenten technischer Produkte eine große Bedeutung. Eigenschaften der Weibull-Verteilung Setzt man in der Gleichung (s. oben) für den Wert ein, dann erhält man , d.h. die Verteilungsfunktion jeder Weibull-Verteilung geht durch den Punkt : Bei der Weibull-Verteilung ist die Wahrscheinlichkeit, dass die Lebensdauer kleiner als ist, , gleich 0.632. Der Parameter heißt deshalb auch charakteristische Lebensdauer. Der Page 4 (c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle Parameter hat keine unmittelbare Bedeutung. Da die Verteilungsfunktion steiler verläuft, wenn größer ist, heißt er auch Ausfallsteilheit. Bei der Weibull-Verteilung ist die mittlere Lebensdauer die Varianz der Lebensdauer ist Darin ist die (vollständige) Gammafunktion. Im Modul haben wir festgestellt, dass die Lebensdauer eine Zufallsvariable ist. Wie jede andere Zufallsvariable auch, lässt sich die Lebensdauer durch ihre Verteilungsfunktion und die entsprechende Dichtefunktion beschreiben. In der Lebensdaueranalyse sind ergänzend dazu die Überlebenswahrscheinlichkeitsfunktion und die Hazardrate von Interesse. Wie wir es bereits von der Dichte und der Verteilungsfunktion kennen, lassen sich alle vier Funktionen gemäß der vorgestellten Tabelle ineinander umrechnen. Nachdem wir uns an einem Beispiel der Sterbetafeln mögliche Verläufe von Lebensdauerverteilungen veranschaulicht haben, wurden zwei Verteilungsmodelle für Lebensdauern, die Exponentialverteilung und die Weibull-Verteilung, vorgestellt und hinsichtlich ihrer Eigenschaften untersucht. (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 5