Verteilungsmodelle

Werbung
(c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle
Verteilungsmodelle
Verteilungsfunktion und Dichte von T
Survivalfunktion von T
Hazardrate von T
Beziehungen zwischen F(t), S(t), f(t) und h(t)
Vorüberlegung zu Lebensdauerverteilungen
Die Exponentialverteilung
Die Weibull-Verteilung
Eigenschaften der Weibull-Verteilung
Aus dem Modul wissen wir, dass die Lebensdauer eine Zufallsvariable ist. Für die
Beschreibung des Verhaltens dieser Zufallsvariablen existieren diverse theoretische
Verteilungsmodelle. In diesem Modul werden zwei einfachere Verteilungsmodelle für
die Lebensdauer vorgestellt.
Verteilungsfunktion und Dichte von T
Das Verhalten der Zufallsvariablen "Lebensdauer" beschreiben wir genau so wie das
jeder anderen Zufallsvariablen durch ihre Verteilungsfunktion
;
vgl. Modul .
Verteilungsfunktion F(t) einer Zufallsvariablen T.
Wir setzen außerdem voraus, dass keine negativen Werte annehmen kann und
kontinuierlich ist. Wir können die Zufallsvariable also durch ihre Dichtefunktion
beschreiben.
Verteilungsfunktion F(t) und zugehörige Dichte f(t) einer Lebensdauer T.
Selbstverständlich dienen zur Beschreibung von
auch bestimmte Parameter,
insbesondere der Erwartungswert , die mittlere Lebensdauer, und die Varianz der
Lebensdauer (vgl. Modul , Abschnitt "Maßzahlen stetiger Verteilungen").
Survivalfunktion von T
Bei Lebensdauerverteilungen zieht man neben der Verteilungsfunktion und der Dichte
noch zwei weitere Beschreibungsmöglichkeiten heran. Die Verteilungsfunktion
gibt für jedes die Wahrscheinlichkeit an, mit der die Lebensdauer kleiner oder gleich ist.
Oft ist aber die Wahrscheinlichkeit von Interesse, mit der die Lebensdauer den Wert
überschreitet, also die Wahrscheinlichkeit, mit der überlebt wird. Als Funktion von
heißt sie Überlebenswahrscheinlichkeitsfunktion (Survival Funktion)
Verteilungsfunktion F(t), Survivalfunktion S(t) und Dichte f(t) einer Lebensdauer T.
Die Wahrscheinlichkeit, dass die Lebensdauer im Intervall
Page 1
liegt, ist
(c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle
(vgl. Abb. oben).
Hazardrate von T
Die Wahrscheinlichkeit, dass die Lebensdauer im Intervall liegt, interessiert oft weniger
als die Wahrscheinlichkeit, dass die Lebensdauer im Intervall
liegt
unter
der Bedingung, dass der Zeitpunkt erlebt wurde
Wahrscheinlichkeit des Lebensendes bis
oder anders gesagt: die
, falls erlebt wurde (vgl. Modul ,
Abschnitt "bedingte Wahrscheinlichkeiten"):
Im Zähler ist eine Teilmenge von , so dass die Schnittmenge gleich der Teilmenge ist:
Hält man den Überlebenszeitpunkt fest, an dem die Betrachtung beginnt, dann ist diese
Wahrscheinlichkeit umso größer, je größer das anschließende Intervall, d.h. je größer
ist. Bezieht man die Wahrscheinlichkeit auf die Intervalllänge , dann erhält man die
Ausfallrate im Intervall ,
Lässt man die Länge des Intervalls immer kürzer werden, , dann erhält man die
Hazardrate
vgl. Abb. unten.
Erleben von
ist die Ausfallrate, die auf den kurzen Augenblick nach dem
folgt.
Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) einer Lebensdauer T.
Beziehungen zwischen F(t), S(t), f(t) und h(t)
Durch jede der Funktionen
und lässt sich das Verhalten der Lebensdauer
gleichermaßen beschreiben, d.h. jede lässt sich in jede andere umrechnen, wie aus der
Tabelle zu ersehen ist. Bei Lebensdaueruntersuchungen stehen und im Vordergrund.
Dabei ist die kumulierte Hazardrate;
und .
Beispiel: Sterbetafel für Deutschland
Die folgende Abb. zeigt die vier Funktionen und für die Lebensdauer der Deutschen
gemäß der Sterbetafel von 1999/2001. Die Sterbetafeln werden in Abständen von
einigen Jahren vom veröffentlicht.
Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) für die Sterbetafel 1999/2001.
Die nächste Abb. zeigt noch einmal die Überlebenswahrscheinlichkeitsfunktionen und
die Hazardfunktionen aufgrund der Sterbetafel 1999/2001, jeweils ergänzt um die
Sterbetafeln 1949/51, 1901/10 und 1871/80.
Page 2
(c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle
Survivalfunktion S(t) und Hazardrate h(t) für die Sterbetafeln 1871/90, 1901/10, 1949/51 und 1999/01.
Die Überlebenswahrscheinlichkeitsfunktionen von 1871 bis 1949 verlaufen zunächst
steil, dann moderat und bei größeren wieder steil. Entsprechend fällt die Hazardrate
zunächst ab, ist dann konstant und steigt danach steil an. Man spricht von der
Badewannenkurve der Hazardrate aufgrund der Sterbetafel. Die hohen, aber fallenden
Hazardraten bei kleinen (bis zu etwa einem Jahr) sind durch die Säuglingssterblichkeit
bedingt (im technischen Bereich spricht man von Frühausfällen). Die im mittleren
Bereich annähernd konstante Hazardrate besagt, dass die Sterbewahrscheinlichkeit im
nächsten Augenblick nicht vom erreichten Alter abhängt, dass es also (annähernd) nicht
zu einer alterungsbedingten Vergrößerung der Sterbewahrscheinlichkeit kommt. Im
rechten Bereich steigt die Hazardrate steil an und zeigt damit die im hohen Alter stark
ansteigende Sterbewahrscheinlichkeit (im technischen Bereich spricht man von Altersoder Verschleißausfällen). Die Abb. oben lässt erkennen, wie stark die
Überlebenswahrscheinlichkeit in den vergangenen 150 Jahren angestiegen ist, im 19.
Jahrhundert vor allem durch die erheblich verringerte Säuglingssterblichkeit (bei fällt
die Überlebenswahrscheinlichkeit weniger stark ab; entsprechend fällt auch die
Hazardrate weniger stark).
Datensatz zu diesem Beispiel: sterbetafeln.xls ( b3e.xls )
Vorüberlegung zu Lebensdauerverteilungen
Leider sind theoretische Verteilungsmodelle, die eine Ausfallrate in Form einer
Badewannenkurve haben (vgl. Beispiel Sterbetafel ), vor allem aber die dann darauf
aufbauenden Schätz- und Testverfahren so kompliziert, dass man sich fast immer mit
einfacheren, handlichen Modellen begnügt. Wenn man beispielsweise bei der
menschlichen Lebensdauer die Zeit bis zum ersten Geburtstag ausklammert, also nicht
die Lebensdauer von Neugeborenen, sondern die von Einjährigen betrachtet, dann
ergeben sich aus der Sterbetafel 1999/2001 und
der Abb. unten.
Survivalfunktion S(t) und Hazardrate h(t) für die Sterbetafel 1999/01 beginnend ab Lebensalter 1 Jahr.
Die Hazardrate steigt monoton, und für diesen Fall gibt es einige passende
Verteilungsmodelle.
Die Exponentialverteilung
Eine Familie von Verteilungen gewinnen wir, indem wir zunächst einmal die
Hazardrate zeitlich konstant annehmen,
für
Einheiten, deren Hazardrate konstant ist, altern nicht, verjüngen sich aber auch nicht.
Aus der Tabelle entnehmen wir, dass in diesem Falle
und daher
ist (vgl. Abb.).
Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) der Exponentialverteilung.
Das ist die Exponentialverteilung, die uns aus dem Modul bekannt ist. Die mittlere
Lebensdauer ist
die Varianz der Lebensdauer ist
Page 3
(c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle
Wir berechnen nun die Verteilung der restlichen Lebensdauer, d.h. die
Wahrscheinlichkeit, eine weitere Zeit zu überleben, nachdem die Zeit erlebt wurde (vgl.
Modul , Abschnitt "bedingte Wahrscheinlichkeiten"):
Die Überlebenswahrscheinlichkeit für Einheiten, die das Alter erreicht haben, ist vom
Alter unabhängig und gleich der Überlebenswahrscheinlichkeit zu Beginn (). D.h. für
jede erlebte Zeit ist die Verteilung der restlichen Lebensdauer gleich der Verteilung der
Lebensdauer (ab ) oder anders gesagt: zu jedem Zeitpunkt sind die mit der
Exponentialverteilung beschreibbaren Einheiten so gut (oder schlecht) wie neu.
Zur Beurteilung der menschlichen Lebensdauer taugt die Exponentialverteilung genau
so wenig wie zur Beschreibung der restlichen Lebensdauer der Einjährigen. Ist die
Exponentialverteilung also nur ein zwar einfaches Modell, aber zur Beschreibung
irgendwelcher realen Lebensdauern ungeeignet? Nein; Untersuchungen der
Lebensdauer von Halbleitern (Transistoren, Dioden, Computerchips) zeigen immer
wieder, dass deren Lebensdauern gut durch eine Exponentialverteilung modelliert
werden können: Computerchips können durchaus kaputt gehen, verschleißen aber nicht
(oder zumindest nicht innerhalb der heutzutage genutzten Lebensdauer), sind also
immer so gut wie neu.
Die Weibull-Verteilung
Um ein flexibleres Verteilungsmodell zu bekommen, setzen wir die kumulierte
Hazardrate , die bei der Exponentialverteilung linear steigt (), als Potenzfunktion
an; die Hazardrate ist dann
Für ergibt sich als Sonderfall die Exponentialverteilung mit . Für ist die Hazardrate
monoton steigend, für monoton fallend; vgl. Abb. für .
Verteilungsfunktion F(t), Survivalfunktion S(t), Dichte f(t) und Hazardrate h(t) der Weibull-Verteilung.
Es erweist sich manchmal als zweckmäßig, statt des Parameters seinen Reziprokwert als
Parameter einzuführen. Dann ist
Gemäß der Tabelle ist
Diese Verteilung ist in den letzten 100 Jahren sowohl von Theoretikern als auch von
Praktikern immer wieder "entdeckt" worden. Als Name hat sich Weibull-Verteilung
durchgesetzt, nach einem schwedischen Physiker, der sie um 1940 zur Modellierung der
Lebensdauer in der Materialprüfung verwendet hat. Sie hat in der
Zuverlässigkeitsanalyse von technischen Produkten und Komponenten technischer
Produkte eine große Bedeutung.
Eigenschaften der Weibull-Verteilung
Setzt man in der Gleichung (s. oben) für den Wert ein, dann erhält man , d.h. die
Verteilungsfunktion jeder Weibull-Verteilung geht durch den Punkt : Bei der
Weibull-Verteilung ist die Wahrscheinlichkeit, dass die Lebensdauer kleiner als ist, ,
gleich 0.632. Der Parameter heißt deshalb auch charakteristische Lebensdauer. Der
Page 4
(c) Projekt Neue Statistik 2003 - Lernmodul: Verteilungsmodelle
Parameter hat keine unmittelbare Bedeutung. Da die Verteilungsfunktion steiler
verläuft, wenn größer ist, heißt er auch Ausfallsteilheit. Bei der Weibull-Verteilung ist
die mittlere Lebensdauer
die Varianz der Lebensdauer ist
Darin ist
die (vollständige) Gammafunktion.
Im Modul haben wir festgestellt, dass die Lebensdauer eine Zufallsvariable ist. Wie jede
andere Zufallsvariable auch, lässt sich die Lebensdauer durch ihre Verteilungsfunktion
und die entsprechende Dichtefunktion beschreiben. In der Lebensdaueranalyse sind
ergänzend dazu die Überlebenswahrscheinlichkeitsfunktion und die Hazardrate von
Interesse. Wie wir es bereits von der Dichte und der Verteilungsfunktion kennen, lassen
sich alle vier Funktionen gemäß der vorgestellten Tabelle ineinander umrechnen.
Nachdem wir uns an einem Beispiel der Sterbetafeln mögliche Verläufe von
Lebensdauerverteilungen veranschaulicht haben, wurden zwei Verteilungsmodelle für
Lebensdauern, die Exponentialverteilung und die Weibull-Verteilung, vorgestellt und
hinsichtlich ihrer Eigenschaften untersucht.
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme
Kontakt: http://www.neuestatistik.de
Page 5
Herunterladen