Die Anwendung des Logit Modells auf die Daten der Challenger-Katastrophe Bachelorarbeit Stefanie Nentwig Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Düsseldorf, im November 2006 Betreuung: Prof. Dr. Arnold Janssen Inhaltsverzeichnis Abbildungsverzeichnis iii Tabellenverzeichnis iv Symbol- und Abkürzungsverzeichnis v Einleitung 1 1 Problemstellung 3 2 Grundlagen 6 2.1 Die Logistische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Die Maximum Likelihood Methode . . . . . . . . . . . . . . . . . . . . . . . 7 2.3 Ein Test für die lineare Hypothese . . . . . . . . . . . . . . . . . . . . . . . 7 3 Mathematische Modellierung 9 9 3.1 Das Binäre Logit Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Das Multinomiale Logit Modell . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3 Das Kumulative Logit Modell . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4 Praktische Analyse mit SAS 15 4.1 Technische Aspekte der Challenger . . . . . . . . . . . . . . . . . . . . . . . 15 4.2 Die Challenger Daten als binär kodierter Datensatz . . . . . . . . . . . . . . 17 4.3 Die Challenger Daten als ordinal kodierter Datensatz . . . . . . . . . . . . . 21 5 Ergebnis 24 A SAS Schätzergebnisse Binäres Logit Modell 26 i Inhaltsverzeichnis ii B SAS Schätzergebnisse Kumulatives Logit Modell 30 Literaturverzeichnis 35 Abbildungsverzeichnis 1.1 Scatterplot der O-Ring Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Space Shuttle: Orbiter, externer Brennstofftank, Raketentriebwerke, Field 4 Joints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 A.1 geschätzte Wahrscheinlichkeit, dass mindestens ein O-Ring ausfällt . . . . . 27 A.2 geschätzte Logits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 B.1 geschätzte Wahrscheinlichkeiten Kategorie i zu treffen, i = 0, 1, 2 . . . . . . 31 B.2 geschätzte kumulative Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . 32 iii Tabellenverzeichnis 1.1 Challenger Datensatz: thermische Probleme bei O-Ringen . . . . . . . . . . 5 A.1 Schätzergebnis Binäres Logit Modell mit erklärender Variable Außentem” peratur in ◦ F“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 A.2 Schätzergebnis Binäres Logit Modell mit erklärenden Variablen Außen” temperatur in ◦ F“ und Luftdruck in psi“ . . . . . . . . . . . . . . . . . . . 26 ” A.3 geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärender Variable Außentemperatur in ◦ F“ . . . . . . . . . . . . . . . . . 28 ” A.4 geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“ . . . 29 ” ” B.1 Schätzergebnis Kumulatives Logit Modell mit erklärender Variable Außen” temperatur in ◦ F“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 B.2 Schätzergebnis Kumulatives Logit Modell mit erklärenden Variablen Au” ßentemperatur in ◦ F“ und Luftdruck in psi“ . . . . . . . . . . . . . . . . . 31 ” B.3 geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit erklärender Variable Außentemperatur in ◦ F“ . . . . . . . . . . . . . . . . 33 ” B.4 geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“ . . 34 ” ” iv Symbol- und Abkürzungsverzeichnis Im Folgenden werden im Rahmen dieser Arbeit verwendete Symbole und Abkürzungen aufgelistet und erklärt. Abkürzungen bzw. beziehungsweise d.h. das heißt f./ ff. folgende/fortfolgende i.A. im Allgemeinen NASA National Aeronautics and Space Administration psi pound pro square inch SAS Statistical Analysis System usw. und so weiter vgl. vergleiche ◦C Grad Celsius ◦F Grad Fahrenheit Symbole dϑ dµ Dichte von ϑ bzgl. µ (Θ, Ω) Messraum v Symbol- und Abkürzungsverzeichnis ∇ Differentiation nach Parameter Θ Parameterraum A∪B Vereinigung der Ereignisse A und B F Link-Funktion, später Logistische Verteilungsfunktion Lo(α, β) Logistische Verteilung mit den Parametern α und β P ,Pϑ Wahrscheinlichkeitsmaß, zum Parameter ϑ P (Y | X = x) bedingte Wahrscheinlichkeit gegeben X = x X Einflussfaktor, erklärende Variable Y Response Variable, abhängige Variable vi Einleitung Am 28. Januar 1986 explodierte die amerikanische Raumfähre Challenger mit sieben Astronauten an Bord. Die Ursache der Katastrophe waren Materialermüdungserscheinungen an Dichtungsringen, den so genannten O-Ringen, an den beiden Raketentriebwerken. Von diesen O-Ringen besitzen die beiden Raketentriebwerke insgesamt sechs Stück. Zum Zeitpunkt des Starts herrschte eine extrem niedrige Außentemperatur von 31 ◦ F (ca. 0 ◦ C). Es stellt sich nun die Frage, ob diese niedrige Außentemperatur einen Einfluss auf die Zuverlässigkeit der O-Ringe hat oder nicht. Die Antwort darauf wird diese Arbeit geben. In diesem Zusammenhang wird die abhängige Variable (Response Variable) Y Zuverlässig” keit der O-Ringe“ untersucht. Diese so genannte Response Variable hat eine diskrete Ausprägung. Im einfachsten Fall ist dies eine binäre Variable, d.h. sie nimmt nur die Werte 0 oder 1 an. Beispielsweise könnte man den Ausfall mindestens eines O-Ringes“ mit 1 bzw. ” ordnungsgemäße Funktion“ mit 0 kodieren. Es besteht allerdings die Möglichkeit, dass ” die Response Variable mehr als zwei Kategorien aufweist. Hierbei wird zwischen einer ordinal skalierten Variablen und einer nominal skalierten Variablen unterschieden. Eine Variable heißt ordinal skaliert, wenn sich ihre verschiedenen möglichen Ausprägungen in eine natürliche Reihenfolge bringen lassen ( kein O-Ring Ausfall“, Ausfall eines O-Rings“, ” ” Ausfall von mehr als einem O-Ring“). Die Unterschiede zwischen den Ausprägungen sind ” dabei aber nicht messbar. Nominal skaliert nennt man eine Variable, wenn sich ihre möglichen Ausprägungen zwar unterscheiden, nicht aber in eine Rangfolge gebracht werden können. Es ist problematisch einen linearen Zusammenhang zwischen dieser diskreten Response Variablen Y und einem Einflussfaktor X (z.B. Außentemperatur“, Luftdruck“ usw.) an” ” hand einer linearen Regressionsanalyse darzustellen, da im linearen Regressionsmodell die Response Variable metrisch skaliert ist und theoretisch alle Ausprägungen von −∞ bis ∞ realisieren kann. Darüber hinaus sind wesentliche Anwendungsvoraussetzungen, wie die 1 Einleitung 2 Normalverteilung der Residuen und die Varianzhomogenität, für das Verfahren der linearen Regressionsanalyse mittels kleinste Quadrate Schätzung nicht gegeben. Abhilfe schafft die Logistische Regression. Es wird das Modell Y = F (X) (0.0.1) betrachtet, mit der Response Variablen Y , dem Einflussfaktor X und der Link-Funktion F . Diese Link-Funktion wird in Kapitel 3 eingeführt und erklärt. Im Gegensatz zur linearen Regression wird nicht die konkrete Ausprägung von Y vorhergesagt, sondern die Wahrscheinlichkeit für das Auftreten einer konkreten Ausprägung von Y . Die Logistische Regression beschreibt die Wahrscheinlichkeit eines Ereignisses durch ein Regressionsmodell. Das Ziel dieser Arbeit ist es, anhand des Challenger Datensatzes aus Tabelle 1.1 die Korrelation zwischen der Zuverlässigkeit der O-Ringe und niedrigen Temperaturen mit statistischen Beweisen zu belegen. Es wird auch der Einfluss des Faktors Luftdruck“ auf die ” Zuverlässigkeit der O-Ringe untersucht. Außerdem wird eine wahrscheinlichkeitstheoretische Risikoeinschätzung für das Versagen mindestens eines bzw. mehr als eines (primären) O-Ringes bei den Startbedingungen der Challenger erstellt. Kapitel 1 beschreibt die Problemstellung. Das folgende Kapitel 2 stellt die wesentlichen mathematischen Grundlagen dar. In Kapitel 3 wird das Binäre Logit Modell, das Multinomiale Logit Modell sowie das Kumulative Logit Modell eingeführt und die mathematische Modellierung von diskreten Variablen anhand dieser Modelle vorgestellt. Anschließend erfolgt in Kapitel 4 die praktische Analyse des Challenger Datensatzes durch das entsprechende zugrunde liegende Logit Modell mithilfe des Statistikprogramms Sta” tistical Analysis System“(SAS). In Kapitel 5 werden die Ergebnisse zusammengefasst und interpretiert. Kapitel 1 Problemstellung Raten ist billig. ” Falsch Raten ist teuer.“ (Chinesisches Sprichwort, lange vor unserer Zeit) Im Zentrum dieser Arbeit steht die Analyse des Challenger Datensatzes, ein Beispiel für binär bzw. ordinal kodierte Daten. Im Vorfeld der Challenger Katastrophe trat damals ein verheerender Fehler in der mathematischen Analyse dieses Datensatzes auf. Der folgende Abschnitt bezieht sich auf den Bericht von Dalal, Fowlkes und Hoadley [3] Seite 945f. Die Challenger Katastrophe In der Nacht vor der Challenger Katastrophe fand eine mehrstündige Telefonkonferenz mit den Experten des Triebwerkherstellers Morton Thiokol, des Marshall Space Flight Center der NASA und des Kennedy Space Center Raumflughafens statt. In dieser Konferenz ging es im Wesentlichen um die Wettervorhersage von extrem niedrigen 31 ◦ F Außentemperatur für die Startzeit der Raumfähre am nächsten Morgen und den Effekt einer niedrigen Außentemperatur auf die Zuverlässigkeit der O-Ringe. Der Challenger Datensatz spielte eine wichtige Rolle in dieser Diskussion. Dieser gibt die Flüge vor der Challenger Katastrophe an, bei denen eine solche Materialermüdung aufgetreten war zusammen mit der Außentemperatur in ◦ F“ und dem Luftdruck in psi“ ” ” zur jeweiligen Startzeit. Flug 61-I repräsentiert die Challenger Katastrophe. Kodiert man diesen Datensatz mit 0 bei ordnungsgemäßer Funktion“ bzw. mit 1 bei Versagen minde” ” stens eines O-Ringes“ ergibt sich die Abbildung 1.1. Größere Kreise symbolisieren mehrere identische Beobachtungen. Da leider nur der Teil des Datensatzes betrachtet wurde, bei 3 Problemstellung 4 dem eine solche Materialermüdung aufgetreten war, kam man zu dem Schluss, dass diese Historie keinen Beweis über einen Temperatureffekt auf die Zuverlässigkeit der O-Ringe liefert. Trotz einiger Widersprüche empfahl Morton Thiokol der NASA, die Challenger wie geplant starten zu lassen. Nach dem Unglück setzte Präsident Ronald Reagan eine Untersuchungskommission ein, um die Ursache für die Explosion herauszufinden. Die Rogers-Kommission befand als Unglücksursache das eingangs erwähnte Versagen eines solchen O-Ringes. Sie stellte darüberhinaus fest, dass eine sorgfältigere Analyse der Historie der O-Ring Daten, insbesondere die Berücksichtigung der Flüge ohne Materialermüdungserscheinungen an O-Ringen, die Korrelation zwischen der Zuverlässigkeit der O-Ringe und niedrigen Temperaturen aufgedeckt hätte. Diese wertvolle Information hätte wesentlich zum Startentscheidungsprozess während der Konferenz beitragen können. Abbildung 1.1: Scatterplot der O-Ring Daten Quelle: SAS proc gplot Problemstellung 5 Tabelle 1.1: Challenger Datensatz: thermische Probleme bei O-Ringen Flug Datum Field Erosion Blow-By Erosion Temperatur Luftdruck in ◦ F in psi o. Blow-By 1 04.12.1981 2 11.12.1981 66 50 70 50 3 5 22.03.1982 69 50 11.11.1982 68 50 6 04.04.1983 67 50 7 18.06.1983 72 50 8 30.08.1983 73 100 9 28.11.1983 70 100 41-B 03.02.1984 57 200 1 1 1 1 41-C 06.04.1984 1 1 63 200 41-D 30.08.1984 1 1 70 200 41-G 05.10.1984 78 200 51-A 08.11.1984 67 200 51-C 24.01.1985 53 200 51-D 12.04.1985 67 200 51-B 29.04.1985 75 200 51-G 17.06.1985 70 200 51-F 29.07.1985 81 200 51-I 27.08.1985 76 200 51-J 03.10.1985 79 200 75 200 76 200 58 200 31 200 61-A 30.10.1985 61-B 26.11.1985 61-C 12.01.1986 61-I 28.01.1986 Total 2,1 1 2 2 1 7,1 2 2 1 1 4 9 Quelle: Bericht von Dalal, Fowlkes und Hoadley [3] Seite 949 1 sekundärer O-Ring Kapitel 2 Grundlagen In diesem Kapitel werden einige wichtige Grundlagen aus der Statistik dargestellt, die an zentralen Stellen in dieser Arbeit verwendet werden und notwendig für deren Verständnis sind. Auf die entsprechende Literatur wird hingewiesen. 2.1 Die Logistische Verteilung Die in Kapitel 3 eingeführten Logit Modelle basieren alle auf der Logistischen Verteilungsfunktion. Diese soll nun mit Hilfe von Ferguson [5] Seite 102 definiert werden. Definition 2.1.1 (Logistische Verteilung) Sei X eine stetige Zufallsvariable. X ist logistisch verteilt mit den Parametern α und β, i.Z. X ∼ Lo(α, β), falls die Wahrscheinlichkeitsdichte folgende Form besitzt exp − x−α β f (x) = h i2 . β 1 + exp − x−α β (2.1.1) Mit (2.1.1) ergibt sich die Verteilungsfunktion F (x) = mit Erwartungswert α und Varianz 1 1 + exp − x−α β (2.1.2) (βπ)2 3 . Bemerkung 2.1.2 Die Logistische Verteilung gehört zur Klasse der stetigen Verteilungen. Die Dichte (2.1.1) der Logistische Verteilung ist symmetrisch um den Erwartungswert α. Damit gilt die 6 Grundlagen 7 äquivalente Darstellung von (2.1.1) bzw. von (2.1.2) exp x−α β f (x) = h i2 β 1 + exp x−α β bzw. exp F (x) = x−α β (2.1.3) . 1 + exp − x−α β (2.1.4) In den nachfolgenden Kapiteln wird die Logistische Verteilung, sofern nicht anders gekennzeichnet, mit den Parametern α = 0 und β = 1 verwendet. 2.2 Die Maximum Likelihood Methode Im Logistischen Regressionsmodell werden die unbekannten Parameter anhand der Maximum Likelihood Methode geschätzt. Dazu müssen noch einige Begriffe eingeführt werden. Bezogen wird sich hier auf Janssen [7], §5. Definition 2.2.1 (Maximum Likelihood Schätzer) dPϑ dµ (x) eine Version von Dichten. ϑ 7−→ L (x, ϑ) = f (x, ϑ) (2.2.1) Sei (Pϑ )ϑ ein dominiertes Experiment und sei f (x, ϑ) = Dann gilt: 1. Zu gegebener Realisierung x ∈ Ω heißt die Likelihood-Funktion zu x. 2. Sei (Θ, Ω) ein Messraum. Eine messbare Abbildung ϑ̂ : Ω −→ Θ heißt Maximum Likelihood Schätzer für ϑ, falls eine Menge N ∈ A mit Pϑ (N ) = 0 für alle ϑ ∈ Θ existiert, so dass für alle x ∈ N C gilt f (x, ϑ̂ (x)) = sup f (x, ϑ) . (2.2.2) ϑ∈Θ 2.3 Ein Test für die lineare Hypothese In diesem Abschnitt soll ein bekannter Test eingeführt werden, um bei späteren Auswertungen Aussagen über die Güte der Modelle treffen zu können. Gestützt wird sich auf Witting [10] Seite 215ff. Grundlagen 8 Definition 2.3.1 (Likelihood-Quotienten-Test) Sei X eine stetig verteilte Zufallsvariable. Sei ϑ ∈ Θ. Betrachtet wird das Testproblem H : ϑ ∈ Θ0 gegen K : ϑ ∈ Θ\Θ0 . Sei q (x) = sup L (x, ϑ) sup L (x, ϑ) (2.3.1) ϑ∈Θ0 ϑ∈Θ\Θ0 der allgemeine Dichtequotient. Existiert ein Maximum Likelihood Schätzer ϑb (x) und ϑe (x) für ϑ ∈ Θ\Θ0 bzw. ϑ ∈ Θ0 so lautet die Prüfgröße L x, ϑb (x) . q (x) = L x, ϑe (x) (2.3.2) Dann heißt ein Test der Form ( ψ (x) = 0 q (x) < c 1 ≥c (2.3.3) Likelihood-Quotienten-Test. Die Konstante c wird möglichst klein gewählt und zwar so, dass Pϑ (q (x) ≥ c) ≤ α für alle ϑ ∈ Θ0 . Beim Likelihood-Quotienten-Test werden jeweils ein Ausgangsmodell Θ0 und ein Vergleichsmodell Θ\Θ0 miteinander verglichen. Das Ausgangsmodell, welches i.A. mehrere Modellparameter enthält, wird als unrestringiertes Modell bezeichnet. Das Vergleichmodell, welches eine oder mehrere Restriktionen der Modellparameter beinhaltet, heißt restringiertes Modell. Kapitel 3 Mathematische Modellierung In diesem Kapitel geht es um die mathematische Modellierung von diskreten Response Variablen. Dazu wird das Binäre Logit Modell, das Multinomiale Logit Modell und das Kumulative Logit Modell für binär, nominal bzw. ordinal skalierte Response Variablen eingeführt. Anhand dieser Modelle ist es möglich, im späteren Verlauf dieser Arbeit den Challenger Datensatz zu analysieren. 3.1 Das Binäre Logit Modell Dieser Abschnitt orientiert sich in abgeänderter Notation an Cox [2] Seite 26f. und Falk [4] Seite 157f. Die einfachste Form der Logistischen Regressionsmodelle ist das Binäre Logit Modell. Betrachtet wird hier eine binär kodierte Response Variable mit den Ausprägungen 0 und 1. Der Zusammenhang zwischen dieser Zufallsvariablen und verschiedenen erklärenden Variablen soll durch ein Binäres Logistisches Modell dargestellt werden. Der Kerngedanke dieses Modells beruht auf der Idee der Odds. Dies führt auf die folgende Definition. Definition 3.1.1 (Odds) Sei Y eine 0-1 wertige Zufallsvariable. Dann wird das Verhältnis von P (Y = 1) zu P (Y = 0) als Odds (auch Chancenverhältnis oder Odds ratio) bezeichnet. Odds(Y1/0 ) = P (Y = 1) P (Y = 1) = ∈ (0, ∞) . 1 − P (Y = 1) P (Y = 0) (3.1.1) Damit kann nun der Ansatz des Binären Logistischen Modells formuliert werden. Definition 3.1.2 (Binäres Logit Modell) Sei Y eine diskrete Response Variable mit nur zwei Ausprägungen 0 oder 1. Seien X1 , . . . , Xk 9 Mathematische Modellierung 10 die erklärenden Variablen. Dann liefert das Binäre Logit Modell den Ansatz P (Y = 1 | x) = F α + xT β (3.1.2) für die bedingte Wahrscheinlichkeit von {Y = 1} gegeben X = x, wobei F die Logistische Verteilungsfunktion aus (2.1.2), xT = (x1 , . . . , xk ) der Einflussgrößenvektor und β = (β1 , . . . , βk )T der Parametervektor ist. Nun wird dieser Modellansatz mit Hilfe der Odds formuliert. Durch eine mathematische Umformulierung von (3.1.2) ⇔ exp α + xT β P (Y = 1 | x) = 1 + exp (α + xT β) P (Y = 1 | x) 1 + exp α + xT β = exp α + xT β ⇔ P (Y = 1 | x) + P (Y = 1 | x) exp α + xT β = exp α + xT β ⇔ P (Y = 1 | x) = exp α + xT β − P (Y = 1 | x) exp α + xT β ⇔ P (Y = 1 | x) = exp α + xT β 1 − P (Y = 1 | x) erhält man den äquivalenten Binären Logit Ansatz Odds Y1/0 = exp α + xT β , (3.1.3) bzw. durch eine Transformation der Odds die so genannten Logits (auch Log-Odds) Logit Y1/0 := ln Odds Y1/0 = α + xT β. (3.1.4) Bemerkung 3.1.3 Der Logit ist auch als Link-Funktion bekannt, da er eine Verbindung (link) zwischen der binären Response Variablen und dem linearen Regressionsausdruck auf der rechten Seite der Gleichung (3.1.4) herstellt. Häufig versteht man unter (3.1.4) das Binäre Logit Modell. Bemerkung 3.1.4 Die bedingte Wahrscheinlichkeit von {Y = 0} gegeben X = x folgt direkt aus (3.1.3) und (3.1.2), denn P (Y = 0 | x) = = F α + xT β exp (α + xT β) 1 . 1 + exp (α + xT β) (3.1.5) Mathematische Modellierung 11 Die unbekannten Parameter α, β = (β1 , . . . , βk )T werden i.A. anhand des Maximum Likelihood Verfahrens auf iterativem Wege geschätzt. Diese geben an wie sich der Logit verändert, wenn sich die erklärenden Variablen um eine Einheit erhöhen. Leichter zu interpretieren ist allerdings der Effektkoeffizient exp (βj ) für j = 1, . . . , k. Der Effektkoeffizient gibt an, um welchen Faktor sich die Odds verändern, wenn sich die unabhängige Variable um eine Einheit erhöht. Ist der Wert des Effektkoeffizienten größer als 1, so erhöhen sich die Chancen, dass die Variable Y den Wert 1 annimmt, andernfalls verringern sie sich. 3.2 Das Multinomiale Logit Modell In diesem Abschnitt wird das Binäre Logistische Modell auf eine Response Variable mit mehr als zwei ungeordneten Ausprägungen erweitert. Im Wesentlichen nimmt dieser Abschnitt Bezug auf McCullagh [8] Seite 105f. und Cox [2] Seite 153ff. Bemerkung 3.2.1 Sei Y eine nominal skalierte Variable mit den ungeordneten Ausprägungen 0, . . . , J. Dann lässt sich der Begriff der Odds aus (3.1.1) auf beliebige Wahrscheinlichkeiten übertragen. P (Y = a) . Odds Ya/b = P (Y = b) (3.2.1) Um Odds vergleichen zu können, wird eine so genannte Referenzkategorie benannt. Häufig ist dies die letzte Kategorie J. Damit ergeben sich J nicht-redundante Odds aus denen man die übrigen Odds herleiten kann, da gilt Odds Ya/b = = = P (Y = a) P (Y = b) P (Y = a) P (Y = J) P (Y = J) P (Y = b) Odds Ya/J . Odds Yb/J Definition 3.2.2 (Multinomiale Logit Modell) Sei Y eine diskrete Response Variable mit einem nominalen Skalenniveau. Die Variable nehme die ungeordneten Kategorien 0, . . . , J an. Seien weiterhin X1 , . . . , Xk die erklärenden Variablen. Sei xT eine Ausprägung von X T = (X1 , . . . , Xk ). Dann wird exp αj + xT βj P (Y = j | x) = , P Tβ ) 1 + J−1 exp (α + x j j i=0 j = 0, . . . , J − 1 (3.2.2) Mathematische Modellierung 12 als Multinomialer Logit Ansatz bezeichnet. Die Beziehung (3.2.2) folgt direkt aus Odds Yj/J = exp αj + xT βj , j = 0...,J − 1 (3.2.3) bzw. aus Logit Yj/J = ln Odds Yj/J = αj + xT βj , j = 0 . . . , J − 1. (3.2.4) Dies wird verifiziert durch P (Y = j | x) = exp αj + xT βj P (Y = J | x) exp αj + xT βj P (Y = j | x) = PJ P (Y = J | x) i=0 P (Y = i | x) ⇔ ⇔ ⇔ P (Y = j | x) = exp αj + xT βj P (Y =0|x) P (Y =J|x) + ... + P (Y =J|x) P (Y =J|x) exp αj + xT βj . P (Y = j | x) = P T 1 + J−1 i=0 exp (αi + x βi ) Bemerkung 3.2.3 Die bedingte Wahrscheinlichkeit für das Eintreten der Referenzkategorie J gegeben X = x ergibt sich direkt aus (3.2.2), da gilt: P (Y = J | x) = 1 − J−1 X P (Y = j | x) j=0 = 1− J−1 X j=0 = = exp αj + xT βj P T 1 + J−1 i=0 exp (αi + x βi ) 1+ PJ−1 1+ PJ−1 i=0 P T exp αi + xT βi − J−1 j=0 exp αj + x βj P T 1 + J−1 i=0 exp (αi + x βi ) 1 i=0 exp (αi + xT βi ) . (3.2.5) Die Wahl der Referenzkategorie ist beliebig, da aus den J geschätzten Logits alle beliebigen Logits aufgrund der Beziehung Logit Ya/b = Logit Ya/J − Logit Yb/J (3.2.6) Mathematische Modellierung 13 erzeugt werden können. Die Schätzung der Regressionsparameter erfolgt, wie im Binären Logistischen Modell, mithilfe der Maximum Likelihood Methode. 3.3 Das Kumulative Logit Modell Eine Erweiterung des Verfahrens der Binären Logistischen Regression auf eine ordinale Response Variable mit mehr als zwei geordneten Ausprägungen ist das Kumulative Logit Modell. Dabei wird die Information der Ordnung innerhalb der Ausprägungen in das Modell einbezogen (vgl. Cox [2] Seite 158ff.). Definition 3.3.1 (Kumulative Odds) Sei Y eine ordinal skalierte Variable mit den Kategorien 0, . . . , J. Dann wird das Verhältnis von P (Y ≤ j) zu P (Y > j) als kumulative Odds bezeichnet. Odds(Y0,...,j/j+1,...,J ) = P (Y ≤ j) P (Y ≤ j) = , j = 0, . . . , J − 1 . 1 − P (Y ≤ j) P (Y > j) (3.3.1) Definition 3.3.2 (Kumulative Logit Modell) Sei Y eine diskrete Response Variable mit einem ordinalen Skalenniveau. Die Response Variable nehme die geordneten Kategorien 0, . . . , J mit Referenzkategorie J an. Seien weiterhin X1 , . . . , Xk die erklärenden Variablen und sei xT eine Ausprägung von X T = (X1 , . . . , Xk ). F sei die logistische Verteilungsfunktion aus (2.1.2). Dann wird das Kumulative Logit Modell (auch proportional odds model) durch P (Y ≤ j | x) = F αj + xT β , j = 0, . . . , J − 1 (3.3.2) definiert, wobei für die kumulativen Wahrscheinlichkeiten die Bedingung P (Y ≤ j | x) = P (Y = 0 | x) + · · · + P (Y = j | x) vorausgesetzt wird. Für die bedingte Wahrscheinlichkeit, genau eine der Kategorien 0, . . . , J zu treffen, ergibt sich T j=0 F αj + x β P (Y = j | x) = F αj + xT β − F αj−1 + xT β 0 < j < J. 1−F α T j=J j−1 + x β (3.3.3) Mathematische Modellierung 14 Analog zu (3.1.2) lässt sich (3.3.2) mithilfe der kumulativen Odds umformulieren: exp αj + xT β P (Y ≤ j | x) = 1 + exp (αj + xT β) ⇔ P (Y ≤ j | x) 1 + exp αj + xT β = exp αj + xT β ⇔ P (Y ≤ j | x) + P (Y ≤ j | x) exp αj + xT β = exp αj + xT β ⇔ P (Y ≤ j | x) = exp αj + xT β − P (Y ≤ j | x) exp αj + xT β ⇔ P (Y ≤ j | x) = exp αj + xT β . 1 − P (Y ≤ j | x) Damit erhält man für j = 0, . . . , J − 1 den kumulativen Logit Ansatz Odds(Y0,...,j/j+1,...,J ) = exp αj + xT β . (3.3.4) Wird die streng monotone Transformation des Logarithmus auf die kumulativen Odds (3.3.4) angewendet, dann ergeben sich die kumulativen Logits Logit Y0,...,j/j+1,...,J = ln Odds Y0,...,j/j+1,...,J = αj + xT β. (3.3.5) Es werden nun die Parameter α0 , . . . , αJ−1 , β T = (β1 , . . . , βk ) aus den J Einzelgleichungen Logit Y0/1,...,J = α0 + xT β .. . Logit Y0,...,J−1/J = αJ−1 + xT β (3.3.6) simultan anhand des Maximum Likelihood Verfahrens geschätzt. Jeder kumulative Logit besitzt eine individuelle Konstante αj . Für j = 0, . . . , J − 1 besitzen diese kumulativen Logits die Form eines binären Logits, bei dem die Kategorien 0, . . . , j zu einer Kategorie und die Kategorien j + 1, . . . , J zu einer anderen Kategorie zusammengefasst werden. Kapitel 4 Praktische Analyse mit SAS In diesem Kapitel liegt der Schwerpunkt in der Anwendung der vorgestellten Logit Modelle auf den Challenger Datensatz. Ziel ist es, zum Einem mithilfe der Logit Modelle statistische Beweise für einen Temperatureffekt bei der Zuverlässigkeit der O-Ringe zu erbringen. Zum Anderem wird damit eine wahrscheinlichkeitstheoretische Risikoeinschätzung für das katastrophale Versagen mindestens eines bzw. mehr als eines (primären)O-Ringes bei den Startbedingungen der Challenger erstellt. 4.1 Technische Aspekte der Challenger Für das bessere Verständnis der Modellierung des Datensatzes wird kurz auf einige Technische Aspekte im Aufbau der Challenger eingegangen. Das Space Shuttle besteht aus vier Teilsystemen (vgl. Abbildung 4.1): • Teilsystem 1 : Bereich für die Crew und die Steuerung des Systems • Teilsystem 2 : externer flüssiger Brennstofftank • Teilsystem 3 und 4 : Raketentriebwerke Die Ursache der Katastrophe lag in den Teilsystemen 3 und 4, weshalb hier schwerpunktmäßig auf diese eingegangen wird. Jedes der beiden Raketentriebwerke besteht aus vier Teilen, die durch so genannte Field Joints verbunden sind. Diese sind in Abbildung 4.1 durch Pfeile markiert. Zur Abdichtung dieser Verbindungen werden O-Ringe genutzt. 15 Praktische Analyse mit SAS 16 Diese O-Ringe werden redundant eingesetzt und als primärer und sekundärer O-Ring bezeichnet. Es gibt somit insgesamt sechs Field Joints bzw. sechs primäre und sekundäre O-Ringe. Es können zwei Arten von thermischen Problemen auftreten, die den Ausfall eines O-Ringes zur Folge haben: Erosion oder Blow-By. Erosion wird zurückgeführt auf übermäßige Hitze unter den O-Ringen. Blow-Bys treten auf, wenn heiße Gase am O-Ring vorbeiströmen. Für eine ausführlichere technische Beschreibung sei auf den Bericht von Dalal, Fowlkes und Hoadley [3] Seite 946ff. verwiesen. Aus technischer Sicht führen die folgenden vier Ereignisse zu einem Totalausfall der Feldverbindung (Field Joints): • A: Erosion des primären O-Ringes • B: primärer O-Ring Blow-By • C: Erosion des sekundären O-Ringes • D: Ausfall des sekundären O-Ringes Im Folgenden wird das Ereignis A ∪ B modelliert. Dies entspricht dem Ausfall mindestens eines primären O-Ringes. Abbildung 4.1: Space Shuttle: Orbiter, externer Brennstofftank, Raketentriebwerke, Field Joints Quelle: Bericht von Dalal, Fowlkes und Hoadley [3] Seite 950 Praktische Analyse mit SAS 17 Die nachfolgenden mathematischen Analysen erfolgen mittels des Statistikprogramms SAS. SAS stellt die Prozedur proc logistic zur Verfügung, mit deren Hilfe der Challenger Datensatz analysiert werden kann (vgl. SAS Dokumentation [11], Kapitel SAS Procedures). Die vollständigen Schätzergebnisse sind für das Binäre Logit Modell im Anhang A und für das Kumulative Logit Modell im Anhang B dargestellt. 4.2 Die Challenger Daten als binär kodierter Datensatz In diesem Abschnitt wird das Binäre Logistische Modell auf den Challenger Datensatz angewendet. Dieser Datensatz wird mittels einer binären Response Variablen Y kodiert. Die Response Variable gibt die Zuverlässigkeit der primären O-Ringe an und besitzt nur die zwei Kategorien: Versagen mindestens eines O-Ringes“ bzw. ordnungsgemäße Funktion“. Also ist ” ” Y gegeben durch ( 1 Versagen mindestens eines O-Ringes Y = . (4.2.1) 0 ordnungsgemäße Funktion Zunächst wird ein Binäres Logit Modell mit nur einem Einflussfaktor betrachtet. Es soll der Einfluss der Außentemperatur“ X auf die Zuverlässigkeit der primären O-Ringe“ ” ” Y untersucht werden. Später wird der Einfluss des Luftdrucks“ auf die Variable Y das ” Modell erweitern. Sei nun π (x) = P (Y = 1 | X = x) (4.2.2) die Wahrscheinlichkeit, dass mindestens ein primärer O-Ring ausfällt unter der gegebenen Realisierung der erklärenden Variablen X = x. Mit (3.1.4) sieht das zugrunde liegende Binäre Logistische Modell wie folgt aus ln π (x) = α + βx. 1 − π (x) (4.2.3) Nach (3.1.2) und (3.1.5) ergeben sich die bedingten Wahrscheinlichkeiten für den Ausfall ” mindestens eines O-Ringes“ bzw. für die ordnungsgemäße Funktion“: ” exp (α + βx) π (x) = , (4.2.4) 1 + exp (α + βx) 1 − π (x) = 1 . 1 + exp (α + βx) (4.2.5) Praktische Analyse mit SAS 18 Der Challenger Datensatz beinhaltet 23 Beobachtungen vor der Katastrophe. Also werden nun 23 unabhängige Wiederholungen Y1 , . . . , Y23 der 0-1 wertigen Zufallsvariable Y betrachtet, wobei Yi Flug i repräsentiert. Sei xi die entsprechende Außentemperatur in ” ◦ F“ zum Zeitpunkt des Starts von Flug i. Nützlich für weitere Überlegungen ist die Beziehung P (Y = y | x) = exp [(α + βx) y − ln (1 + exp (α + βx))] , y ∈ {0, 1} . (4.2.6) Dies wird verifiziert durch P (Y = 1 | x) = exp [α + βx − ln (1 + exp (α + βx))] = exp (α + βx) exp [− ln (1 + exp (α + βx))] = exp (α + βx) (1 + exp (α + βx))−1 = exp (α + βx) 1 + exp (α + βx) = π (x) und P (Y = 0 | x) = exp [− ln (1 + exp (α + βx))] = 1 1 + exp (α + βx) = 1 − π (x) . Seien nun y1 , . . . , y23 Realisierungen der unabhängigen Wiederholungen Y1 , . . . , Y23 der Zufallsvariablen Y . Aufgrund der Unabhängigkeit ergibt sich für die Likelihood-Funktion die Darstellung L (x, (α, β)) = 23 Y i=1 P (Yi = yi | xi ) , yi ∈ {0, 1} (4.2.7) Praktische Analyse mit SAS 19 bzw. für die Loglikelihood-Funktion l (x, (α, β)) = ln L (x, (α, β)) = ln 23 Y P (Yi = yi | xi ) i=1 23 X = ln P (Yi = yi | xi ) i=1 23 X = ln [exp ((α + βxi ) yi − ln (1 + exp (α + βxi )))] i=1 23 X = (α + βxi ) yi − ln (1 + exp (α + βxi )) . (4.2.8) i=1 Da die Hessematrix der Loglikelihood-Funktion negativ definit ist, ist die LoglikelihoodFunktion strikt konkav und die Lösung der Score Gleichung immer eindeutig. Aufgrund der Stetigkeit von l (x, (α, β)) existiert ein Maximum. Der Gradient der LoglikelihoodFunktion l (x, (α, β)) besitzt die Darstellung ∇l (x, (α, β)) = ∂ ∂α l (x, (α, β)) ∂ ∂β l (x, (α, β)) ! P 23 1 y − exp (α + βx ) i i=1 i 1+exp(α+βxi ) = P23 1 x y − exp (α + βx ) x i i i i i=1 1+exp(α+βxi ) ! y − π (x ) i i=1 i P23 i=1 xi yi − xi π (xi ) ! y1 − π (x1 ) . 1 ··· 1 .. x1 · · · x23 y23 − π (x23 ) P23 = = wobei y = Der gesuchte = X T (y − π (x)) , y1 π (x1 ) 1 x1 . . .. . und X = .. .. .. . , π (x) = y23 π (x23 ) 1 x23 Maximum Likelihood Schätzer α b, βb ist Lösung ∇l (x, (α, β)) = X T (y − π (x)) = 0. . der Gleichung (4.2.9) Praktische Analyse mit SAS 20 Da man diese Gleichung i.A. nur auf numerischem Wege lösen kann, kommt hier das Statistik Programm SAS zum Einsatz. Mithilfe der Prozedur proc logistic erhält man nach Tabelle A.1 den Maximum Likelihood Schätzer α b, βb = (15.0429, −0.2322) . (4.2.10) Für das Niveau α = 10% bestimmt SAS die 90% Konfidenzintervalle mithilfe der Formel i h (4.2.11) βb − sβbz1− α2 , βb + sβbz1− α2 mit der Standardabweichung sβb und dem z-score z1− α2 der Standardnormalverteilung. In diesem Zusammenhang ergeben sich die entsprechenden 90% Konfidenzintervalle α b± 12.1367 und βb ± 0.1781. Für den Signifikanztest auf die erklärende Variable Außentemperatur in ◦ F“ liegt der ” p-Wert bei 0.0320. Damit ist die Variable signifikant auf einem Niveau von 10%. Zur Überprüfung der Modellgüte bietet sich der Likelihood-Quotienten-Test an. Dieser wurde bereits in Kapitel 2 eingeführt. Er prüft die Nullhypothese, dass alle Koeffizienten der erklärenden Variablen gleich Null sind. Dies vergleicht die Devianz des vollständigen Modells mit dem Wert des Modells, das nur den konstanten Term enthält (Null-Modell). Ist diese Differenz klein, tragen die unabhängigen Variablen nur wenig zur Erklärung der abhängigen Variablen bei. Ist diese Differenz groß, kann von einer guten Anpassung ausgegangen werden. Im betrachteten Fall ist der Wert der Teststatistik gleich 7.9520 mit einem Freiheitsgrad, was einen p-Wert von 0.0048 ergibt. Dieser unterschreitet α. Somit kann Nullhypothese, dass βb = 0 ist, auf dem 10% -Niveau abgelehnt werden. Das Ergebnis deutet darauf hin, dass das geschätzte Modell angemessen ist. Dieses Binäre Logit Modell mit nur einer erklärenden Variablen lässt sich einfach auf ein Binäres Logit Modell mit mehreren erklärenden Variablen erweitern. Nimmt man beispielsweise zusätzlich die Einflussgröße Luftdruck in psi“ als erklärende Variable mit auf, ” so hat das zugrunde liegende Logit Modell die Form ln π (x1 , x2 ) = α + β1 x1 + β2 x2 . 1 − π (x1 , x2 ) (4.2.12) Dabei ist π (x1 , x2 ) = P (Y = 1 | X1 = x1 , X2 = x2 ) die Wahrscheinlichkeit, dass mindestens ein primärer O-Ring ausfällt unter der gegebenen Realisierung von X1 = x1 und X2 = x2 , wobei X1 die Außentemperatur in ◦ F“ und X2 der Luftdruck in psi“ ist. Eine ” ” analoge Rechnung mit SAS ergibt den Maximum Likelihood Schätzer α b, βb1 , βb2 = (13.2923, −0.2287, 0.0104) (4.2.13) Praktische Analyse mit SAS 21 mit den entsprechenden 90% Konfidenzintervallen α b ±12.6061, βb1 ±0.1809 und βb2 ±0.0148. Für den Signifikanztest auf die Variable Luftdruck in psi“ liegt der p-Wert bei 0.2468 ” und überschreitet somit α. Damit ist die Variable Luftdruck in psi“ insignifikant. In ” diesem Zusammenhang ist der Temperatureffekt die wichtigere erklärende Variable auf die Zuverlässigkeit der primären O-Ringe, wobei der Luftdruck nur geringe Auswirkungen hat. Der Druckeffekt ist somit vernachlässigbar. 4.3 Die Challenger Daten als ordinal kodierter Datensatz In diesem Abschnitt wird das Kumulative Logit Modell auf den Challenger Datensatz angewendet. Erneuter Ausgangspunkt ist der Challenger Datensatz aus Tabelle 1.1. Im Gegensatz zur vorangegangenen Analyse werden diesmal die Ausfalldaten in drei Kategorien eingeteilt, d.h. Y = 0 ordnungsgemäße Funktion . 1 Versagen eines O-Rings 2 Versagen von mehr als einem O-Ring (4.3.1) Die letzte Kategorie bildet die Referenzkategorie. Ausgehend von der Einflussgröße Au” ßentemperatur in ◦ F“ ergeben sich mittels (3.3.5) die beiden kumulativen Logits P (Y ≤ 0 | x) = α0 + βx Logit Y0/1,2 = ln P (Y > 0 | x) P (Y ≤ 1 | x) Logit Y0,1/2 = ln = α1 + βx P (Y > 1 | x) (4.3.2) und die entsprechenden bedingten kumulativen Wahrscheinlichkeiten P (Y ≤ 0 | x) = F (α0 + βx) P (Y ≤ 1 | x) = F (α1 + βx) . (4.3.3) Die bedingte Wahrscheinlichkeit, genau eine der drei Kategorien zu treffen, gegeben X = x ist nach (3.3.3) P (Y = 0 | x) = F (α0 + βx) P (Y = 1 | x) = F (α1 + βx) − F (α0 + βx) P (Y = 2 | x) = 1 − F (α1 + βx) . (4.3.4) Praktische Analyse mit SAS 22 Erneut werden 23 unabhängige Wiederholungen Y1 , . . . , Y23 der ordinal skalierten Zufallsvariablen Y betrachtet, wobei Yi Flug i repräsentiert. Sei xi die entsprechende Außentemperatur in ◦ F zum Zeitpunkt des Starts von Flug i. Aufgrund der Unabhängigkeitsannahme der Beobachtungen der einzelnen Flüge, lässt sich die Likelihood-Funktion wie folgt aufstellen L (x, (α0 , α1 , β)) = 23 Y P (Yi = yi | xi ) . (4.3.5) i=1 Da x 7→ ln (x) eine monoton steigende Transformation ist, genügt es die LoglikelihoodFunktion zu maximieren. l (x, (α0 , α1 , β)) = ln L (x, (α0 , α1 , β)) = ln 23 Y P (Yi = yi | xi ) i=1 = 23 X ln P (Yi = yi | xi ) i=1 = 16 X ln P (Yi = 0 | xi ) + i=1 = 16 X = i=1 ln P (Yi = 1 | xi ) + i=17 ln F (α0 + βxi ) + i=1 16 X 21 X 21 X 23 X ln P (Yi = 2 | xi ) i=22 ln [F (α1 + βxi ) − F (α0 + βxi )] + i=17 23 X ln [1 − F (α0 + βxi )] i=22 21 X exp (α1 + βxi ) exp (α0 + βxi ) exp (α0 + βxi ) ln + − ln 1 + exp (α0 + βxi ) 1 + exp (α1 + βxi ) 1 + exp (α0 + βxi ) 23 X + ln 1 − i=22 i=17 exp (α1 + βxi ) . 1 + exp (α1 + βxi ) (4.3.6) Aufgrund der strikten Konkavität und der Stetigkeit der Loglikelihood-Funktion existiert ein eindeutig bestimmtes Maximum. Der Maximum Likelihood Schätzer ist Lösung der Scoregleichung ∇l (x, (α0 , α1 , β)) = 0. (4.3.7) Diese Gleichung ist i.A. nur auf numerischem Wege lösbar. Mit der Hilfe von SAS ist die Lösung dieser Gleichung in Tabelle B.1 dargestellt. Damit ist der Maximum Likelihood Schätzer gegeben durch: α b0 , α b1 , βb = (−13.5151, −11.3462, 0.2112) (4.3.8) Praktische Analyse mit SAS 23 Für die geschätzten Parameter betragen die 90% Konfidenzintervalle α b0 ± 9.7181, α b1 ± b 9.1325 und β ± 0.1439. Auch hier kann das Kumulative Logit Modell mit nur einer erklärenden Variablen leicht auf ein Kumulatives Logit Modell mit mehreren erklärenden Variablen erweitert werden. Es wird als zusätzliche Einflussgröße wieder Luftdruck in psi“ betrachtet. Damit ergibt ” sich ein Kumulatives Logit Modell mit den beiden kumulativen Logits Logit Y0/1,2 = α0 + β1 x1 + β2 x2 Logit Y0,1/2 = α1 + β1 x1 + β2 x2 (4.3.9) wobei X1 = Temperatur in ◦ F“, X2 = Luftdruck in psi“. Eine analoge Rechnung mit ” ” SAS ergibt α b0 , α b1 , βb1 , βb2 = (−10.8886, −8.5769, 0.1928, −0.0092) (4.3.10) mit den entsprechenden 90% Konfidenzintervallen α b0 ± 9.8455,b α1 ± 9.2687, βb1 ± 0.1377 und βb2 ± 0.0145. Im Falle des Kumulativen Logit Modells bestätigen die Ergebnisse der Logit Analyse die Insignifikanz der Variablen Luftdruck in psi“ auf einem Niveau von 10%. Erneut wird die ” Variable Luftdruck in psi“ elemieniert, so dass nur noch das Kumulative Logit Modell ” mit der erklärenden Variablen Außentemperatur in ◦ F“ betrachtet wird. Die Prüfung ” der Modellgüte wird mit dem Likelihood-Quotienten-Test untersucht. Der Wert der Teststatistik liegt bei 7.9308 mit einem Freiheitsgrad, was einen p-Wert von 0.0049 ergibt. Die Nullhypothese, dass alle Koeffizienten gleich Null sind, wird mit einem p-Wert von 0.0049 abgelehnt. Mit diesem Ergebnis kann davon ausgegangen werden, dass das Modell angemessen ist. Kapitel 5 Ergebnis Durchgeführt wurde eine statistische Analyse der Challenger Daten mithilfe der SAS Prozedur proc logistic. Im Folgenden sollen die Resultate kurz diskutiert werden. Die Schätzergebnisse des Binären Logistischen Modells sind in Anhang A dargestellt, die des Kumulativen Logistischen Modells in Anhang B. Wird der Datensatz mittels einer binären Response Variablen kodiert, zeigen die Tabellen A.1, A.2 und die in Kapitel 4 durchgeführten Tests, lediglich die Signifikanz der erklärenden Variablen Außentemperatur in ◦ F“. In diesem Zusammenhang ist der Temperatureffekt ” die wichtigere erklärende Variable auf die Zuverlässigkeit der primären O-Ringe, wobei der Luftdruck nur geringe Auswirkungen hat. Der Druckeffekt ist somit vernachlässigbar und es wird nur noch das Binäre Logit Modell mit der erklärenden Variablen Außentem” peratur in ◦ F“ betrachtet. Liegt dem Challenger Datensatz eine ordinal skalierte Response Variable zugrunde, zeigen die Tabellen B.1,B.2 und die vorangegangenen Tests aus Kapitel 4 ein ähnliches Resultat. Erneut ist die Variable Luftdruck in psi“ insignifikant, so dass das Kumulative Logit ” Modell mit nur der erklärenden Variablen Außentemperatur in ◦ F“ für den Challenger ” Datensatz angemessen ist. Betrachtet wird nun konkret der Flug 61-I, der die Challenger Katastrophe repräsentiert. Zum Zeitpunkt des Starts herrschte eine Außentemperatur von 31 ◦ F. Das ist die mit Abstand geringste Außentemperatur innerhalb des Datensatzes. Mithilfe der Schätzergebnisse für die Koeffizienten wird nun die geschätzte Ausfallwahrscheinlichkeit mindestens eines primären O-Ringes im Binären Logistischen Modell, bzw. die geschätzten Ausfallwahrscheinlichkeiten von genau einem primären O-Ring und von 24 Ergebnis 25 mehr als einem primären O-Ring im Kumulativen Logit Modell bestimmt. Die geschätzte Wahrscheinlichkeit für den Ausfall mindestens eines primären O-Rings, bei einer Außentemperatur von x = 31 ◦ F zum Startzeitpunkt der Challenger beträgt somit nach Tabelle A.3 b π b (31) = F α b + β(31) = 0.99961. (5.0.1) Eine Verschiebung des Startzeitpunkts der Challenger bis auf eine Außentemperatur von 70 ◦ F hätte diese Wahrscheinlichkeit auf 22.997% reduziert. Diese geschätzten Wahrscheinlichkeiten, mit den entsprechenden binären Logits, sind in den Abbildungen A.1 bzw. A.2 graphisch dargestellt. Die geschätzte Wahrscheinlichkeit, dass beim Challenger Unglück unter gegebener Außentemperatur zum Zeitpunkt des Starts, genau ein primärer O-Ring bzw. mehr als ein primärer O-Ring ausfällt, lässt sich mithilfe der geschätzten Parameter und (4.3.4) bestimmen. P (Y = 1 | 31) = F α b1 + βb (31) − F α b0 + βb (31) = 0.00724 P (Y = 2 | 31) = 1 − F α b1 + βb (31) = 0.99182 (5.0.2) Hätte man den Start bis zu einer Außentemperatur von 70◦ F verschoben, so betrügen diese Wahrscheinlichkeiten 18.791% bzw. 3.105%. Eine Übersicht dieser geschätzten Wahrscheinlichkeiten, sowie der kumulativen geschätzten Wahrscheinlichkeiten, für alle Flüge bildet Tabelle B.3. Zur Veranschaulichung sind diese in den Abbildungen B.1 und B.2 graphisch dargestellt. Beide Modelle bestätigen die Vermutung einer Korrelation zwischen der Zuverlässigkeit der primären O-Ringe und niedrigen Außentemperaturen. Das Risiko für das Versagen eines O-Ringes ist deutlich geringer bei wärmeren Außentemperaturen. Diese wichtige Information hätte wesentlich zum Startentscheidungsprozess der Challenger beitragen können. Eine Verschiebung des Starts bis zu einer wärmeren Außentemperatur hätte sehr wahrscheinlich das Challenger Unglück verhindert. Anhang A SAS Schätzergebnisse Binäres Logit Modell Tabelle A.1: Schätzergebnis Binäres Logit Modell mit erklärender Variable Außentempe” ratur in ◦ F“ Maximum Likelihood Schätzergebnisse Para- Freiheits- Schätzung Standard- meter grade Intercept α 1 Temperatur 1 Wald p > χ2 2 90% Wald Effekt- Konfidenzintervall koeffizient fehler χ 15.0429 7.3786 4.1563 0.0415 2.9061 27.1796 -0.2322 0.1082 4.6008 0.0320 -0.4102 -0.0541 0.793 Quelle: SAS proc logistic Tabelle A.2: Schätzergebnis Binäres Logit Modell mit erklärenden Variablen Außentem” peratur in ◦ F“ und Luftdruck in psi“ ” Maximum Likelihood Schätzergebnisse Para- Freiheits- Schätzung Standard- meter grade Wald p > χ2 2 fehler χ 90% Wald Effekt- Konfidenzintervall koeffizient Intercept α 1 13.2923 7.6640 3.0081 0.0828 0.6862 25.8984 Temperatur 1 -0.2287 0.1100 4.3224 0.0376 -0.4096 -0.0478 0.793 Luftdruck 1 0.0104 0.00898 1.3415 0.2468 -0.00437 0.0252 1.010 Quelle: SAS proc logistic 26 Anhang A: Schätzergebnisse Binäres Logit Modell Abbildung A.1: geschätzte Wahrscheinlichkeit, dass mindestens ein O-Ring ausfällt Quelle: SAS proc gplot Abbildung A.2: geschätzte Logits Quelle: SAS proc gplot 27 Anhang A: Schätzergebnisse Binäres Logit Modell 28 Tabelle A.3: geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärender Variable Außentemperatur in ◦ F“ ” π b (xi ) 1−π b (xi ) π b (xi ) 1−π b (xi ) 66 0.43049 0.56951 -0.27984 1 70 0.22997 0.77003 -120.849 0 69 0.27362 0.72638 -0.97633 5 0 68 0.32209 0.67791 -0.74416 6 0 67 0.37472 0.62528 -0.51200 7 0 72 0.15805 0.84195 -167.281 8 0 73 0.12955 0.87045 -190.497 Flug thermische Temperatur Probleme in ◦ F 1 0 2 3 ln 9 0 70 0.22997 0.77003 -120.849 41-B 1 57 0.85932 0.14068 180.962 41-C 1 63 0.60268 0.39732 0.41665 41-D 1 70 0.22997 0.77003 -120.849 41-G 0 78 0.04454 0.95546 -306.578 51-A 0 67 0.37472 0.62528 -0.51200 51-C 1 53 0.93925 0.06075 273.827 51-D 0 67 0.37472 0.62528 -0.51200 51-B 0 75 0.08554 0.91446 -236.930 51-G 0 70 0.22997 0.77003 -120.849 51-F 0 81 0.02270 0.97730 -376.227 51-I 0 76 0.06904 0.93096 -260.146 51-J 0 79 0.03564 0.96436 -329.795 61-A 1 75 0.08554 0.91446 -236.930 61-B 0 76 0.06904 0.93096 -260.146 61-C 1 58 0.82884 0.17116 157.746 61-I . 31 0.99961 0.00039 784.583 Quelle: SAS proc logistic Anhang A: Schätzergebnisse Binäres Logit Modell 29 Tabelle A.4: geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“ ” ” π b (xi ) 1−π b (xi ) π b (xi ) 1−π b (xi ) 50 0.21756 0.78244 -127.992 70 50 0.10024 0.89976 -219.460 69 50 0.12283 0.87717 -196.593 0 68 50 0.14966 0.85034 -173.726 6 0 67 50 0.18115 0.81885 -150.859 7 0 72 50 0.06587 0.93413 -265.194 8 0 73 100 0.08623 0.91377 -236.060 Flug thermische Temperatur Luftdruck Probleme in ◦ F in psi 1 0 66 2 1 3 0 5 ln 9 0 70 100 0.15781 0.84219 -167.459 41-B 1 57 200 0.91199 0.08801 233.814 41-C 1 63 200 0.72434 0.27566 0.96612 41-D 1 70 200 0.34647 0.65353 -0.63458 41-G 0 78 200 0.07842 0.92158 -246.394 51-A 0 67 200 0.51286 0.48714 0.05143 51-C 1 53 200 0.96277 0.03723 325.282 51-D 0 67 200 0.51286 0.48714 0.05143 51-B 0 75 200 0.14456 0.85544 -177.793 51-G 0 70 200 0.34647 0.65353 -0.63458 51-F 0 81 200 0.04109 0.95891 -314.995 51-I 0 76 200 0.11851 0.88149 -200.660 51-J 0 79 200 0.06341 0.93659 -269.261 61-A 1 75 200 0.14456 0.85544 -177.793 61-B 0 76 200 0.11851 0.88149 -200.660 61-C 1 58 200 0.89182 0.10818 210.947 61-I . 31 200 0.99975 0.00025 828.358 Quelle: SAS proc logistic Anhang B SAS Schätzergebnisse Kumulatives Logit Modell Tabelle B.1: Schätzergebnis Kumulatives Logit Modell mit erklärender Variable Außen” temperatur in ◦ F“ Maximum Likelihood Schätzergebnisse Para- Freiheits- Schätzung Standard- Wald p > χ2 2 90% Wald meter grade fehler χ Intercept α0 1 -13.5151 5.9082 5.2327 0.0222 -23.2332 -3.7970 Intercept α1 1 -11.3462 5.5522 4.1761 0.0410 -20.4787 -2.2137 Temperatur 1 0.2112 0.0875 5.8303 0.0158 0.0673 0.3551 Quelle: SAS proc logistic 30 Effekt- Konfidenzintervall koeffizient 1.2351 Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell 31 Tabelle B.2: Schätzergebnis Kumulatives Logit Modell mit erklärenden Variablen Außen” temperatur in ◦ F“ und Luftdruck in psi“ ” Maximum Likelihood Schätzergebnisse Para- Freiheits- Schätzung Standard- Wald p > χ2 2 90% Wald Effekt- Konfidenzintervall koeffizient fehler χ -10.8886 5.9857 3.3091 0.0689 -20.7341 -1.0430 -8.5769 5.6350 2.3168 0.1280 -17.8456 0.6918 1 0.1928 0.0837 5.3035 0.0213 0.0551 0.3305 1.2126 1 -0.00920 0.00879 1.0963 0.2951 -0.0237 0.00525 0.9908 meter grade Intercept α0 1 Intercept α1 1 Temperatur Luftdruck Quelle: SAS proc logistic Abbildung B.1: geschätzte Wahrscheinlichkeiten Kategorie i zu treffen, i = 0, 1, 2 Quelle: SAS proc gplot Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell Abbildung B.2: geschätzte kumulative Wahrscheinlichkeiten Quelle: SAS proc gplot 32 Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell 33 Tabelle B.3: geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit erklärender Variable Außentemperatur in ◦ F“ ” Flug Kategorie Temperatur P (Y = 2) P (Y = 1) P (Y = 0) P (Y ≤ 1) P (Y ≤ 0) in ◦ F 1 0 66 0.06942 0.32547 0.60511 0.93058 0.60511 2 1 70 0.03105 0.18791 0.78104 0.96895 0.78104 3 0 69 0.03807 0.21914 0.74279 0.96193 0.74279 5 0 68 0.04661 0.25297 0.70042 0.95339 0.70042 6 0 67 0.05695 0.28874 0.65431 0.94305 0.65431 7 0 72 0.02057 0.13465 0.84478 0.97943 0.84478 8 0 73 0.01672 0.11277 0.87051 0.98328 0.87051 9 0 70 0.03105 0.18791 0.78104 0.96895 0.78104 41-B 1 57 0.33303 0.48069 0.18628 0.66697 0.18628 41-C 1 63 0.12325 0.42829 0.44845 0.87675 0.44845 41-D 1 70 0.03105 0.18791 0.78104 0.96895 0.78104 41-G 0 78 0.00588 0.04331 0.95081 0.99412 0.95081 51-A 0 67 0.05695 0.28874 0.65431 0.94305 0.65431 51-C 2 53 0.53754 0.37293 0.08954 0.46246 0.08954 51-D 0 67 0.05695 0.28874 0.65431 0.94305 0.65431 51-B 0 75 0.01102 0.07781 0.91117 0.98898 0.91117 51-G 0 70 0.03105 0.18791 0.78104 0.96895 0.78104 51-F 0 81 0.00313 0.02359 0.97328 0.99687 0.97328 51-I 0 76 0.00894 0.06421 0.92684 0.99106 0.92684 51-J 0 79 0.00476 0.03543 0.95980 0.99524 0.95980 61-A 2 75 0.01102 0.07781 0.91117 0.98898 0.91117 61-B 0 76 0.00894 0.06421 0.92684 0.99106 0.92684 61-C 1 58 0.28787 0.49170 0.22044 0.71213 0.22044 61-I . 31 0.99182 0.00724 0.00094 0.00818 0.00094 Quelle: SAS proc logistic Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell 34 Tabelle B.4: geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“ ” ” Flug Kate- Temperatur Luftdruck P (Y = 2) P (Y = 1) P (Y = 0) P (Y ≤ 1) P (Y ≤ 0) gorie in ◦ F in psi 1 0 66 50 0.02439 0.17706 0.79855 0.97561 0.79855 2 1 70 50 0.01143 0.09304 0.89553 0.98857 0.89553 3 0 69 50 0.01383 0.11011 0.87607 0.98617 0.87607 5 0 68 50 0.01672 0.12971 0.85357 0.98328 0.85357 6 0 67 50 0.02020 0.15201 0.82779 0.97980 0.82779 7 0 72 50 0.00780 0.06570 0.92650 0.99220 0.92650 8 0 73 100 0.01017 0.08373 0.90610 0.98983 0.90610 9 0 70 100 0.01798 0.13799 0.84402 0.98202 0.84402 41-B 1 57 200 0.36046 0.49001 0.14954 0.63954 0.14954 41-C 1 63 200 0.15055 0.49083 0.35862 0.84945 0.35862 41-D 1 70 200 0.04394 0.27289 0.68317 0.95606 0.68317 41-G 0 78 200 0.00973 0.08049 0.90978 0.99027 0.90978 51-A 0 67 200 0.07575 0.37691 0.54734 0.92425 0.54734 51-C 2 53 200 0.54931 0.37550 0.07519 0.45069 0.07519 51-D 0 67 200 0.07575 0.37691 0.54734 0.92425 0.54734 51-B 0 75 200 0.01722 0.13305 0.84973 0.98278 0.84973 51-G 0 70 200 0.04394 0.27289 0.68317 0.95606 0.68317 51-F 0 81 200 0.00548 0.04720 0.94732 0.99452 0.94732 51-I 0 76 200 0.01425 0.11303 0.87272 0.98575 0.87272 51-J 0 79 200 0.00804 0.06756 0.92440 0.99196 0.92440 61-A 2 75 200 0.01722 0.13305 0.84973 0.98278 0.84973 61-B 0 76 200 0.01425 0.11303 0.87272 0.98575 0.87272 61-C 1 58 200 0.31730 0.50695 0.17575 0.68270 0.17575 61-I . 31 200 0.98834 0.01049 0.00117 0.01166 0.00117 Quelle: SAS proc logistic Literaturverzeichnis [1] BEHNEN, K. und NEUHAUS, G.(2003). Grundkurs Stochastik: Eine integriete Einführung in Wahrscheinlichkeitstheorie und Mathematische Statistik. 4. neubearb. u. erw. Aufl. Heidenau. [2] COX, D.R. und SNEll, E.J. (1989). Analysis of Binary Data 2. Aufl. New York. [3] DALAL, S. R., FOWLKES, E. B. und HOADLEY, B. (1989). Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure. in: Journal of the American Statistical Association. Vol. 84. No. 408. Seite 945-957. [4] FALK, M., BECKER, R. und MAROHN, F. (2004). Angewandte Statistik: Eine Einführung mit Programmbeispielen in SAS. Berlin. [5] FERGUSON, T.S. (1967). A Decision Theoretic Approach. New York. [6] FRANK, E. und HARRELL, Jr. (2001). Regression Modeling Strategies: with Applications to Linear Models, Logistic Regression and Survival Analysis. New York. [7] JANSSEN, A. (2006). Statistik I Düsseldorf. Heinrich-Heine-Universität Düsseldorf. Institut für Mathematische Statistik und Wahrscheinlichkeitstheorie. [8] McCULLAGH, P. und NELDER, J.A. (1983). Generalized Linear Models. London. [9] RÜSCHENDORF, L.(1995). Stochastik - eine interdisziplinäre Wissenschaft Teil I. Freiburg. Universität Freiburg. Institut für Mathematische Stochastik. [10] WITTING, H. und MÜLLER-FUNK, U. (1995). Mathematische Statistik II. B.G. Teubner, Stuttgart. [11] Homepage des SAS Institute Inc., USA.SAS OnlineDoc 9.1.3. http://support.sas.com/documentation/onlinedoc/sas9doc.html. Stand: 06.11.2006 35 Hiermit versichere ich, die Arbeit selbständig erstellt und keine anderen als die angegebenen Hilfsmittel benutzt zu haben. Stefanie Nentwig Düsseldorf, den 12. November 2006