Die Anwendung des Logit Modells auf die Daten der

Werbung
Die Anwendung des Logit Modells
auf die Daten der
Challenger-Katastrophe
Bachelorarbeit
Stefanie Nentwig
Mathematisches Institut
der
Heinrich-Heine-Universität Düsseldorf
Düsseldorf, im November 2006
Betreuung: Prof. Dr. Arnold Janssen
Inhaltsverzeichnis
Abbildungsverzeichnis
iii
Tabellenverzeichnis
iv
Symbol- und Abkürzungsverzeichnis
v
Einleitung
1
1 Problemstellung
3
2 Grundlagen
6
2.1
Die Logistische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2
Die Maximum Likelihood Methode . . . . . . . . . . . . . . . . . . . . . . .
7
2.3
Ein Test für die lineare Hypothese . . . . . . . . . . . . . . . . . . . . . . .
7
3 Mathematische Modellierung
9
9
3.1
Das Binäre Logit Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Das Multinomiale Logit Modell . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.3
Das Kumulative Logit Modell . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Praktische Analyse mit SAS
15
4.1
Technische Aspekte der Challenger . . . . . . . . . . . . . . . . . . . . . . . 15
4.2
Die Challenger Daten als binär kodierter Datensatz . . . . . . . . . . . . . . 17
4.3
Die Challenger Daten als ordinal kodierter Datensatz . . . . . . . . . . . . . 21
5 Ergebnis
24
A SAS Schätzergebnisse Binäres Logit Modell
26
i
Inhaltsverzeichnis
ii
B SAS Schätzergebnisse Kumulatives Logit Modell
30
Literaturverzeichnis
35
Abbildungsverzeichnis
1.1
Scatterplot der O-Ring Daten . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
Space Shuttle: Orbiter, externer Brennstofftank, Raketentriebwerke, Field
4
Joints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
A.1 geschätzte Wahrscheinlichkeit, dass mindestens ein O-Ring ausfällt . . . . . 27
A.2 geschätzte Logits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
B.1 geschätzte Wahrscheinlichkeiten Kategorie i zu treffen, i = 0, 1, 2 . . . . . . 31
B.2 geschätzte kumulative Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . 32
iii
Tabellenverzeichnis
1.1
Challenger Datensatz: thermische Probleme bei O-Ringen . . . . . . . . . .
5
A.1 Schätzergebnis Binäres Logit Modell mit erklärender Variable Außentem”
peratur in ◦ F“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
A.2 Schätzergebnis Binäres Logit Modell mit erklärenden Variablen Außen”
temperatur in ◦ F“ und Luftdruck in psi“ . . . . . . . . . . . . . . . . . . . 26
”
A.3 geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärender Variable Außentemperatur in ◦ F“ . . . . . . . . . . . . . . . . . 28
”
A.4 geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“ . . . 29
”
”
B.1 Schätzergebnis Kumulatives Logit Modell mit erklärender Variable Außen”
temperatur in ◦ F“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
B.2 Schätzergebnis Kumulatives Logit Modell mit erklärenden Variablen Au”
ßentemperatur in ◦ F“ und Luftdruck in psi“ . . . . . . . . . . . . . . . . . 31
”
B.3 geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit
erklärender Variable Außentemperatur in ◦ F“ . . . . . . . . . . . . . . . . 33
”
B.4 geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit
erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“ . . 34
”
”
iv
Symbol- und
Abkürzungsverzeichnis
Im Folgenden werden im Rahmen dieser Arbeit verwendete Symbole und Abkürzungen
aufgelistet und erklärt.
Abkürzungen
bzw.
beziehungsweise
d.h.
das heißt
f./ ff.
folgende/fortfolgende
i.A.
im Allgemeinen
NASA
National Aeronautics and Space Administration
psi
pound pro square inch
SAS
Statistical Analysis System
usw.
und so weiter
vgl.
vergleiche
◦C
Grad Celsius
◦F
Grad Fahrenheit
Symbole
dϑ
dµ
Dichte von ϑ bzgl. µ
(Θ, Ω)
Messraum
v
Symbol- und Abkürzungsverzeichnis
∇
Differentiation nach Parameter
Θ
Parameterraum
A∪B
Vereinigung der Ereignisse A und B
F
Link-Funktion, später Logistische Verteilungsfunktion
Lo(α, β)
Logistische Verteilung mit den Parametern α und β
P ,Pϑ
Wahrscheinlichkeitsmaß, zum Parameter ϑ
P (Y | X = x) bedingte Wahrscheinlichkeit gegeben X = x
X
Einflussfaktor, erklärende Variable
Y
Response Variable, abhängige Variable
vi
Einleitung
Am 28. Januar 1986 explodierte die amerikanische Raumfähre Challenger mit sieben Astronauten an Bord. Die Ursache der Katastrophe waren Materialermüdungserscheinungen an
Dichtungsringen, den so genannten O-Ringen, an den beiden Raketentriebwerken. Von
diesen O-Ringen besitzen die beiden Raketentriebwerke insgesamt sechs Stück. Zum Zeitpunkt des Starts herrschte eine extrem niedrige Außentemperatur von 31 ◦ F (ca. 0 ◦ C).
Es stellt sich nun die Frage, ob diese niedrige Außentemperatur einen Einfluss auf die
Zuverlässigkeit der O-Ringe hat oder nicht. Die Antwort darauf wird diese Arbeit geben.
In diesem Zusammenhang wird die abhängige Variable (Response Variable) Y Zuverlässig”
keit der O-Ringe“ untersucht. Diese so genannte Response Variable hat eine diskrete Ausprägung. Im einfachsten Fall ist dies eine binäre Variable, d.h. sie nimmt nur die Werte 0
oder 1 an. Beispielsweise könnte man den Ausfall mindestens eines O-Ringes“ mit 1 bzw.
”
ordnungsgemäße Funktion“ mit 0 kodieren. Es besteht allerdings die Möglichkeit, dass
”
die Response Variable mehr als zwei Kategorien aufweist. Hierbei wird zwischen einer
ordinal skalierten Variablen und einer nominal skalierten Variablen unterschieden. Eine
Variable heißt ordinal skaliert, wenn sich ihre verschiedenen möglichen Ausprägungen in
eine natürliche Reihenfolge bringen lassen ( kein O-Ring Ausfall“, Ausfall eines O-Rings“,
”
”
Ausfall von mehr als einem O-Ring“). Die Unterschiede zwischen den Ausprägungen sind
”
dabei aber nicht messbar. Nominal skaliert nennt man eine Variable, wenn sich ihre möglichen Ausprägungen zwar unterscheiden, nicht aber in eine Rangfolge gebracht werden
können.
Es ist problematisch einen linearen Zusammenhang zwischen dieser diskreten Response
Variablen Y und einem Einflussfaktor X (z.B. Außentemperatur“, Luftdruck“ usw.) an”
”
hand einer linearen Regressionsanalyse darzustellen, da im linearen Regressionsmodell die
Response Variable metrisch skaliert ist und theoretisch alle Ausprägungen von −∞ bis ∞
realisieren kann. Darüber hinaus sind wesentliche Anwendungsvoraussetzungen, wie die
1
Einleitung
2
Normalverteilung der Residuen und die Varianzhomogenität, für das Verfahren der linearen Regressionsanalyse mittels kleinste Quadrate Schätzung nicht gegeben. Abhilfe schafft
die Logistische Regression. Es wird das Modell
Y = F (X)
(0.0.1)
betrachtet, mit der Response Variablen Y , dem Einflussfaktor X und der Link-Funktion
F . Diese Link-Funktion wird in Kapitel 3 eingeführt und erklärt. Im Gegensatz zur linearen Regression wird nicht die konkrete Ausprägung von Y vorhergesagt, sondern die
Wahrscheinlichkeit für das Auftreten einer konkreten Ausprägung von Y . Die Logistische
Regression beschreibt die Wahrscheinlichkeit eines Ereignisses durch ein Regressionsmodell.
Das Ziel dieser Arbeit ist es, anhand des Challenger Datensatzes aus Tabelle 1.1 die Korrelation zwischen der Zuverlässigkeit der O-Ringe und niedrigen Temperaturen mit statistischen Beweisen zu belegen. Es wird auch der Einfluss des Faktors Luftdruck“ auf die
”
Zuverlässigkeit der O-Ringe untersucht. Außerdem wird eine wahrscheinlichkeitstheoretische Risikoeinschätzung für das Versagen mindestens eines bzw. mehr als eines (primären)
O-Ringes bei den Startbedingungen der Challenger erstellt.
Kapitel 1 beschreibt die Problemstellung.
Das folgende Kapitel 2 stellt die wesentlichen mathematischen Grundlagen dar.
In Kapitel 3 wird das Binäre Logit Modell, das Multinomiale Logit Modell sowie das
Kumulative Logit Modell eingeführt und die mathematische Modellierung von diskreten
Variablen anhand dieser Modelle vorgestellt.
Anschließend erfolgt in Kapitel 4 die praktische Analyse des Challenger Datensatzes durch
das entsprechende zugrunde liegende Logit Modell mithilfe des Statistikprogramms Sta”
tistical Analysis System“(SAS).
In Kapitel 5 werden die Ergebnisse zusammengefasst und interpretiert.
Kapitel 1
Problemstellung
Raten ist billig.
”
Falsch Raten ist teuer.“
(Chinesisches Sprichwort, lange vor unserer Zeit)
Im Zentrum dieser Arbeit steht die Analyse des Challenger Datensatzes, ein Beispiel für
binär bzw. ordinal kodierte Daten. Im Vorfeld der Challenger Katastrophe trat damals ein
verheerender Fehler in der mathematischen Analyse dieses Datensatzes auf. Der folgende
Abschnitt bezieht sich auf den Bericht von Dalal, Fowlkes und Hoadley [3] Seite 945f.
Die Challenger Katastrophe
In der Nacht vor der Challenger Katastrophe fand eine mehrstündige Telefonkonferenz mit
den Experten des Triebwerkherstellers Morton Thiokol, des Marshall Space Flight Center
der NASA und des Kennedy Space Center Raumflughafens statt. In dieser Konferenz ging
es im Wesentlichen um die Wettervorhersage von extrem niedrigen 31 ◦ F Außentemperatur für die Startzeit der Raumfähre am nächsten Morgen und den Effekt einer niedrigen
Außentemperatur auf die Zuverlässigkeit der O-Ringe.
Der Challenger Datensatz spielte eine wichtige Rolle in dieser Diskussion. Dieser gibt die
Flüge vor der Challenger Katastrophe an, bei denen eine solche Materialermüdung aufgetreten war zusammen mit der Außentemperatur in ◦ F“ und dem Luftdruck in psi“
”
”
zur jeweiligen Startzeit. Flug 61-I repräsentiert die Challenger Katastrophe. Kodiert man
diesen Datensatz mit 0 bei ordnungsgemäßer Funktion“ bzw. mit 1 bei Versagen minde”
”
stens eines O-Ringes“ ergibt sich die Abbildung 1.1. Größere Kreise symbolisieren mehrere
identische Beobachtungen. Da leider nur der Teil des Datensatzes betrachtet wurde, bei
3
Problemstellung
4
dem eine solche Materialermüdung aufgetreten war, kam man zu dem Schluss, dass diese
Historie keinen Beweis über einen Temperatureffekt auf die Zuverlässigkeit der O-Ringe
liefert.
Trotz einiger Widersprüche empfahl Morton Thiokol der NASA, die Challenger wie geplant
starten zu lassen. Nach dem Unglück setzte Präsident Ronald Reagan eine Untersuchungskommission ein, um die Ursache für die Explosion herauszufinden. Die Rogers-Kommission
befand als Unglücksursache das eingangs erwähnte Versagen eines solchen O-Ringes. Sie
stellte darüberhinaus fest, dass eine sorgfältigere Analyse der Historie der O-Ring Daten,
insbesondere die Berücksichtigung der Flüge ohne Materialermüdungserscheinungen an
O-Ringen, die Korrelation zwischen der Zuverlässigkeit der O-Ringe und niedrigen Temperaturen aufgedeckt hätte.
Diese wertvolle Information hätte wesentlich zum Startentscheidungsprozess während der
Konferenz beitragen können.
Abbildung 1.1: Scatterplot der O-Ring Daten
Quelle: SAS proc gplot
Problemstellung
5
Tabelle 1.1: Challenger Datensatz: thermische Probleme bei O-Ringen
Flug
Datum
Field
Erosion
Blow-By
Erosion
Temperatur
Luftdruck
in ◦ F
in psi
o. Blow-By
1
04.12.1981
2
11.12.1981
66
50
70
50
3
5
22.03.1982
69
50
11.11.1982
68
50
6
04.04.1983
67
50
7
18.06.1983
72
50
8
30.08.1983
73
100
9
28.11.1983
70
100
41-B
03.02.1984
57
200
1
1
1
1
41-C
06.04.1984
1
1
63
200
41-D
30.08.1984
1
1
70
200
41-G
05.10.1984
78
200
51-A
08.11.1984
67
200
51-C
24.01.1985
53
200
51-D
12.04.1985
67
200
51-B
29.04.1985
75
200
51-G
17.06.1985
70
200
51-F
29.07.1985
81
200
51-I
27.08.1985
76
200
51-J
03.10.1985
79
200
75
200
76
200
58
200
31
200
61-A
30.10.1985
61-B
26.11.1985
61-C
12.01.1986
61-I
28.01.1986
Total
2,1
1
2
2
1
7,1
2
2
1
1
4
9
Quelle: Bericht von Dalal, Fowlkes und Hoadley [3] Seite 949
1
sekundärer O-Ring
Kapitel 2
Grundlagen
In diesem Kapitel werden einige wichtige Grundlagen aus der Statistik dargestellt, die an
zentralen Stellen in dieser Arbeit verwendet werden und notwendig für deren Verständnis
sind. Auf die entsprechende Literatur wird hingewiesen.
2.1
Die Logistische Verteilung
Die in Kapitel 3 eingeführten Logit Modelle basieren alle auf der Logistischen Verteilungsfunktion. Diese soll nun mit Hilfe von Ferguson [5] Seite 102 definiert werden.
Definition 2.1.1 (Logistische Verteilung)
Sei X eine stetige Zufallsvariable. X ist logistisch verteilt mit den Parametern α und β,
i.Z. X ∼ Lo(α, β), falls die Wahrscheinlichkeitsdichte folgende Form besitzt
exp − x−α
β
f (x) = h
i2 .
β 1 + exp − x−α
β
(2.1.1)
Mit (2.1.1) ergibt sich die Verteilungsfunktion
F (x) =
mit Erwartungswert α und Varianz
1
1 + exp − x−α
β
(2.1.2)
(βπ)2
3 .
Bemerkung 2.1.2
Die Logistische Verteilung gehört zur Klasse der stetigen Verteilungen. Die Dichte (2.1.1)
der Logistische Verteilung ist symmetrisch um den Erwartungswert α. Damit gilt die
6
Grundlagen
7
äquivalente Darstellung von (2.1.1) bzw. von (2.1.2)
exp x−α
β
f (x) = h
i2
β 1 + exp x−α
β
bzw.
exp
F (x) =
x−α
β
(2.1.3)
.
1 + exp − x−α
β
(2.1.4)
In den nachfolgenden Kapiteln wird die Logistische Verteilung, sofern nicht anders gekennzeichnet, mit den Parametern α = 0 und β = 1 verwendet.
2.2
Die Maximum Likelihood Methode
Im Logistischen Regressionsmodell werden die unbekannten Parameter anhand der Maximum Likelihood Methode geschätzt. Dazu müssen noch einige Begriffe eingeführt werden.
Bezogen wird sich hier auf Janssen [7], §5.
Definition 2.2.1 (Maximum Likelihood Schätzer)
dPϑ
dµ
(x) eine Version von Dichten.
ϑ 7−→ L (x, ϑ) = f (x, ϑ)
(2.2.1)
Sei (Pϑ )ϑ ein dominiertes Experiment und sei f (x, ϑ) =
Dann gilt:
1. Zu gegebener Realisierung x ∈ Ω heißt
die Likelihood-Funktion zu x.
2. Sei (Θ, Ω) ein Messraum.
Eine messbare Abbildung ϑ̂ : Ω −→ Θ heißt Maximum Likelihood Schätzer für ϑ,
falls eine Menge N ∈ A mit Pϑ (N ) = 0 für alle ϑ ∈ Θ existiert, so dass für alle
x ∈ N C gilt
f (x, ϑ̂ (x)) = sup f (x, ϑ) .
(2.2.2)
ϑ∈Θ
2.3
Ein Test für die lineare Hypothese
In diesem Abschnitt soll ein bekannter Test eingeführt werden, um bei späteren Auswertungen Aussagen über die Güte der Modelle treffen zu können. Gestützt wird sich auf
Witting [10] Seite 215ff.
Grundlagen
8
Definition 2.3.1 (Likelihood-Quotienten-Test)
Sei X eine stetig verteilte Zufallsvariable. Sei ϑ ∈ Θ. Betrachtet wird das Testproblem
H : ϑ ∈ Θ0 gegen K : ϑ ∈ Θ\Θ0 . Sei
q (x) =
sup L (x, ϑ)
sup L (x, ϑ)
(2.3.1)
ϑ∈Θ0
ϑ∈Θ\Θ0
der allgemeine Dichtequotient. Existiert ein Maximum Likelihood Schätzer ϑb (x) und ϑe (x)
für ϑ ∈ Θ\Θ0 bzw. ϑ ∈ Θ0 so lautet die Prüfgröße
L x, ϑb (x)
.
q (x) = L x, ϑe (x)
(2.3.2)
Dann heißt ein Test der Form
(
ψ (x) =
0
q (x) < c
1
≥c
(2.3.3)
Likelihood-Quotienten-Test. Die Konstante c wird möglichst klein gewählt und zwar so,
dass
Pϑ (q (x) ≥ c) ≤ α
für alle
ϑ ∈ Θ0 .
Beim Likelihood-Quotienten-Test werden jeweils ein Ausgangsmodell Θ0 und ein Vergleichsmodell Θ\Θ0 miteinander verglichen. Das Ausgangsmodell, welches i.A. mehrere
Modellparameter enthält, wird als unrestringiertes Modell bezeichnet. Das Vergleichmodell, welches eine oder mehrere Restriktionen der Modellparameter beinhaltet, heißt restringiertes Modell.
Kapitel 3
Mathematische Modellierung
In diesem Kapitel geht es um die mathematische Modellierung von diskreten Response
Variablen. Dazu wird das Binäre Logit Modell, das Multinomiale Logit Modell und das
Kumulative Logit Modell für binär, nominal bzw. ordinal skalierte Response Variablen
eingeführt. Anhand dieser Modelle ist es möglich, im späteren Verlauf dieser Arbeit den
Challenger Datensatz zu analysieren.
3.1
Das Binäre Logit Modell
Dieser Abschnitt orientiert sich in abgeänderter Notation an Cox [2] Seite 26f. und Falk
[4] Seite 157f.
Die einfachste Form der Logistischen Regressionsmodelle ist das Binäre Logit Modell.
Betrachtet wird hier eine binär kodierte Response Variable mit den Ausprägungen 0 und
1. Der Zusammenhang zwischen dieser Zufallsvariablen und verschiedenen erklärenden
Variablen soll durch ein Binäres Logistisches Modell dargestellt werden. Der Kerngedanke
dieses Modells beruht auf der Idee der Odds. Dies führt auf die folgende Definition.
Definition 3.1.1 (Odds)
Sei Y eine 0-1 wertige Zufallsvariable. Dann wird das Verhältnis von P (Y = 1) zu P (Y = 0)
als Odds (auch Chancenverhältnis oder Odds ratio) bezeichnet.
Odds(Y1/0 ) =
P (Y = 1)
P (Y = 1)
=
∈ (0, ∞) .
1 − P (Y = 1)
P (Y = 0)
(3.1.1)
Damit kann nun der Ansatz des Binären Logistischen Modells formuliert werden.
Definition 3.1.2 (Binäres Logit Modell)
Sei Y eine diskrete Response Variable mit nur zwei Ausprägungen 0 oder 1. Seien X1 , . . . , Xk
9
Mathematische Modellierung
10
die erklärenden Variablen. Dann liefert das Binäre Logit Modell den Ansatz
P (Y = 1 | x) = F α + xT β
(3.1.2)
für die bedingte Wahrscheinlichkeit von {Y = 1} gegeben X = x, wobei F die Logistische Verteilungsfunktion aus (2.1.2), xT = (x1 , . . . , xk ) der Einflussgrößenvektor und
β = (β1 , . . . , βk )T der Parametervektor ist.
Nun wird dieser Modellansatz mit Hilfe der Odds formuliert. Durch eine mathematische
Umformulierung von (3.1.2)
⇔
exp α + xT β
P (Y = 1 | x) =
1 + exp (α + xT β)
P (Y = 1 | x) 1 + exp α + xT β = exp α + xT β
⇔
P (Y = 1 | x) + P (Y = 1 | x) exp α + xT β = exp α + xT β
⇔
P (Y = 1 | x) = exp α + xT β − P (Y = 1 | x) exp α + xT β
⇔
P (Y = 1 | x)
= exp α + xT β
1 − P (Y = 1 | x)
erhält man den äquivalenten Binären Logit Ansatz
Odds Y1/0 = exp α + xT β ,
(3.1.3)
bzw. durch eine Transformation der Odds die so genannten Logits (auch Log-Odds)
Logit Y1/0 := ln Odds Y1/0 = α + xT β.
(3.1.4)
Bemerkung 3.1.3
Der Logit ist auch als Link-Funktion bekannt, da er eine Verbindung (link) zwischen der
binären Response Variablen und dem linearen Regressionsausdruck auf der rechten Seite
der Gleichung (3.1.4) herstellt. Häufig versteht man unter (3.1.4) das Binäre Logit Modell.
Bemerkung 3.1.4
Die bedingte Wahrscheinlichkeit von {Y = 0} gegeben X = x folgt direkt aus (3.1.3) und
(3.1.2), denn
P (Y = 0 | x) =
=
F α + xT β
exp (α + xT β)
1
.
1 + exp (α + xT β)
(3.1.5)
Mathematische Modellierung
11
Die unbekannten Parameter α, β = (β1 , . . . , βk )T werden i.A. anhand des Maximum Likelihood Verfahrens auf iterativem Wege geschätzt. Diese geben an wie sich der Logit
verändert, wenn sich die erklärenden Variablen um eine Einheit erhöhen. Leichter zu interpretieren ist allerdings der Effektkoeffizient exp (βj ) für j = 1, . . . , k. Der Effektkoeffizient
gibt an, um welchen Faktor sich die Odds verändern, wenn sich die unabhängige Variable
um eine Einheit erhöht. Ist der Wert des Effektkoeffizienten größer als 1, so erhöhen sich
die Chancen, dass die Variable Y den Wert 1 annimmt, andernfalls verringern sie sich.
3.2
Das Multinomiale Logit Modell
In diesem Abschnitt wird das Binäre Logistische Modell auf eine Response Variable mit
mehr als zwei ungeordneten Ausprägungen erweitert. Im Wesentlichen nimmt dieser Abschnitt Bezug auf McCullagh [8] Seite 105f. und Cox [2] Seite 153ff.
Bemerkung 3.2.1
Sei Y eine nominal skalierte Variable mit den ungeordneten Ausprägungen 0, . . . , J. Dann
lässt sich der Begriff der Odds aus (3.1.1) auf beliebige Wahrscheinlichkeiten übertragen.
P (Y = a)
.
Odds Ya/b =
P (Y = b)
(3.2.1)
Um Odds vergleichen zu können, wird eine so genannte Referenzkategorie benannt. Häufig
ist dies die letzte Kategorie J. Damit ergeben sich J nicht-redundante Odds aus denen
man die übrigen Odds herleiten kann, da gilt
Odds Ya/b
=
=
=
P (Y = a)
P (Y = b)
P (Y = a) P (Y = J)
P (Y = J) P (Y = b)
Odds Ya/J
.
Odds Yb/J
Definition 3.2.2 (Multinomiale Logit Modell)
Sei Y eine diskrete Response Variable mit einem nominalen Skalenniveau. Die Variable
nehme die ungeordneten Kategorien 0, . . . , J an. Seien weiterhin
X1 , . . . , Xk die erklärenden Variablen. Sei xT eine Ausprägung von X T = (X1 , . . . , Xk ).
Dann wird
exp αj + xT βj
P (Y = j | x) =
,
P
Tβ )
1 + J−1
exp
(α
+
x
j
j
i=0
j = 0, . . . , J − 1
(3.2.2)
Mathematische Modellierung
12
als Multinomialer Logit Ansatz bezeichnet.
Die Beziehung (3.2.2) folgt direkt aus
Odds Yj/J = exp αj + xT βj ,
j = 0...,J − 1
(3.2.3)
bzw. aus
Logit Yj/J
= ln Odds Yj/J
= αj + xT βj ,
j = 0 . . . , J − 1.
(3.2.4)
Dies wird verifiziert durch
P (Y = j | x)
= exp αj + xT βj
P (Y = J | x)
exp αj + xT βj
P (Y = j | x)
= PJ
P (Y = J | x)
i=0 P (Y = i | x)
⇔
⇔
⇔
P (Y = j | x) =
exp αj + xT βj
P (Y =0|x)
P (Y =J|x)
+ ... +
P (Y =J|x)
P (Y =J|x)
exp αj + xT βj
.
P (Y = j | x) =
P
T
1 + J−1
i=0 exp (αi + x βi )
Bemerkung 3.2.3
Die bedingte Wahrscheinlichkeit für das Eintreten der Referenzkategorie J gegeben X = x
ergibt sich direkt aus (3.2.2), da gilt:
P (Y = J | x) = 1 −
J−1
X
P (Y = j | x)
j=0
= 1−
J−1
X
j=0
=
=
exp αj + xT βj
P
T
1 + J−1
i=0 exp (αi + x βi )
1+
PJ−1
1+
PJ−1
i=0
P
T
exp αi + xT βi − J−1
j=0 exp αj + x βj
P
T
1 + J−1
i=0 exp (αi + x βi )
1
i=0
exp (αi + xT βi )
.
(3.2.5)
Die Wahl der Referenzkategorie ist beliebig, da aus den J geschätzten Logits alle beliebigen
Logits aufgrund der Beziehung
Logit Ya/b = Logit Ya/J − Logit Yb/J
(3.2.6)
Mathematische Modellierung
13
erzeugt werden können.
Die Schätzung der Regressionsparameter erfolgt, wie im Binären Logistischen Modell,
mithilfe der Maximum Likelihood Methode.
3.3
Das Kumulative Logit Modell
Eine Erweiterung des Verfahrens der Binären Logistischen Regression auf eine ordinale
Response Variable mit mehr als zwei geordneten Ausprägungen ist das Kumulative Logit
Modell. Dabei wird die Information der Ordnung innerhalb der Ausprägungen in das
Modell einbezogen (vgl. Cox [2] Seite 158ff.).
Definition 3.3.1 (Kumulative Odds)
Sei Y eine ordinal skalierte Variable mit den Kategorien 0, . . . , J. Dann wird das Verhältnis von P (Y ≤ j) zu P (Y > j) als kumulative Odds bezeichnet.
Odds(Y0,...,j/j+1,...,J ) =
P (Y ≤ j)
P (Y ≤ j)
=
, j = 0, . . . , J − 1 .
1 − P (Y ≤ j)
P (Y > j)
(3.3.1)
Definition 3.3.2 (Kumulative Logit Modell)
Sei Y eine diskrete Response Variable mit einem ordinalen Skalenniveau. Die Response Variable nehme die geordneten Kategorien 0, . . . , J mit Referenzkategorie J an. Seien
weiterhin X1 , . . . , Xk die erklärenden Variablen und sei xT eine Ausprägung von X T =
(X1 , . . . , Xk ). F sei die logistische Verteilungsfunktion aus (2.1.2). Dann wird das Kumulative Logit Modell (auch proportional odds model) durch
P (Y ≤ j | x) = F αj + xT β ,
j = 0, . . . , J − 1
(3.3.2)
definiert, wobei für die kumulativen Wahrscheinlichkeiten die Bedingung
P (Y ≤ j | x) = P (Y = 0 | x) + · · · + P (Y = j | x)
vorausgesetzt wird.
Für die bedingte Wahrscheinlichkeit, genau eine der Kategorien 0, . . . , J zu treffen, ergibt
sich

T

j=0

 F αj + x β P (Y = j | x) =
F αj + xT β − F αj−1 + xT β 0 < j < J.


 1−F α
T
j=J
j−1 + x β
(3.3.3)
Mathematische Modellierung
14
Analog zu (3.1.2) lässt sich (3.3.2) mithilfe der kumulativen Odds umformulieren:
exp αj + xT β
P (Y ≤ j | x) =
1 + exp (αj + xT β)
⇔
P (Y ≤ j | x) 1 + exp αj + xT β = exp αj + xT β
⇔
P (Y ≤ j | x) + P (Y ≤ j | x) exp αj + xT β = exp αj + xT β
⇔
P (Y ≤ j | x) = exp αj + xT β − P (Y ≤ j | x) exp αj + xT β
⇔
P (Y ≤ j | x)
= exp αj + xT β .
1 − P (Y ≤ j | x)
Damit erhält man für j = 0, . . . , J − 1 den kumulativen Logit Ansatz
Odds(Y0,...,j/j+1,...,J ) = exp αj + xT β .
(3.3.4)
Wird die streng monotone Transformation des Logarithmus auf die kumulativen Odds
(3.3.4) angewendet, dann ergeben sich die kumulativen Logits
Logit Y0,...,j/j+1,...,J
= ln Odds Y0,...,j/j+1,...,J
= αj + xT β.
(3.3.5)
Es werden nun die Parameter α0 , . . . , αJ−1 , β T = (β1 , . . . , βk ) aus den J Einzelgleichungen
Logit Y0/1,...,J = α0 + xT β
..
.
Logit Y0,...,J−1/J = αJ−1 + xT β
(3.3.6)
simultan anhand des Maximum Likelihood Verfahrens geschätzt. Jeder kumulative Logit
besitzt eine individuelle Konstante αj . Für j = 0, . . . , J − 1 besitzen diese kumulativen
Logits die Form eines binären Logits, bei dem die Kategorien 0, . . . , j zu einer Kategorie
und die Kategorien j + 1, . . . , J zu einer anderen Kategorie zusammengefasst werden.
Kapitel 4
Praktische Analyse mit SAS
In diesem Kapitel liegt der Schwerpunkt in der Anwendung der vorgestellten Logit Modelle
auf den Challenger Datensatz. Ziel ist es, zum Einem mithilfe der Logit Modelle statistische Beweise für einen Temperatureffekt bei der Zuverlässigkeit der O-Ringe zu erbringen.
Zum Anderem wird damit eine wahrscheinlichkeitstheoretische Risikoeinschätzung für das
katastrophale Versagen mindestens eines bzw. mehr als eines (primären)O-Ringes bei den
Startbedingungen der Challenger erstellt.
4.1
Technische Aspekte der Challenger
Für das bessere Verständnis der Modellierung des Datensatzes wird kurz auf einige Technische Aspekte im Aufbau der Challenger eingegangen.
Das Space Shuttle besteht aus vier Teilsystemen (vgl. Abbildung 4.1):
• Teilsystem 1 : Bereich für die Crew und die Steuerung des Systems
• Teilsystem 2 : externer flüssiger Brennstofftank
• Teilsystem 3 und 4 : Raketentriebwerke
Die Ursache der Katastrophe lag in den Teilsystemen 3 und 4, weshalb hier schwerpunktmäßig auf diese eingegangen wird. Jedes der beiden Raketentriebwerke besteht aus
vier Teilen, die durch so genannte Field Joints verbunden sind. Diese sind in Abbildung
4.1 durch Pfeile markiert. Zur Abdichtung dieser Verbindungen werden O-Ringe genutzt.
15
Praktische Analyse mit SAS
16
Diese O-Ringe werden redundant eingesetzt und als primärer und sekundärer O-Ring bezeichnet. Es gibt somit insgesamt sechs Field Joints bzw. sechs primäre und sekundäre
O-Ringe. Es können zwei Arten von thermischen Problemen auftreten, die den Ausfall
eines O-Ringes zur Folge haben: Erosion oder Blow-By. Erosion wird zurückgeführt auf
übermäßige Hitze unter den O-Ringen. Blow-Bys treten auf, wenn heiße Gase am O-Ring
vorbeiströmen. Für eine ausführlichere technische Beschreibung sei auf den Bericht von
Dalal, Fowlkes und Hoadley [3] Seite 946ff. verwiesen.
Aus technischer Sicht führen die folgenden vier Ereignisse zu einem Totalausfall der Feldverbindung (Field Joints):
• A: Erosion des primären O-Ringes
• B: primärer O-Ring Blow-By
• C: Erosion des sekundären O-Ringes
• D: Ausfall des sekundären O-Ringes
Im Folgenden wird das Ereignis A ∪ B modelliert. Dies entspricht dem Ausfall mindestens
eines primären O-Ringes.
Abbildung 4.1: Space Shuttle: Orbiter, externer Brennstofftank, Raketentriebwerke, Field
Joints
Quelle: Bericht von Dalal, Fowlkes und Hoadley [3] Seite 950
Praktische Analyse mit SAS
17
Die nachfolgenden mathematischen Analysen erfolgen mittels des Statistikprogramms SAS.
SAS stellt die Prozedur proc logistic zur Verfügung, mit deren Hilfe der Challenger Datensatz analysiert werden kann (vgl. SAS Dokumentation [11], Kapitel SAS Procedures).
Die vollständigen Schätzergebnisse sind für das Binäre Logit Modell im Anhang A und
für das Kumulative Logit Modell im Anhang B dargestellt.
4.2
Die Challenger Daten als binär kodierter Datensatz
In diesem Abschnitt wird das Binäre Logistische Modell auf den Challenger Datensatz
angewendet.
Dieser Datensatz wird mittels einer binären Response Variablen Y kodiert. Die Response
Variable gibt die Zuverlässigkeit der primären O-Ringe an und besitzt nur die zwei Kategorien: Versagen mindestens eines O-Ringes“ bzw. ordnungsgemäße Funktion“. Also ist
”
”
Y gegeben durch
(
1 Versagen mindestens eines O-Ringes
Y =
.
(4.2.1)
0 ordnungsgemäße Funktion
Zunächst wird ein Binäres Logit Modell mit nur einem Einflussfaktor betrachtet. Es soll
der Einfluss der Außentemperatur“ X auf die Zuverlässigkeit der primären O-Ringe“
”
”
Y untersucht werden. Später wird der Einfluss des Luftdrucks“ auf die Variable Y das
”
Modell erweitern.
Sei nun
π (x) = P (Y = 1 | X = x)
(4.2.2)
die Wahrscheinlichkeit, dass mindestens ein primärer O-Ring ausfällt unter der gegebenen
Realisierung der erklärenden Variablen X = x. Mit (3.1.4) sieht das zugrunde liegende
Binäre Logistische Modell wie folgt aus
ln
π (x)
= α + βx.
1 − π (x)
(4.2.3)
Nach (3.1.2) und (3.1.5) ergeben sich die bedingten Wahrscheinlichkeiten für den Ausfall
”
mindestens eines O-Ringes“ bzw. für die ordnungsgemäße Funktion“:
”
exp (α + βx)
π (x) =
,
(4.2.4)
1 + exp (α + βx)
1 − π (x) =
1
.
1 + exp (α + βx)
(4.2.5)
Praktische Analyse mit SAS
18
Der Challenger Datensatz beinhaltet 23 Beobachtungen vor der Katastrophe. Also werden nun 23 unabhängige Wiederholungen Y1 , . . . , Y23 der 0-1 wertigen Zufallsvariable Y
betrachtet, wobei Yi Flug i repräsentiert. Sei xi die entsprechende Außentemperatur in
”
◦ F“ zum Zeitpunkt des Starts von Flug i.
Nützlich für weitere Überlegungen ist die Beziehung
P (Y = y | x) = exp [(α + βx) y − ln (1 + exp (α + βx))] ,
y ∈ {0, 1} .
(4.2.6)
Dies wird verifiziert durch
P (Y = 1 | x) = exp [α + βx − ln (1 + exp (α + βx))]
= exp (α + βx) exp [− ln (1 + exp (α + βx))]
= exp (α + βx) (1 + exp (α + βx))−1
=
exp (α + βx)
1 + exp (α + βx)
= π (x)
und
P (Y = 0 | x) = exp [− ln (1 + exp (α + βx))]
=
1
1 + exp (α + βx)
= 1 − π (x) .
Seien nun y1 , . . . , y23 Realisierungen der unabhängigen Wiederholungen Y1 , . . . , Y23 der
Zufallsvariablen Y . Aufgrund der Unabhängigkeit ergibt sich für die Likelihood-Funktion
die Darstellung
L (x, (α, β)) =
23
Y
i=1
P (Yi = yi | xi ) ,
yi ∈ {0, 1}
(4.2.7)
Praktische Analyse mit SAS
19
bzw. für die Loglikelihood-Funktion
l (x, (α, β)) = ln L (x, (α, β))
= ln
23
Y
P (Yi = yi | xi )
i=1
23
X
=
ln P (Yi = yi | xi )
i=1
23
X
=
ln [exp ((α + βxi ) yi − ln (1 + exp (α + βxi )))]
i=1
23
X
=
(α + βxi ) yi − ln (1 + exp (α + βxi )) .
(4.2.8)
i=1
Da die Hessematrix der Loglikelihood-Funktion negativ definit ist, ist die LoglikelihoodFunktion strikt konkav und die Lösung der Score Gleichung immer eindeutig. Aufgrund
der Stetigkeit von l (x, (α, β)) existiert ein Maximum. Der Gradient der LoglikelihoodFunktion l (x, (α, β)) besitzt die Darstellung
∇l (x, (α, β)) =
∂
∂α l (x, (α, β))
∂
∂β l (x, (α, β))
!
 P

23
1
y
−
exp
(α
+
βx
)
i
i=1 i
1+exp(α+βxi )

=  P23
1
x
y
−
exp
(α
+
βx
)
x
i
i
i
i
i=1
1+exp(α+βxi )
!
y
−
π
(x
)
i
i=1 i
P23
i=1 xi yi − xi π (xi )

! y1 − π (x1 )
 .
1 ··· 1
 ..
x1 · · · x23 
y23 − π (x23 )
P23
=
=


wobei y = 

Der gesuchte
= X T (y − π (x)) ,




y1
π (x1 )
1 x1


 . .
.. 
.

 und X =  .. ..
..
. 
 , π (x) = 


y23
π (x23 )
1 x23
Maximum Likelihood Schätzer α
b, βb ist Lösung
∇l (x, (α, β)) = X T (y − π (x)) = 0.






.

der Gleichung
(4.2.9)
Praktische Analyse mit SAS
20
Da man diese Gleichung i.A. nur auf numerischem Wege lösen kann, kommt hier das
Statistik Programm SAS zum Einsatz. Mithilfe der Prozedur proc logistic erhält man
nach Tabelle A.1 den Maximum Likelihood Schätzer
α
b, βb = (15.0429, −0.2322) .
(4.2.10)
Für das Niveau α = 10% bestimmt SAS die 90% Konfidenzintervalle mithilfe der Formel
i
h
(4.2.11)
βb − sβbz1− α2 , βb + sβbz1− α2
mit der Standardabweichung sβb und dem z-score z1− α2 der Standardnormalverteilung.
In diesem Zusammenhang ergeben sich die entsprechenden 90% Konfidenzintervalle α
b±
12.1367 und βb ± 0.1781.
Für den Signifikanztest auf die erklärende Variable Außentemperatur in ◦ F“ liegt der
”
p-Wert bei 0.0320. Damit ist die Variable signifikant auf einem Niveau von 10%. Zur
Überprüfung der Modellgüte bietet sich der Likelihood-Quotienten-Test an. Dieser wurde
bereits in Kapitel 2 eingeführt. Er prüft die Nullhypothese, dass alle Koeffizienten der
erklärenden Variablen gleich Null sind. Dies vergleicht die Devianz des vollständigen Modells mit dem Wert des Modells, das nur den konstanten Term enthält (Null-Modell).
Ist diese Differenz klein, tragen die unabhängigen Variablen nur wenig zur Erklärung der
abhängigen Variablen bei. Ist diese Differenz groß, kann von einer guten Anpassung ausgegangen werden. Im betrachteten Fall ist der Wert der Teststatistik gleich 7.9520 mit
einem Freiheitsgrad, was einen p-Wert von 0.0048 ergibt. Dieser unterschreitet α. Somit
kann Nullhypothese, dass βb = 0 ist, auf dem 10% -Niveau abgelehnt werden. Das Ergebnis
deutet darauf hin, dass das geschätzte Modell angemessen ist.
Dieses Binäre Logit Modell mit nur einer erklärenden Variablen lässt sich einfach auf
ein Binäres Logit Modell mit mehreren erklärenden Variablen erweitern. Nimmt man beispielsweise zusätzlich die Einflussgröße Luftdruck in psi“ als erklärende Variable mit auf,
”
so hat das zugrunde liegende Logit Modell die Form
ln
π (x1 , x2 )
= α + β1 x1 + β2 x2 .
1 − π (x1 , x2 )
(4.2.12)
Dabei ist π (x1 , x2 ) = P (Y = 1 | X1 = x1 , X2 = x2 ) die Wahrscheinlichkeit, dass mindestens ein primärer O-Ring ausfällt unter der gegebenen Realisierung von X1 = x1 und
X2 = x2 , wobei X1 die Außentemperatur in ◦ F“ und X2 der Luftdruck in psi“ ist. Eine
”
”
analoge Rechnung mit SAS ergibt den Maximum Likelihood Schätzer
α
b, βb1 , βb2 = (13.2923, −0.2287, 0.0104)
(4.2.13)
Praktische Analyse mit SAS
21
mit den entsprechenden 90% Konfidenzintervallen α
b ±12.6061, βb1 ±0.1809 und βb2 ±0.0148.
Für den Signifikanztest auf die Variable Luftdruck in psi“ liegt der p-Wert bei 0.2468
”
und überschreitet somit α. Damit ist die Variable Luftdruck in psi“ insignifikant. In
”
diesem Zusammenhang ist der Temperatureffekt die wichtigere erklärende Variable auf
die Zuverlässigkeit der primären O-Ringe, wobei der Luftdruck nur geringe Auswirkungen
hat. Der Druckeffekt ist somit vernachlässigbar.
4.3
Die Challenger Daten als ordinal kodierter Datensatz
In diesem Abschnitt wird das Kumulative Logit Modell auf den Challenger Datensatz
angewendet. Erneuter Ausgangspunkt ist der Challenger Datensatz aus Tabelle 1.1. Im
Gegensatz zur vorangegangenen Analyse werden diesmal die Ausfalldaten in drei Kategorien eingeteilt, d.h.
Y =



 0 ordnungsgemäße Funktion
.
1 Versagen eines O-Rings


 2 Versagen von mehr als einem O-Ring
(4.3.1)
Die letzte Kategorie bildet die Referenzkategorie. Ausgehend von der Einflussgröße Au”
ßentemperatur in ◦ F“ ergeben sich mittels (3.3.5) die beiden kumulativen Logits
P (Y ≤ 0 | x)
= α0 + βx
Logit Y0/1,2 = ln
P (Y > 0 | x)
P (Y ≤ 1 | x)
Logit Y0,1/2 = ln
= α1 + βx
P (Y > 1 | x)
(4.3.2)
und die entsprechenden bedingten kumulativen Wahrscheinlichkeiten
P (Y ≤ 0 | x) = F (α0 + βx)
P (Y ≤ 1 | x) = F (α1 + βx) .
(4.3.3)
Die bedingte Wahrscheinlichkeit, genau eine der drei Kategorien zu treffen, gegeben X = x
ist nach (3.3.3)
P (Y = 0 | x) = F (α0 + βx)
P (Y = 1 | x) = F (α1 + βx) − F (α0 + βx)
P (Y = 2 | x) = 1 − F (α1 + βx) .
(4.3.4)
Praktische Analyse mit SAS
22
Erneut werden 23 unabhängige Wiederholungen Y1 , . . . , Y23 der ordinal skalierten Zufallsvariablen Y betrachtet, wobei Yi Flug i repräsentiert. Sei xi die entsprechende Außentemperatur in ◦ F zum Zeitpunkt des Starts von Flug i. Aufgrund der Unabhängigkeitsannahme der Beobachtungen der einzelnen Flüge, lässt sich die Likelihood-Funktion wie folgt
aufstellen
L (x, (α0 , α1 , β)) =
23
Y
P (Yi = yi | xi ) .
(4.3.5)
i=1
Da x 7→ ln (x) eine monoton steigende Transformation ist, genügt es die LoglikelihoodFunktion zu maximieren.
l (x, (α0 , α1 , β))
= ln L (x, (α0 , α1 , β))
= ln
23
Y
P (Yi = yi | xi )
i=1
=
23
X
ln P (Yi = yi | xi )
i=1
=
16
X
ln P (Yi = 0 | xi ) +
i=1
=
16
X
=
i=1
ln P (Yi = 1 | xi ) +
i=17
ln F (α0 + βxi ) +
i=1
16
X
21
X
21
X
23
X
ln P (Yi = 2 | xi )
i=22
ln [F (α1 + βxi ) − F (α0 + βxi )] +
i=17
23
X
ln [1 − F (α0 + βxi )]
i=22
21
X
exp (α1 + βxi )
exp (α0 + βxi )
exp (α0 + βxi )
ln
+
−
ln
1 + exp (α0 + βxi )
1 + exp (α1 + βxi ) 1 + exp (α0 + βxi )
23
X
+
ln 1 −
i=22
i=17
exp (α1 + βxi )
.
1 + exp (α1 + βxi )
(4.3.6)
Aufgrund der strikten Konkavität und der Stetigkeit der Loglikelihood-Funktion existiert
ein eindeutig bestimmtes Maximum. Der Maximum Likelihood Schätzer ist Lösung der
Scoregleichung
∇l (x, (α0 , α1 , β)) = 0.
(4.3.7)
Diese Gleichung ist i.A. nur auf numerischem Wege lösbar. Mit der Hilfe von SAS ist die
Lösung dieser Gleichung in Tabelle B.1 dargestellt. Damit ist der Maximum Likelihood
Schätzer gegeben durch:
α
b0 , α
b1 , βb = (−13.5151, −11.3462, 0.2112)
(4.3.8)
Praktische Analyse mit SAS
23
Für die geschätzten Parameter betragen die 90% Konfidenzintervalle α
b0 ± 9.7181, α
b1 ±
b
9.1325 und β ± 0.1439.
Auch hier kann das Kumulative Logit Modell mit nur einer erklärenden Variablen leicht
auf ein Kumulatives Logit Modell mit mehreren erklärenden Variablen erweitert werden.
Es wird als zusätzliche Einflussgröße wieder Luftdruck in psi“ betrachtet. Damit ergibt
”
sich ein Kumulatives Logit Modell mit den beiden kumulativen Logits
Logit Y0/1,2 = α0 + β1 x1 + β2 x2
Logit Y0,1/2 = α1 + β1 x1 + β2 x2
(4.3.9)
wobei X1 = Temperatur in ◦ F“, X2 = Luftdruck in psi“. Eine analoge Rechnung mit
”
”
SAS ergibt
α
b0 , α
b1 , βb1 , βb2 = (−10.8886, −8.5769, 0.1928, −0.0092)
(4.3.10)
mit den entsprechenden 90% Konfidenzintervallen α
b0 ± 9.8455,b
α1 ± 9.2687, βb1 ± 0.1377
und βb2 ± 0.0145.
Im Falle des Kumulativen Logit Modells bestätigen die Ergebnisse der Logit Analyse die
Insignifikanz der Variablen Luftdruck in psi“ auf einem Niveau von 10%. Erneut wird die
”
Variable Luftdruck in psi“ elemieniert, so dass nur noch das Kumulative Logit Modell
”
mit der erklärenden Variablen Außentemperatur in ◦ F“ betrachtet wird. Die Prüfung
”
der Modellgüte wird mit dem Likelihood-Quotienten-Test untersucht. Der Wert der Teststatistik liegt bei 7.9308 mit einem Freiheitsgrad, was einen p-Wert von 0.0049 ergibt.
Die Nullhypothese, dass alle Koeffizienten gleich Null sind, wird mit einem p-Wert von
0.0049 abgelehnt. Mit diesem Ergebnis kann davon ausgegangen werden, dass das Modell
angemessen ist.
Kapitel 5
Ergebnis
Durchgeführt wurde eine statistische Analyse der Challenger Daten mithilfe der SAS Prozedur proc logistic. Im Folgenden sollen die Resultate kurz diskutiert werden. Die Schätzergebnisse des Binären Logistischen Modells sind in Anhang A dargestellt, die des Kumulativen Logistischen Modells in Anhang B.
Wird der Datensatz mittels einer binären Response Variablen kodiert, zeigen die Tabellen
A.1, A.2 und die in Kapitel 4 durchgeführten Tests, lediglich die Signifikanz der erklärenden
Variablen Außentemperatur in ◦ F“. In diesem Zusammenhang ist der Temperatureffekt
”
die wichtigere erklärende Variable auf die Zuverlässigkeit der primären O-Ringe, wobei
der Luftdruck nur geringe Auswirkungen hat. Der Druckeffekt ist somit vernachlässigbar
und es wird nur noch das Binäre Logit Modell mit der erklärenden Variablen Außentem”
peratur in ◦ F“ betrachtet.
Liegt dem Challenger Datensatz eine ordinal skalierte Response Variable zugrunde, zeigen
die Tabellen B.1,B.2 und die vorangegangenen Tests aus Kapitel 4 ein ähnliches Resultat. Erneut ist die Variable Luftdruck in psi“ insignifikant, so dass das Kumulative Logit
”
Modell mit nur der erklärenden Variablen Außentemperatur in ◦ F“ für den Challenger
”
Datensatz angemessen ist. Betrachtet wird nun konkret der Flug 61-I, der die Challenger
Katastrophe repräsentiert. Zum Zeitpunkt des Starts herrschte eine Außentemperatur von
31 ◦ F. Das ist die mit Abstand geringste Außentemperatur innerhalb des Datensatzes.
Mithilfe der Schätzergebnisse für die Koeffizienten wird nun die geschätzte Ausfallwahrscheinlichkeit mindestens eines primären O-Ringes im Binären Logistischen Modell, bzw.
die geschätzten Ausfallwahrscheinlichkeiten von genau einem primären O-Ring und von
24
Ergebnis
25
mehr als einem primären O-Ring im Kumulativen Logit Modell bestimmt. Die geschätzte
Wahrscheinlichkeit für den Ausfall mindestens eines primären O-Rings, bei einer Außentemperatur von x = 31 ◦ F zum Startzeitpunkt der Challenger beträgt somit nach Tabelle
A.3
b
π
b (31) = F α
b + β(31)
= 0.99961.
(5.0.1)
Eine Verschiebung des Startzeitpunkts der Challenger bis auf eine Außentemperatur von
70 ◦ F hätte diese Wahrscheinlichkeit auf 22.997% reduziert. Diese geschätzten Wahrscheinlichkeiten, mit den entsprechenden binären Logits, sind in den Abbildungen A.1 bzw. A.2
graphisch dargestellt.
Die geschätzte Wahrscheinlichkeit, dass beim Challenger Unglück unter gegebener Außentemperatur zum Zeitpunkt des Starts, genau ein primärer O-Ring bzw. mehr als ein
primärer O-Ring ausfällt, lässt sich mithilfe der geschätzten Parameter und (4.3.4) bestimmen.
P (Y = 1 | 31) = F α
b1 + βb (31) − F α
b0 + βb (31) = 0.00724
P (Y = 2 | 31) = 1 − F α
b1 + βb (31) = 0.99182
(5.0.2)
Hätte man den Start bis zu einer Außentemperatur von 70◦ F verschoben, so betrügen
diese Wahrscheinlichkeiten 18.791% bzw. 3.105%.
Eine Übersicht dieser geschätzten Wahrscheinlichkeiten, sowie der kumulativen geschätzten Wahrscheinlichkeiten, für alle Flüge bildet Tabelle B.3. Zur Veranschaulichung sind
diese in den Abbildungen B.1 und B.2 graphisch dargestellt.
Beide Modelle bestätigen die Vermutung einer Korrelation zwischen der Zuverlässigkeit der
primären O-Ringe und niedrigen Außentemperaturen. Das Risiko für das Versagen eines
O-Ringes ist deutlich geringer bei wärmeren Außentemperaturen. Diese wichtige Information hätte wesentlich zum Startentscheidungsprozess der Challenger beitragen können.
Eine Verschiebung des Starts bis zu einer wärmeren Außentemperatur hätte sehr wahrscheinlich das Challenger Unglück verhindert.
Anhang A
SAS Schätzergebnisse Binäres
Logit Modell
Tabelle A.1: Schätzergebnis Binäres Logit Modell mit erklärender Variable Außentempe”
ratur in ◦ F“
Maximum Likelihood Schätzergebnisse
Para-
Freiheits- Schätzung Standard-
meter
grade
Intercept α
1
Temperatur
1
Wald
p > χ2
2
90% Wald
Effekt-
Konfidenzintervall koeffizient
fehler
χ
15.0429
7.3786
4.1563
0.0415
2.9061
27.1796
-0.2322
0.1082
4.6008
0.0320
-0.4102
-0.0541
0.793
Quelle: SAS proc logistic
Tabelle A.2: Schätzergebnis Binäres Logit Modell mit erklärenden Variablen Außentem”
peratur in ◦ F“ und Luftdruck in psi“
”
Maximum Likelihood Schätzergebnisse
Para-
Freiheits- Schätzung Standard-
meter
grade
Wald
p > χ2
2
fehler
χ
90% Wald
Effekt-
Konfidenzintervall koeffizient
Intercept α
1
13.2923
7.6640
3.0081
0.0828
0.6862
25.8984
Temperatur
1
-0.2287
0.1100
4.3224
0.0376
-0.4096
-0.0478
0.793
Luftdruck
1
0.0104
0.00898
1.3415
0.2468
-0.00437
0.0252
1.010
Quelle: SAS proc logistic
26
Anhang A: Schätzergebnisse Binäres Logit Modell
Abbildung A.1: geschätzte Wahrscheinlichkeit, dass mindestens ein O-Ring ausfällt
Quelle: SAS proc gplot
Abbildung A.2: geschätzte Logits
Quelle: SAS proc gplot
27
Anhang A: Schätzergebnisse Binäres Logit Modell
28
Tabelle A.3: geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärender Variable Außentemperatur in ◦ F“
”
π
b (xi )
1−π
b (xi )
π
b (xi )
1−π
b (xi )
66
0.43049
0.56951
-0.27984
1
70
0.22997
0.77003
-120.849
0
69
0.27362
0.72638
-0.97633
5
0
68
0.32209
0.67791
-0.74416
6
0
67
0.37472
0.62528
-0.51200
7
0
72
0.15805
0.84195
-167.281
8
0
73
0.12955
0.87045
-190.497
Flug
thermische
Temperatur
Probleme
in ◦ F
1
0
2
3
ln
9
0
70
0.22997
0.77003
-120.849
41-B
1
57
0.85932
0.14068
180.962
41-C
1
63
0.60268
0.39732
0.41665
41-D
1
70
0.22997
0.77003
-120.849
41-G
0
78
0.04454
0.95546
-306.578
51-A
0
67
0.37472
0.62528
-0.51200
51-C
1
53
0.93925
0.06075
273.827
51-D
0
67
0.37472
0.62528
-0.51200
51-B
0
75
0.08554
0.91446
-236.930
51-G
0
70
0.22997
0.77003
-120.849
51-F
0
81
0.02270
0.97730
-376.227
51-I
0
76
0.06904
0.93096
-260.146
51-J
0
79
0.03564
0.96436
-329.795
61-A
1
75
0.08554
0.91446
-236.930
61-B
0
76
0.06904
0.93096
-260.146
61-C
1
58
0.82884
0.17116
157.746
61-I
.
31
0.99961
0.00039
784.583
Quelle: SAS proc logistic
Anhang A: Schätzergebnisse Binäres Logit Modell
29
Tabelle A.4: geschätzte Ausfallwahrscheinlichkeiten im Binären Logit Modell mit erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“
”
”
π
b (xi )
1−π
b (xi )
π
b (xi )
1−π
b (xi )
50
0.21756
0.78244
-127.992
70
50
0.10024
0.89976
-219.460
69
50
0.12283
0.87717
-196.593
0
68
50
0.14966
0.85034
-173.726
6
0
67
50
0.18115
0.81885
-150.859
7
0
72
50
0.06587
0.93413
-265.194
8
0
73
100
0.08623
0.91377
-236.060
Flug
thermische
Temperatur
Luftdruck
Probleme
in ◦ F
in psi
1
0
66
2
1
3
0
5
ln
9
0
70
100
0.15781
0.84219
-167.459
41-B
1
57
200
0.91199
0.08801
233.814
41-C
1
63
200
0.72434
0.27566
0.96612
41-D
1
70
200
0.34647
0.65353
-0.63458
41-G
0
78
200
0.07842
0.92158
-246.394
51-A
0
67
200
0.51286
0.48714
0.05143
51-C
1
53
200
0.96277
0.03723
325.282
51-D
0
67
200
0.51286
0.48714
0.05143
51-B
0
75
200
0.14456
0.85544
-177.793
51-G
0
70
200
0.34647
0.65353
-0.63458
51-F
0
81
200
0.04109
0.95891
-314.995
51-I
0
76
200
0.11851
0.88149
-200.660
51-J
0
79
200
0.06341
0.93659
-269.261
61-A
1
75
200
0.14456
0.85544
-177.793
61-B
0
76
200
0.11851
0.88149
-200.660
61-C
1
58
200
0.89182
0.10818
210.947
61-I
.
31
200
0.99975
0.00025
828.358
Quelle: SAS proc logistic
Anhang B
SAS Schätzergebnisse
Kumulatives Logit Modell
Tabelle B.1: Schätzergebnis Kumulatives Logit Modell mit erklärender Variable Außen”
temperatur in ◦ F“
Maximum Likelihood Schätzergebnisse
Para-
Freiheits- Schätzung Standard-
Wald
p > χ2
2
90% Wald
meter
grade
fehler
χ
Intercept α0
1
-13.5151
5.9082
5.2327
0.0222
-23.2332
-3.7970
Intercept α1
1
-11.3462
5.5522
4.1761
0.0410
-20.4787
-2.2137
Temperatur
1
0.2112
0.0875
5.8303
0.0158
0.0673
0.3551
Quelle: SAS proc logistic
30
Effekt-
Konfidenzintervall koeffizient
1.2351
Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell
31
Tabelle B.2: Schätzergebnis Kumulatives Logit Modell mit erklärenden Variablen Außen”
temperatur in ◦ F“ und Luftdruck in psi“
”
Maximum Likelihood Schätzergebnisse
Para-
Freiheits- Schätzung Standard-
Wald
p > χ2
2
90% Wald
Effekt-
Konfidenzintervall koeffizient
fehler
χ
-10.8886
5.9857
3.3091
0.0689
-20.7341
-1.0430
-8.5769
5.6350
2.3168
0.1280
-17.8456
0.6918
1
0.1928
0.0837
5.3035
0.0213
0.0551
0.3305
1.2126
1
-0.00920
0.00879
1.0963
0.2951
-0.0237
0.00525
0.9908
meter
grade
Intercept α0
1
Intercept α1
1
Temperatur
Luftdruck
Quelle: SAS proc logistic
Abbildung B.1: geschätzte Wahrscheinlichkeiten Kategorie i zu treffen, i = 0, 1, 2
Quelle: SAS proc gplot
Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell
Abbildung B.2: geschätzte kumulative Wahrscheinlichkeiten
Quelle: SAS proc gplot
32
Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell
33
Tabelle B.3: geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit erklärender Variable Außentemperatur in ◦ F“
”
Flug
Kategorie Temperatur P (Y = 2) P (Y = 1) P (Y = 0) P (Y ≤ 1) P (Y ≤ 0)
in ◦ F
1
0
66
0.06942
0.32547
0.60511
0.93058
0.60511
2
1
70
0.03105
0.18791
0.78104
0.96895
0.78104
3
0
69
0.03807
0.21914
0.74279
0.96193
0.74279
5
0
68
0.04661
0.25297
0.70042
0.95339
0.70042
6
0
67
0.05695
0.28874
0.65431
0.94305
0.65431
7
0
72
0.02057
0.13465
0.84478
0.97943
0.84478
8
0
73
0.01672
0.11277
0.87051
0.98328
0.87051
9
0
70
0.03105
0.18791
0.78104
0.96895
0.78104
41-B
1
57
0.33303
0.48069
0.18628
0.66697
0.18628
41-C
1
63
0.12325
0.42829
0.44845
0.87675
0.44845
41-D
1
70
0.03105
0.18791
0.78104
0.96895
0.78104
41-G
0
78
0.00588
0.04331
0.95081
0.99412
0.95081
51-A
0
67
0.05695
0.28874
0.65431
0.94305
0.65431
51-C
2
53
0.53754
0.37293
0.08954
0.46246
0.08954
51-D
0
67
0.05695
0.28874
0.65431
0.94305
0.65431
51-B
0
75
0.01102
0.07781
0.91117
0.98898
0.91117
51-G
0
70
0.03105
0.18791
0.78104
0.96895
0.78104
51-F
0
81
0.00313
0.02359
0.97328
0.99687
0.97328
51-I
0
76
0.00894
0.06421
0.92684
0.99106
0.92684
51-J
0
79
0.00476
0.03543
0.95980
0.99524
0.95980
61-A
2
75
0.01102
0.07781
0.91117
0.98898
0.91117
61-B
0
76
0.00894
0.06421
0.92684
0.99106
0.92684
61-C
1
58
0.28787
0.49170
0.22044
0.71213
0.22044
61-I
.
31
0.99182
0.00724
0.00094
0.00818
0.00094
Quelle: SAS proc logistic
Anhang B: SAS Schätzergebnisse Kumulatives Logit Modell
34
Tabelle B.4: geschätzte Ausfallwahrscheinlichkeiten im Kumulativen Logit Modell mit erklärenden Variablen Außentemperatur in ◦ F“ und Luftdruck in psi“
”
”
Flug
Kate- Temperatur Luftdruck P (Y = 2) P (Y = 1) P (Y = 0) P (Y ≤ 1) P (Y ≤ 0)
gorie
in ◦ F
in psi
1
0
66
50
0.02439
0.17706
0.79855
0.97561
0.79855
2
1
70
50
0.01143
0.09304
0.89553
0.98857
0.89553
3
0
69
50
0.01383
0.11011
0.87607
0.98617
0.87607
5
0
68
50
0.01672
0.12971
0.85357
0.98328
0.85357
6
0
67
50
0.02020
0.15201
0.82779
0.97980
0.82779
7
0
72
50
0.00780
0.06570
0.92650
0.99220
0.92650
8
0
73
100
0.01017
0.08373
0.90610
0.98983
0.90610
9
0
70
100
0.01798
0.13799
0.84402
0.98202
0.84402
41-B
1
57
200
0.36046
0.49001
0.14954
0.63954
0.14954
41-C
1
63
200
0.15055
0.49083
0.35862
0.84945
0.35862
41-D
1
70
200
0.04394
0.27289
0.68317
0.95606
0.68317
41-G
0
78
200
0.00973
0.08049
0.90978
0.99027
0.90978
51-A
0
67
200
0.07575
0.37691
0.54734
0.92425
0.54734
51-C
2
53
200
0.54931
0.37550
0.07519
0.45069
0.07519
51-D
0
67
200
0.07575
0.37691
0.54734
0.92425
0.54734
51-B
0
75
200
0.01722
0.13305
0.84973
0.98278
0.84973
51-G
0
70
200
0.04394
0.27289
0.68317
0.95606
0.68317
51-F
0
81
200
0.00548
0.04720
0.94732
0.99452
0.94732
51-I
0
76
200
0.01425
0.11303
0.87272
0.98575
0.87272
51-J
0
79
200
0.00804
0.06756
0.92440
0.99196
0.92440
61-A
2
75
200
0.01722
0.13305
0.84973
0.98278
0.84973
61-B
0
76
200
0.01425
0.11303
0.87272
0.98575
0.87272
61-C
1
58
200
0.31730
0.50695
0.17575
0.68270
0.17575
61-I
.
31
200
0.98834
0.01049
0.00117
0.01166
0.00117
Quelle: SAS proc logistic
Literaturverzeichnis
[1] BEHNEN, K. und NEUHAUS, G.(2003). Grundkurs Stochastik: Eine integriete Einführung in Wahrscheinlichkeitstheorie und Mathematische Statistik. 4. neubearb. u. erw. Aufl. Heidenau.
[2] COX, D.R. und SNEll, E.J. (1989). Analysis of Binary Data 2. Aufl. New York.
[3] DALAL, S. R., FOWLKES, E. B. und HOADLEY, B. (1989). Risk Analysis of the Space Shuttle:
Pre-Challenger Prediction of Failure. in: Journal of the American Statistical Association. Vol. 84. No.
408. Seite 945-957.
[4] FALK, M., BECKER, R. und MAROHN, F. (2004). Angewandte Statistik: Eine Einführung mit
Programmbeispielen in SAS. Berlin.
[5] FERGUSON, T.S. (1967). A Decision Theoretic Approach. New York.
[6] FRANK, E. und HARRELL, Jr. (2001). Regression Modeling Strategies: with Applications to Linear
Models, Logistic Regression and Survival Analysis. New York.
[7] JANSSEN, A. (2006). Statistik I Düsseldorf. Heinrich-Heine-Universität Düsseldorf. Institut für Mathematische Statistik und Wahrscheinlichkeitstheorie.
[8] McCULLAGH, P. und NELDER, J.A. (1983). Generalized Linear Models. London.
[9] RÜSCHENDORF, L.(1995). Stochastik - eine interdisziplinäre Wissenschaft Teil I. Freiburg. Universität Freiburg. Institut für Mathematische Stochastik.
[10] WITTING, H. und MÜLLER-FUNK, U. (1995). Mathematische Statistik II. B.G. Teubner, Stuttgart.
[11] Homepage des SAS Institute Inc., USA.SAS OnlineDoc 9.1.3.
http://support.sas.com/documentation/onlinedoc/sas9doc.html. Stand: 06.11.2006
35
Hiermit versichere ich, die Arbeit selbständig erstellt und keine anderen als die angegebenen Hilfsmittel benutzt zu haben.
Stefanie Nentwig
Düsseldorf, den 12. November 2006
Herunterladen