Korrelation und Regression Experiment zur Vererbungstiefe Das

Werbung
Experiment zur Vererbungstiefe
Empirische Softwaretechnik
• Softwaretechnik:
Korrelation und Regression
– die Vererbungstiefe ist kein guter Schätzer
für den Wartungsaufwand
• Statistik:
Prof. Dr. Walter F. Tichy
Dr. Frank Padberg
– Korrelation
– p-Wert
– Lineare Regression
Sommersemester 2007
1
2
Streudiagramme
(engl. Scatterplot)
Das Problem:
Säuglingssterblichkeit und ärztliche Versorgung
• Sind zwei Variablen korreliert?
10
Säuglingssterblichkeit
– Steigt eine Variable mit einer anderen an?
• z.B. Ausbildung und Einkommen
– Sinkt eine Variable wenn eine andere
steigt?
• Z.B. SW-Qualität und Vererbungstiefe
• Gibt es einen numerischen Wert, der
die „Stärke“ der Korrelation beschreibt?
8
6
4
2
0
-2
-4
-6
10
12
14
16
18
20
Anzahl Ärzte pro 100.000 Einwohner
3
Korrelation R = 0,86; rote Gerade passt „am besten“ auf die Daten
4
Lebenserwartung und
Gesundheitsausgaben
Brustkrebs und Sonnenbaden
34
73
32
72
Burstkrebsrate
Lebenserwartung (Männer)
74
71
70
69
30
28
26
24
68
22
67
20
200
66
200
400
600
800
1000
1200
1400
1600
300
400
500
600
Sonnenbestrahlung
Gesundheitsausgaben (Europa)
Korrelation R = 0,14;
Nicht statistisch signifikant unterschiedlich von 0,0
Korrelation R = -0,76
5
6
Korrelation
• inwieweit hängt die Wartungsdauer
eigentlich von der Vererbungstiefe ab?
• allgemein: gibt es eine stochastische
Abhängigkeit (Korrelation) zwischen den
Zufallsvariablen X und Y ?
• X = Vererbungstiefe, Y = Wartungsdauer
Exkurs in die Statistik:
Korrelation und Regression
7
8
Korrelationsanalyse
Varianz und Kovarianz
• Varianz:
• untersucht Korrelation anhand von
Stichproben
• benutzt Korrelationskoeffizienten zum
Testen der (Null-)Hypothese „X und Y
sind unabhängig“
(
var ( X ) = E ( X − E ( X ) )
2
)
• Kovarianz:
cov ( X , Y ) = E [( X − E ( X )) ⋅ (Y − E (Y ))]
• Wobei E ( X )
der Erwartungswert von X
9
Varianz und Kovarianz (Forts.)
10
Intuitive Erklärung für Kovarianz
cov( X , Y ) = E [( X − E ( X )) ⋅ (Y − E (Y ))]
• es gilt:
var ( X + Y ) = var ( X ) + var (Y ) + 2 ⋅ cov ( X , Y )
• die Kovarianz ist also der Ausgleichsterm
bez. der Additivität der Varianz
11
•
•
Wann wäre cov(X, Y) groß und positiv?
Wann wäre cov(X, Y) groß und negativ?
Der maximale Wert von |cov(X, Y)| ist das Produkt der
Standardabweichungen von X und Y. Damit Normieren!
12
Pearsons
Korrelationskoeffizienten
Pearsons 1. Koeffizient (Forts.)
• wenn r = 0 ist, dann heißen X und Y
unkorreliert
• sind X und Y unabhängig, dann ist r = 0 ;
die Umkehrung gilt nicht (Beispiel in
Kreyszig, Seite 308)
• 1. Definition: die folgende Kennzahl zu
den Zufallsvariablen X und Y
r :=
cov ( X , Y )
var ( X ) ⋅ var (Y )
• es gilt: − 1 ≤ r ≤ 1
13
14
Pearsons 1. Koeffizient (Forts.)
Pearsons 1. Koeffizient (Forts.)
• es gilt:
• r mißt also, wie stark Y linear von X
abhängt
• wenn r = ± 1 ist, dann sind X und Y
linear abhängig
(var (Y ))2 ⋅ (1 − r 2 ) = min
E [Y − (β ⋅ X + κ )]
β ,κ
• beim Minimieren wird versucht, Y im
Mittel (Erwartungswert) so gut es geht
durch linear transformiertes X zu
approximieren.
15
16
Pearsons
Korrelationskoeffizienten
Pearsons 2. Koeffizient (Forts.)
• .... und x der Stichproben-Mittelwert
• 2. Definition: der aus der konkreten
Stichprobe ermittelte Wert
R :=
x =
s xy
sx ⋅ s y
2
• .... sowie s x die Stichproben-Varianz
• dabei ist ....
s xy =
x 1 + x 2 + ... + x n
n
s x2 =
1
∑ ( xi − x ) ⋅ ( y i − y )
n −1
1
( xi − x ) 2
∑
n −1
17
Pearsons 2. Koeffizient (Forts.)
18
Zur Stichprobe
• gemessene Wertepaare ( xi , yi ) aus
Vererbungstiefe und (durchschnittlicher)
Wartungsdauer in den Versuchsgruppen
• z.B. liefert Gruppe G im Karlsruher
Experiment JAKK die drei Datenpunkte
• R wird als empirischer Korrelationskoeffizient bezeichnet
• R ist eine Schätzung für r, die aus der
Stichprobe berechnet wird
– (0, 116)
– (3, 132)
– (5, 135)
19
20
Unabhängigkeitstest in
unserem Beispiel
Vererbungstiefe vs.
Wartungsdauer
• Korrelationsanalyse (Pearson):
R 2 = 0,10 und p-Wert = 23 %
• Hypothese der Unabhängigkeit kann
nicht abgelehnt werden
• deutet auf geringe Korrelation zwischen
Vererbungstiefe X und Wartungsdauer Y
hin; siehe Punktwolke .....
21
Signifikanz und p-Wert
22
Signifikanz und p-Wert
• Angenommen wir erzeugen 2 Folgen von 25
Zufallszahlen.
• Wir paaren diese Folgen und berechnen den
Korrelationskoeffizienten R.
• R wird i.d.R. nicht null sein, obwohl keine Korrelation
besteht.
• Da es sich um eine Stichprobe handelt, könnte R z.B.
0,278 sein oder -0,03. Aber ein Wert von 0,95 wäre
unwahrscheinlich.
• Wann ist R groß genug, um annehmen zu können, dass
die wahre Korrelation von X und Y nicht null ist?
23
• Nullhypothese hier: X und Y sind unabhängig.
• Wann ist der aus der Stichprobe berechnete Wert
von R derart, dass die Nullhypothese
unwahrscheinlich ist?
• Die „Unwahrscheinlichkeit“ legt man als das
Signifikanzniveau α fest (z.B. 5 %).
• Dann berechnet man den Wert R, sowie den p-Wert,
d.h. die Wahrscheinlichkeit, dass der beobachtet
oder ein höherer Wert von R auftritt, unter der
Annahme der Nullhypothese.
• Wenn der p-Wert kleiner oder gleich α, dann lehnt
man die Nullhypothese als zu unwahrscheinlich ab
24
p-Wert
p-Wert und Hypothesen
• gegeben: eine Zufallsvariable S und eine
konkrete Beobachtung b ihres Werts
• per Definition ist der p-Wert gleich der
Wahrscheinlichkeit dafür, b oder einen
noch größeren Wert zu beobachten:
pval = P ( S ≥ b )
• gegeben:
– Signifikanzniveau α (z.B. 5 %)
– Statistik S (Stichprobenfunktion)
– konkrete Beobachtung b
• die Hypothese wird abgelehnt, wenn die
Beobachtung b „unwahrscheinlich“ ist
25
26
p-Wert und Hypothesen (Forts.)
p-Wert und Hypothesen (Forts.)
• das heißt, die Hypothese wird abgelehnt,
wenn
P( S ≥ b) ≤ α
• p-Wert für die Vererbungstiefe:
• pval ist also gerade das kleinste Niveau,
auf dem die Beobachtung noch signifikant
wäre (die Hypothese abgelehnt würde)
27
pval = 0,23
• die Hypothese der Unabhängigkeit
könnte also auf einem Niveau von 23 %
abgelehnt werden, aber nicht auf einem
Niveau von 5 % oder 10 %
28
Nochmal zur Stichprobe
Nochmal Unabhängigkeitstest
• sei X nun die Anzahl der Methoden, die
bei der Wartungsaufgabe verstanden
werden müssen (und Y weiterhin die
Wartungsdauer)
• z.B. liefert Gruppe G im Karlsruher
Experiment JAKK nun die Datenpunkte
• Korrelationsanalyse (Pearson):
R2 = 0,84 und p-Wert = 0,007
• deutet auf lineare Abhängigkeit zwischen
Methodenzahl X und Wartungsdauer Y
hin; siehe Punktwolke .....
• versuche lineare Regression auf den
Datenpunkten der Stichprobe
– (15, 116)
– (18, 132)
– (19, 135) usw.
29
Methodenzahl vs.
Wartungsdauer
30
Regressionsgerade
• gesucht ist die Gerade y = b ⋅ x + k zu
der die Datenpunkte ( x1 , y1 ) ..... ( xn , yn )
aus der Stichprobe einen minimalen
Abstand haben
• verwendeter Abstand:
n
a = ∑ ( yi − b ⋅ xi − k ) 2
i =1
31
32
Abstand bei linearer
Regression
Berechnung von b und k
Gerade
y = b⋅ x + k
yi
yi − b ⋅ xi − k
Ableiten von Abstand a nach b und k,
dann Nullsetzen ergibt (ausprobieren!):
b=
s xy
s x2
k = y −b⋅x
xi
33
34
Regressionsgerade und
Korrelationskoeffizient
• Formel für Berechnung von b deutet auf
Zusammenhang von Regression mit
Korrelationskoeffizient hin
ENDE
• Literatur: D.Howell, „Fundamental
Statistics for the Behavioral Sciences“,
Brooks/Cole Publishing Co, 1999.
35
36
Herunterladen