Experiment zur Vererbungstiefe Empirische Softwaretechnik • Softwaretechnik: Korrelation und Regression – die Vererbungstiefe ist kein guter Schätzer für den Wartungsaufwand • Statistik: Prof. Dr. Walter F. Tichy Dr. Frank Padberg – Korrelation – p-Wert – Lineare Regression Sommersemester 2007 1 2 Streudiagramme (engl. Scatterplot) Das Problem: Säuglingssterblichkeit und ärztliche Versorgung • Sind zwei Variablen korreliert? 10 Säuglingssterblichkeit – Steigt eine Variable mit einer anderen an? • z.B. Ausbildung und Einkommen – Sinkt eine Variable wenn eine andere steigt? • Z.B. SW-Qualität und Vererbungstiefe • Gibt es einen numerischen Wert, der die „Stärke“ der Korrelation beschreibt? 8 6 4 2 0 -2 -4 -6 10 12 14 16 18 20 Anzahl Ärzte pro 100.000 Einwohner 3 Korrelation R = 0,86; rote Gerade passt „am besten“ auf die Daten 4 Lebenserwartung und Gesundheitsausgaben Brustkrebs und Sonnenbaden 34 73 32 72 Burstkrebsrate Lebenserwartung (Männer) 74 71 70 69 30 28 26 24 68 22 67 20 200 66 200 400 600 800 1000 1200 1400 1600 300 400 500 600 Sonnenbestrahlung Gesundheitsausgaben (Europa) Korrelation R = 0,14; Nicht statistisch signifikant unterschiedlich von 0,0 Korrelation R = -0,76 5 6 Korrelation • inwieweit hängt die Wartungsdauer eigentlich von der Vererbungstiefe ab? • allgemein: gibt es eine stochastische Abhängigkeit (Korrelation) zwischen den Zufallsvariablen X und Y ? • X = Vererbungstiefe, Y = Wartungsdauer Exkurs in die Statistik: Korrelation und Regression 7 8 Korrelationsanalyse Varianz und Kovarianz • Varianz: • untersucht Korrelation anhand von Stichproben • benutzt Korrelationskoeffizienten zum Testen der (Null-)Hypothese „X und Y sind unabhängig“ ( var ( X ) = E ( X − E ( X ) ) 2 ) • Kovarianz: cov ( X , Y ) = E [( X − E ( X )) ⋅ (Y − E (Y ))] • Wobei E ( X ) der Erwartungswert von X 9 Varianz und Kovarianz (Forts.) 10 Intuitive Erklärung für Kovarianz cov( X , Y ) = E [( X − E ( X )) ⋅ (Y − E (Y ))] • es gilt: var ( X + Y ) = var ( X ) + var (Y ) + 2 ⋅ cov ( X , Y ) • die Kovarianz ist also der Ausgleichsterm bez. der Additivität der Varianz 11 • • Wann wäre cov(X, Y) groß und positiv? Wann wäre cov(X, Y) groß und negativ? Der maximale Wert von |cov(X, Y)| ist das Produkt der Standardabweichungen von X und Y. Damit Normieren! 12 Pearsons Korrelationskoeffizienten Pearsons 1. Koeffizient (Forts.) • wenn r = 0 ist, dann heißen X und Y unkorreliert • sind X und Y unabhängig, dann ist r = 0 ; die Umkehrung gilt nicht (Beispiel in Kreyszig, Seite 308) • 1. Definition: die folgende Kennzahl zu den Zufallsvariablen X und Y r := cov ( X , Y ) var ( X ) ⋅ var (Y ) • es gilt: − 1 ≤ r ≤ 1 13 14 Pearsons 1. Koeffizient (Forts.) Pearsons 1. Koeffizient (Forts.) • es gilt: • r mißt also, wie stark Y linear von X abhängt • wenn r = ± 1 ist, dann sind X und Y linear abhängig (var (Y ))2 ⋅ (1 − r 2 ) = min E [Y − (β ⋅ X + κ )] β ,κ • beim Minimieren wird versucht, Y im Mittel (Erwartungswert) so gut es geht durch linear transformiertes X zu approximieren. 15 16 Pearsons Korrelationskoeffizienten Pearsons 2. Koeffizient (Forts.) • .... und x der Stichproben-Mittelwert • 2. Definition: der aus der konkreten Stichprobe ermittelte Wert R := x = s xy sx ⋅ s y 2 • .... sowie s x die Stichproben-Varianz • dabei ist .... s xy = x 1 + x 2 + ... + x n n s x2 = 1 ∑ ( xi − x ) ⋅ ( y i − y ) n −1 1 ( xi − x ) 2 ∑ n −1 17 Pearsons 2. Koeffizient (Forts.) 18 Zur Stichprobe • gemessene Wertepaare ( xi , yi ) aus Vererbungstiefe und (durchschnittlicher) Wartungsdauer in den Versuchsgruppen • z.B. liefert Gruppe G im Karlsruher Experiment JAKK die drei Datenpunkte • R wird als empirischer Korrelationskoeffizient bezeichnet • R ist eine Schätzung für r, die aus der Stichprobe berechnet wird – (0, 116) – (3, 132) – (5, 135) 19 20 Unabhängigkeitstest in unserem Beispiel Vererbungstiefe vs. Wartungsdauer • Korrelationsanalyse (Pearson): R 2 = 0,10 und p-Wert = 23 % • Hypothese der Unabhängigkeit kann nicht abgelehnt werden • deutet auf geringe Korrelation zwischen Vererbungstiefe X und Wartungsdauer Y hin; siehe Punktwolke ..... 21 Signifikanz und p-Wert 22 Signifikanz und p-Wert • Angenommen wir erzeugen 2 Folgen von 25 Zufallszahlen. • Wir paaren diese Folgen und berechnen den Korrelationskoeffizienten R. • R wird i.d.R. nicht null sein, obwohl keine Korrelation besteht. • Da es sich um eine Stichprobe handelt, könnte R z.B. 0,278 sein oder -0,03. Aber ein Wert von 0,95 wäre unwahrscheinlich. • Wann ist R groß genug, um annehmen zu können, dass die wahre Korrelation von X und Y nicht null ist? 23 • Nullhypothese hier: X und Y sind unabhängig. • Wann ist der aus der Stichprobe berechnete Wert von R derart, dass die Nullhypothese unwahrscheinlich ist? • Die „Unwahrscheinlichkeit“ legt man als das Signifikanzniveau α fest (z.B. 5 %). • Dann berechnet man den Wert R, sowie den p-Wert, d.h. die Wahrscheinlichkeit, dass der beobachtet oder ein höherer Wert von R auftritt, unter der Annahme der Nullhypothese. • Wenn der p-Wert kleiner oder gleich α, dann lehnt man die Nullhypothese als zu unwahrscheinlich ab 24 p-Wert p-Wert und Hypothesen • gegeben: eine Zufallsvariable S und eine konkrete Beobachtung b ihres Werts • per Definition ist der p-Wert gleich der Wahrscheinlichkeit dafür, b oder einen noch größeren Wert zu beobachten: pval = P ( S ≥ b ) • gegeben: – Signifikanzniveau α (z.B. 5 %) – Statistik S (Stichprobenfunktion) – konkrete Beobachtung b • die Hypothese wird abgelehnt, wenn die Beobachtung b „unwahrscheinlich“ ist 25 26 p-Wert und Hypothesen (Forts.) p-Wert und Hypothesen (Forts.) • das heißt, die Hypothese wird abgelehnt, wenn P( S ≥ b) ≤ α • p-Wert für die Vererbungstiefe: • pval ist also gerade das kleinste Niveau, auf dem die Beobachtung noch signifikant wäre (die Hypothese abgelehnt würde) 27 pval = 0,23 • die Hypothese der Unabhängigkeit könnte also auf einem Niveau von 23 % abgelehnt werden, aber nicht auf einem Niveau von 5 % oder 10 % 28 Nochmal zur Stichprobe Nochmal Unabhängigkeitstest • sei X nun die Anzahl der Methoden, die bei der Wartungsaufgabe verstanden werden müssen (und Y weiterhin die Wartungsdauer) • z.B. liefert Gruppe G im Karlsruher Experiment JAKK nun die Datenpunkte • Korrelationsanalyse (Pearson): R2 = 0,84 und p-Wert = 0,007 • deutet auf lineare Abhängigkeit zwischen Methodenzahl X und Wartungsdauer Y hin; siehe Punktwolke ..... • versuche lineare Regression auf den Datenpunkten der Stichprobe – (15, 116) – (18, 132) – (19, 135) usw. 29 Methodenzahl vs. Wartungsdauer 30 Regressionsgerade • gesucht ist die Gerade y = b ⋅ x + k zu der die Datenpunkte ( x1 , y1 ) ..... ( xn , yn ) aus der Stichprobe einen minimalen Abstand haben • verwendeter Abstand: n a = ∑ ( yi − b ⋅ xi − k ) 2 i =1 31 32 Abstand bei linearer Regression Berechnung von b und k Gerade y = b⋅ x + k yi yi − b ⋅ xi − k Ableiten von Abstand a nach b und k, dann Nullsetzen ergibt (ausprobieren!): b= s xy s x2 k = y −b⋅x xi 33 34 Regressionsgerade und Korrelationskoeffizient • Formel für Berechnung von b deutet auf Zusammenhang von Regression mit Korrelationskoeffizient hin ENDE • Literatur: D.Howell, „Fundamental Statistics for the Behavioral Sciences“, Brooks/Cole Publishing Co, 1999. 35 36