Empirische Softwaretechnik Grundlagen der Statistik Dr. Victor Pankratius ∙ Andreas Höfer Wintersemester 2009/2010 IPD Tichy, Fakultät für Informatik KIT – die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH) Das Problem: Fragestellung „Korrelation“ Steigt der Wert einer Variablen, wenn der einer anderen ansteigt? z.B. Ausbildung und Einkommen Sinkt der Wert einer Variablen, wenn der einer anderen ansteigt? Z.B. SW-Qualität und Vererbungstiefe Wie kann man die „Stärke“ eines solchen Zusammenhangs numerisch beschreiben? Diskussion später: Gibt es auch einen kausalen Zusammenhang? 2 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Einführende Beispiele - Streudiagramme (engl. Scatterplot) Figure Lebenserwartung und 9.2 Gesundheitsausgaben Lebenserwartung (Männer) Life Expectancy and Health Care Costs 74 73 72 71 70 69 68 67 Quelle: [Howell 1999] 66 200 400 600 800 1000 1200 1400 Health Care Expenditures (Europa) Gesundheitsausgaben Korrelation r = 0,14 nicht statistisch signifikant 3 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik 1600 Einführende Beispiele Brustkrebs und Sonnenbaden Figure 9.3 Cancer Rate and Solar Radiation 34 Burstkrebsrate Breast Cancer Rate Quelle: [Howell 1999] 32 30 28 26 24 22 20 200 300 400 Solar Radiation 500 Sonnenbestrahlung Korrelation r = -0,76 4 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik 600 EXKURS IN DIE STATISTIK: - Korrelation - Regression - Tests 5 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Skalentypen Nominalskala Merkmalsausprägungen bilden keine Reihenfolge Beispiel: Religion, Geschlecht, Farbe Ordinalskala Rangordnung mit „größer als“ Beziehung, aber Abstände zwischen Merkmalsausprägungen nicht quantifizierbar Beispiel: Noten, Güteklassen, Rangplätze Intervallskala Eigenschaften wie Ordinalskala, aber zusätzlich auch Abstände zwischen Merkmalsausprägungen wichtig; Nullpunkt willkürlich; Quotienten dürfen aber nicht gebildet werden Beispiel: Temperatur in °C (sinnlos: „20°C doppelt so warm wie 10°C“) Verhältnisskala Eigenschaften wie Intervallskala, aber absoluter Nullpunkt. Beispiele: Körpergröße, Alter, Einkommen 6 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Korrelation Allgemein: Gibt es eine stochastische Abhängigkeit (Korrelation) zwischen den Zufallsvariablen X und Y? Z.B. X = Vererbungstiefe, Y = Wartungsdauer Korrelationsanalyse untersucht Korrelation anhand von Stichproben Benutzt Korrelationskoeffizienten zum Testen der (Null-) Hypothese „X und Y sind unabhängig“ Wir befassen uns im Folgenden mit verhältnisskalierten Daten 7 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Zur Erinnerung: Varianz und Kovarianz Sei E(X) der Erwartungswert einer Zufallsvariablen X Streuungsmaße Varianz: Standardabweichung: 8 var X X sX E X E(X) 2 var X Kovarianz: cov X, Y E X EX d.h. Varianz auch: cov X, X Var (x) 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Y EY Varianz und Kovarianz (Forts.) Es gilt: var X Y cov( X E X Y, X Y) Y EX Y X Y EX Y …s. Tafel… var X Y var X var Y 2 cov X, Y Die Kovarianz ist also ein Ausgleichsterm bezüglich der Additivität der Varianz 9 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Kovarianz cov X, Y E X EX Y EY Der maximale Wert von |cov(X, Y)| ist das Produkt der Standardabweichungen von X und Y. Damit Normieren! 10 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Pearsons Korrelationskoeffizienten 1. Definition: die folgende Kennzahl zu den Zufallsvariablen X und Y es gilt: r : cov X, Y ; 1 r var X var Y 1 wenn r = 0 ist, dann heißen X und Y unkorreliert sind X und Y unabhängig, dann ist r = 0 die Umkehrung gilt nicht (Beispiel in [Kreyszig 1998, S. 308]) 11 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Pearsons Korrelationskoeffizienten 2. Definition: der aus der konkreten Stichprobe ermittelte Wert dabei ist... sxy R: sx sy mit 12 14.12.2009 sxy 1 n 1 xi i Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik x yi y Pearsons 2. Koeffizient (Forts.) ... und xder Stichproben-Mittelwert x1 x x2 ... xn n 2 ... sowie s x die Stichproben-Varianz s 13 14.12.2009 2 x 1 n 1 (xi x)2 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Pearsons 2. Koeffizient (Forts.) R wird als empirischer Korrelationskoeffizient bezeichnet R ist eine Schätzung für r, die aus der Stichprobe berechnet wird Hier nicht besprochen: Schätzer haben „BLUE“ Eigenschaft (Best Linear Unbiased Estimator) 14 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Regressionsanalyse Allgemeines Modell der linearen Regression [vgl. Fahrmeir84] yˆ b1 b2 x1 b3 x2 ... bp x p e y ist die sog. abhängige Variable (beobachtbar, metrisch skaliert) x1 … xp sind die sog. unabhängigen Variablen (kontrolliert variiert) bi mit j = 0…p sind unbekannte Modellparameter, die ermittelt werden sollen (fester Parametervektor) e ist Fehlervariable; Wert dieser Zufallsvariable nicht beobachtbar Für p = 1 spricht man von linearer Einfachregression 15 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Regressionsanalyse Für xnj, yn als n-te boebachtete Werte von xj, y und en als zugehörigen nicht beobachteten Fehler ergibt sich: yˆ n b1 b2 xn1 b3 xn 2 ... bp xnp en Wichtige Annahmen e ist normalverteilt Erwartungswert E(e) = 0 Var(en) = 2 ( 2 ist weiterer i. A. unbekannter Modellparameter) Alle Fehlervariablen en haben gleiche Varianz als Homoskedastizitaet bezeichnet cov(em, en) = 0 , m ≠ n Unkorreliertheit der Fehlervariablen 16 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik 2. Diese Eigenschaft wird Regressionsanalyse Im Folgenden Betrachtung für p = 1: yˆ i 17 14.12.2009 b1 b2 xi Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Regressionsanalyse y Tatsächlicher Punkt yi ŷi Residuum (Fehler) ei = yi – ŷi ŷi = b1 + b2xi Durch Modell geschätzter Punkt xi 18 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik x Regressionsanalyse – Kleinster Quadrate Methode y Minimiere Flächensumme dieser Abweichungsquadrate (SAQ) Tatsächlicher Punkt yi ŷi ŷi = b1 + b2xi Durch Modell geschätzter Punkt xi 19 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik x Regressionsgerade Gesucht ist die Gerade y = b1 + b2x zu der die Datenpunkte (x1, y1) ... (xn, yn) aus der Stichprobe einen minimalen Abstand haben D.h. minimiere N SAQ(b 1,b2 ) ( yi yˆ i ) N 2 i 1 ( yi b1 b2 xi ) 2 i 1 Was sind die Variablen? xi, yi sind die beobachteten Größen, b1, b2 sind die Veränderlichen 20 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Regressionsgerade Setze die beiden ersten partiellen Ableitungen = 0 N ( yi b1 b2 xi ) 2 SAQ(b 1, b2 ) i 1 SAQ(b 1,b2 ) b1 SAQ(b 1,b2 ) b2 0 mit SAQ(b 1, b 2 ) b1 SAQ(b 1, b 2 ) b2 21 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik N 2 ( yi b1 b2 xi ) i 1 N 2 xi ( yi b1 b2 xi ) i 1 Regressionsgerade Daraus (vgl. Tafel) ergibt sich das zu lösende Gleichungssystem N n b1 b2 N xi yi i 1 N b1 14.12.2009 N xi b2 i 1 22 i 1 xi i 1 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik 2 N xi yi i 1 Regressionsgerade Auflösen nach b1, b2 (vgl. Tafel): b1 y b2 x N xi yi n x y b2 i 1 N xi 2 n x2 i 1 Verzicht auf weiteren Beweis, dass hier tatsächlich Minimum vorliegt. 23 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Regressionsanalyse Die Regressionsgerade verläuft durch den Schwerpunkt ( x, y ) der Punktwolke (ohne Beweis). y Tatsächlicher Punkt ŷi = b1 + b2x yi ŷi Residuum (Fehler) ei = yi – ŷi Durch Modell nicht erklärte Abweichung (SQR) ŷ i - y y Durch Modell geschätzter Punkt xi 24 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik x Durch Modell erklärte Abweichung (SQE) Regressionsgerade und Korrelation Maß für die von der Regressionsfunktion gelieferte Erklärung; Güte des Regressionsansatzes Bestimmtheitsmaß N r SQE SQT 2 ( yˆ i y) 2 SQT „Quadratsumme der zu erklärenden Abweichungen“ = SQE + SQR ( yi y) 2 0 keine Erklärung 1 vollständige Erklärung i 1 N i 1 Verwandtschaft: r 25 14.12.2009 2 Kann als der empirische Korrelationskoeffizient aufgefasst werden. Definitionsgemäß hat er das Vorzeichen der Steigung der Regressionsgeraden. Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik 200 400 600 Lineare Regression „funktioniert“ hier nicht. 0 Höhe der Quecksilbersäule [mm] 800 Ausblick: Nicht-lineare Regression 0 50 100 150 200 Temperatur [°C] 26 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik 250 300 350 e x/50,23 0,64 7,73 200 400 600 y 0 Höhe der Quecksilbersäule [mm] 800 Ausblick: Nicht-lineare Regression 0 50 100 150 200 Temperatur [°C] 27 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik 250 300 350 Eine nichtlineare Funktion passt besser. Weitere Untersuchungen bei der Regression Besitzen die Variablen überhaupt einen signifikanten Einfluss, d.h., tragen sie zur Erklärung der Variation der Zielvariablen bei? Dazu muss die Fehlervarianz geschätzt und statistische Tests durchgeführt werden Variablenselektion Zu viele zu erklärende Variablen können dazu führen, dass die Schätzer für b schlechter werden 28 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Schätzverfahren allgemein Von einem Stichprobenergebnis ausgehend sollen die unbekannten Parameter einer Grundgesamtheit geschätzt werden Punkteschätzung: Für den zu schätzenden Parameter wird aufgrund einer Stichprobe ein einziger Schätzwert angegeben. Beispiel: Für das unbekannte arithmetische Mittel µ einer Grundgesamtheit wird das arithmetische Mittel x der Stichprobe verwendet. x wird als konkrete Realisation einer Zufallsvariablen X interpretiert; X wird als Schätzfunktion für µ benutzt. Intervallschätzung: Ausgehend von einer Stichprobe wird ein Konfidenzintervall (Vertrauensbereich) angegeben, in dem der zu schätzende Parameter der Grundgesamtheit mit einer bestimmten Wahrscheinlichkeit liegt. 29 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Schätzverfahren allgemein Verfahren zur Konstruktion von Schätzfunktionen Maximum-Likelihood-Methode Prinzip: Bester Schätzwert maximiert Likelihood-Funktion Dazu später mehr… Schätzer sollten folgende Eigenschaften haben Erwartungstreue: Der Erwartungswert stimmt mit dem wahren Parameter überein (im Bsp. mit arithmetischen Mittel: E( X ) µ ) Effizienz: Wähle die Schätzfunktion mit der kleinsten Varianz Konsistenz: Für Stichprobenumfang fällt Schätzwert mit zu schätzendem Parameter zusammen Suffizienz: Sämtliche Informationen über den zu schätzenden Parameter, die die Stichprobe enthält, werden ausgeschöpft 30 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Testverfahren Wie kann man mit Hilfe von Zufallsstichproben prüfen, ob bestimmte Hypothesen richtig oder falsch sind? Dabei unterscheidet man zwischen 2 Arten von Hypothesen: Parameterhypothesen: Hypothesen über unbekannte Parameter einer Grundgesamtheit Überprüfung mit Parametertests (Hinweis: Wichtige Unterscheidung zw. parametrisch und nicht-parametrisch) Verteilungshypothesen: Hypothesen über die unbekannte Verteilungsform einer Grundgesamtheit Überprüfung mit Verteilungstests (z.B. Chi-Quadrat-Anpassungstest, Kolmogorov-Smirnov-Anpassungstest) 31 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Testverfahren Typisches Vorgehen 1. Aufstellung von Nullhypothese H0 und Alternativhypothese HA Festlegung des Signifikanzniveaus p = α (d.h. die Wahrscheinlichkeit, mit der H0 verworfen wird, obwohl sie wahr ist) 2. Festlegung einer geeigneten Prüfgröße und Bestimmung der Testverteilung bei Gültigkeit der Nullhypothese 3. Bestimmung des kritischen Bereichs (Ablehnungsbreich für H0) 4. Berechnung des Wertes der Prüfgröße (sog. Teststatistik) 5. Entscheidung und Interpretation [vgl. Bleymüller et al.] 32 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Hypothesentests - Vokabular 1/2 Forschungshypothese: Die Annahme, die im Experiment überprüft werden soll. Nullhypothese H0: Die Hypothese, die durch ein statistisches Verfahren getestet wird; üblicherweise das Gegenteil der Forschungshypothese. Alternativhypothese HA: Die Hypothese, die akzeptiert wird, wenn H0 verworfen wird; üblicherweise die Forschungshypothese. 33 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Hypothesentests - Vokabular 2/2 Signifikanzniveau: Die Wahrscheinlichkeit, mit der H0 verworfen wird, obwohl sie wahr ist. Ablehnungsbereich: Ergebnisbereich eines Experiments, der zur Ablehnung von H0 führt. Annahmebereich: Ergebnisbereich eines Experiments, der zur Annahme von H0 führt. Kritischer Wert c: Ein Wert, der den Annahmebereich vom Ablehnungsbereich trennt. 34 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Ablehnungsbereich Formulierung der Hypothese definiert Ablehnungsbereich Einseitiger Test: Ein einziger kritischer Wert c Ablehnungsbereich ist ein einziger zusammenhängender Bereich. Zweiseitiger Test: Zwei kritische Werte c1 und c2. Gesamter Ablehnungsbereich besteht aus zwei Bereichen. 35 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Ablehnungsbereich Beispiel Fabrikant behauptet, Ausschussanteil seiner Lieferung wäre höchstens 10 % Nullhypothese H0: t <= 0,1 Abnehmer formuliert Alternativhypothese Einseitige Fragestellung (Überprüfung durch „einseitigen Test“) HA: t > 0,1 (Ausschussanteil größer als 10 %) Fabrikant behauptet, Ausschussanteil seiner Lieferung wäre 10 % Nullhypothese H0: t = 0,1 Abnehmer formuliert Alternativhypothese Zweiseitige Fragestellung (Überprüfung durch „zweiseitigen Test“) HA: t ≠ 0,1 (Ausschussanteil ungleich 10 %, d.h, entweder t < 0,1 oder t > 0,1) 36 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Ablehnungsbereich Beispiel: Fabrikant Nullhypothese H0: t0 <= 0,1; Abnehmer formuliert HA: t > t0 = 0,1 (Ausschussanteil größer als 10%). Normalverteilungsannahme mit µ = 0,1; σ = 0,03; Signifikanzniveau α = 0,05. α = 0,05 1-α = 0,95 0 0,10 0,15 Ausschussanteil 0,20 pc = 0,149 0 H0 annehmen zc = 1,645 3 Prüfgröße: Aus Ausschussanteil P standardisierte Zufallsvariable Z H0 ablehnen Kritischer Bereich 37 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Annahme- und Ablehnungsbereich P( X Annahmebereich rechtsseitig H0: μA ≤ μ0 HA: μA > μ0 μ0 linksseitig H0: μA ≥ μ0 HA: μA < μ0 P( X c) 0 Ablehnungsbereich α P( X c1 ) 0 c2 ) 38 14.12.2009 Ablehnungsbereich α c μ0 0 zweiseitig Ablehnungsbereich H0: μA = μ0 HA: μA ≠ μ0 α/2 0 Annahmebereich c P( X c) c1 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Annahmebereich μ0 Ablehnungsbereich c2 α/2 Fehlerarten beim Hypothesentest Die Ablehnung von H0 kann entweder die richtige oder die falsche Entscheidung sein. Wenn „H0 trifft nicht zu“ wahr ist, dann trifft man die richtige Entscheidung. Wenn „ H0 trifft zu“ wahr ist, trifft man die falsche Entscheidung. Analog zwei Möglichkeiten im Falle der Annahme von H0 Intuitives Beispiel Feueralarm trifft bei der Feuerwehr ein; soll ein Einsatz beginnen? Es könnte ein Fehlalarm sein. „Es brennt tatsächlich“ 2 Möglichkeiten: Feuerwehr rückt aus oder nicht „Es brennt nicht“ 2 Möglichkeiten: Feuerwehr rückt aus oder nicht Welche Art von Fehler würde man bevorzugen? 39 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Fehlerarten beim Hypothesentest Fehler 1. Art: H0 wird ablehnen, obwohl sie wahr ist (p = α). Unbekannte Realität Fehler 2. Art: H0 wird angenommen, obwohl sie falsch ist (p = β). 40 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Entscheidung (Zur Erinnerung: Signifikanzniveau α: Die Wahrscheinlichkeit, mit der H0 abgelehnt wird, obwohl sie wahr ist.) H0 wahr H0 falsch H0 ablehnen α 1-β H0 annehmen 1-α β Fehler 1. und 2. Art H0 HA β μ0 H0 annehmen α c μA H0 ablehnen Wenn H0 falsch, gilt die Verteilung von H1 41 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik p-Wert Alternative zur Vorgehensweise beim Testen mit Bestimmung einer Prüfgröße und deren Vergleich mit einem kritischen Wert (Schritt 4) Idee: Vergleiche sog. p-Wert direkt mit Signifikanzniveau α p-Wert gibt die Wahrscheinlichkeit an, unter H0 den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten Lehne H0 ab, wenn p-Wert kleiner ist als α α p z142 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik z P-Wert Wenn p-Wert sehr klein ist, is es unter H0 sehr unwahrscheinlich, diesen Prüfgrößenwert zu beobachten. Das spricht eher dafür, dass H0 nicht zutrifft. α p z143 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik z Güte Güte/Macht/Trennschärfe eines Tests: 1-ß Interpretiert als die Wahrscheinlichkeit, die Alternative anzunehmen, wenn sie stimmt. 1-ß: Wahrscheinlichkeit, keinen Fehler 2. Art zu begehen Wenn die Güte gering ist, dann ist die Wahrscheinlichkeit, die Alternative anzunehmen, gering. Man spricht dann von einer „verpassten Chance“. Gütefunktion g(c) gibt die Ablehnwahrscheinlichkeit in Abhängigkeit von c an Falls möglich, wähle unter allen -Niveau-Tests denjenigen aus, der die größte Macht besitzt. 44 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Zusammenhang von α und Güte H0 HA β H0 α μ0 HA β c μA α μ0 c μA Vergrößerung von α… Verschiebt den kritischen Wert c nach links. Reduziert ß Erhöht Güte. Aber: α,die Wahrscheinlichkeit für den Fehler 1. Art, erhöht! 45 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Zusammenhang von μ0 - μA und Güte H0 HA β H0 α μ0 c μA HA β μ0 α c μA Großer Abstand zwischen μ0 and μA… Bedeutet großen Unterschied in den Mittelwerten (Effektgröße) Reduziert die Überlappungen der Verteilungen. Erhöht Güte. Umgekehrt bedeutet geringer Abstand geringe Güte. 46 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Zusammenhang Stichprobengröße und Güte H0 H0 HA β α μ0 HA c μA β α μ0 c μA Bei größerer Stichprobe ändert sich die Verteilung der Statistik: die Varianz wird kleiner Daher engerer Annahmebereich – und größere Güte bei gleicher Alternative Bei großen Stichprobenumfängen ist das Risiko einer “verpassten Chance” geringer. 47 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Beispiele für parametrische Tests Einstichprobentests zu Lagealternativen t-Test für den Erwartungswert Voraussetzungen: Gegeben Zufallsvariable X und X1,…,Xn unabhängige Wiederholungen, alle identisch normalverteilt mit X ~ N (µ, ²), aber die Varianz ² der Grundgesamtheit ist unbekannt Ein hypothetischer Erwartungswert µo soll verglichen werden mit dem tatsächlichen, unbekannten Erwartungswert m=E(X). Beispiel für Hypothesenpaar für zweiseitiges Testproblem: H0: µ = µ0 HA: µ ≠ µ0 Als Teststatistik nimmt man mit S: Stichproben-Standardabweichung, n Stichprobengröße, T ist Student-t-verteilt Anmerkung: Ist ² bekannt, benutzt man den sog. Gauß-Test mit der Teststatistik Dazu in der nächsten Vorlesung mehr 48 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Stichprobenmittelwert Beispiele für parametrische Tests Beispiel t-Test Eine Maschine stellt Plättchen mit normalverteilter Dicke her und Sollwert (d.h., Mittelwert) µ = 0,25 cm. Eine Stichprobe von n = 10 Werten liefert ein arithmetische Mittel von x = 0,253 cm bei einer Standardabweichung von s = 0,003 cm. Überprüfen Sie, ob die Maschine noch exakt arbeitet, mit einem Signifikanzniveau von α = 0,05. H0: µ = 0,25 cm; HA: µ ≠ 0,25 cm Prüfgröße T ist Student-t-verteilt mit n - 1 = 9 Freiheitsgraden Bei zweiseitiger Fragestellung liefert Tabelle für α = 0,05 und = 9 den kritischen Wert tc = 2,262. Damit auch tcu = -tc = -2,62 und tco = tc = 2,262 Für -2,262 ≤ t ≤ 2,262 wird H0 also nicht abgelehnt T ist hier (0,253 - 0,25) (0,003 √10) = 3,162 Nullhypothese wird abgelehnt. Maschine arbeitet nicht mehr exakt. 49 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik WILCOXONRANGSUMMENTEST 50 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Motivation In Experimenten ist die Datenmenge oft klein Daten sind nicht normalverteilt Dann ist t-Test nicht anwendbar. Deshalb nicht-parametrische Tests für Lagebestimmung verwenden Nicht-parametrisch heißt: Es werden keine Annahmen über die Parameter der Verteilung gemacht Wilcoxon-Rangsummen Test (oder Mann-Whitney U-Test) ist ein nicht-parametrischer, Zweistichproben-Test. 51 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Wilcoxon Rangsummen-Test – Voraussetzungen Die Stichproben X und Y sind unabhängig. Die Grundgesamtheiten von X und Y haben stetige Verteilungsfunktionen F und G. Hypothesen für zweiseitigen Test: H0 : F(z) G(z) H1 : F(z θ) G(z) für alle z R, θ 0 Die Verteilungen von F und G besitzen dieselbe Form, können aber möglicherweise um einen Betrag verschoben sein. Unter diesen Voraussetzungen gilt, dass die Gleichheit der Mediane äquivalent zur Gleichheit der Verteilungsfunktionen ist. 52 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Annahmen Beobachtungen x1,...xm und y1,...,yn haben mindestens ordinales Messniveau, d.h. die Beobachtungen können sortiert werden ObdA: m ≤ n N=m+n Stichprobenvariablen X1, ..., Xm und Y1,…, Yn unabhängig 53 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Bemerkungen Sind F und G normalverteilt so benütze t-Test auf Gleichheit der Erwartungswerte F-Test auf Gleichheit der Varianzen Normalverteilung in der Praxis jedoch oft nicht gegeben Deshalb: Benutze nicht-parametrisches Gegenstück 54 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Vorgehen Schritt für Schritt 1. 2. 3. 4. 55 Kombiniere die Stichproben x und y der Größen n und m. Sortiere die kombinierte Stichprobe der Größe N = n + m. (Ordinalskala geht hier ein) Vergebe Ränge von 1 bis N, beginnend mit 1. Summiere die Ränge der kleineren Stichprobe; ergibt WN 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Wilcoxon Rangsummen-Test Beispiel Stichprobe x = (3, 8), Größe m = 2 Stichprobe y = (6, 10 , 12), Größe n = 3 Sortierte Stichprobe 3 6 8 10 12 Quelle X Y X Y Y Rang (i) 1 2 3 4 5 Kleinere Stichprobe (V) 1 0 1 0 0 Teststatistik: N W5 = 1 + 3 = 4 WN = rg (Vi ) i 1 56 14.12.2009 n m Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik i Vi i 1 Wie wahrscheinlich ist W5=4 ? Bei einem Vektor der Länge n+m ist die Anzahl der Untervektoren der Länge m gleich n m m Unter H0 haben alle Untervektoren der Länge n+m die gleiche Wahrscheinlichkeit (!) Es sei a(c) = Anzahl der Vektoren v mit Rangsumme c Dann ist die Wahrscheinlichkeit für das Auftreten eines bestimmten Rangsummenwertes PH 0 (WN 57 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik c) a (c ) m n m Wie wahrscheinlich ist W5 = 4? Ein Vektor der Größe N hat N N! (n m)! n! m! m m! (N m)! Teilvektoren der Größe m. 5 10 2 Wenn H0 gilt, sind alle Teilvektoren gleich wahrscheinlich. Zähle die Anzahl der Teilvektoren mit der Rangsumme w = 4, dividiere durch 10 58 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik W5 = w Teilvektoren P(W5 = w) 3 (1, 2) 0,1 4 (1, 3) 0,1 5 (1, 4) (2, 3) 0,2 6 (1, 5) (2, 4) 0,2 7 (2, 5) (3, 4) 0,2 8 (3, 5) 0,1 9 (4, 5) 0,1 Vorgehen (fortgesetzt) Wähle das Signifikanzniveau α Teste H0: 5. 6. a) Zweiseitiger Test: Lehne H0 ab, wenn WN ≤ wα/2 oder WN ≥ w1-α/2 p-Wert: P(WN ≤ wα/2) + P(WN ≥ w1-α/2) b) 59 14.12.2009 Einseitige Tests: Verwende nur eine der oberen Ablehnungsbedingungen und wα. Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Beispiel: Programmieraufwand Programmierzeiten der Kontrollgruppe Xi und der jContract-Gruppe Yj in Minuten: Xi 270 291 276 469 729 392 Yj 702 471 399 1148 375 223 282 Nullhypothese: beide Verteilungen gleich Alternative: jContract kleiner (einseitiger Test) 60 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Programmieraufwand Kombinierte Stichprobe mit Rängen 223 270 276 282 291 375 y x x y x y 1 2 3 4 5 6 392 399 469 471 702 729 1148 x y x y y x y 7 8 9 10 11 12 13 WN = 2 + 3 + 5 + 7 + 9 + 12 = 38 61 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Programmieraufwand Ist jetzt G = F? Hypothese ablehnen wenn WN ≤ w (einseitiger Test auf kleiner) Für α = 0,05 haben wir wα = 29 Also: Da WN = 38 > 29 = wα lehnen wir Hypothese nicht ab Ergebnis: Zusicherungen reduzieren den Programmieraufwand nicht 62 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Was tun bei gleichen Werten? Wenn gleiche Stichprobenwerte vorliegen, ordne Durchschnittsränge auf alle Elemente der Gruppe Gleiche Stichprobenwerte heißen Bindungen (engl. ties) Beispiel: x=(100 110 120 120 120 150) Ränge: ( 1 2 4 4 4 6) 63 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Zusammenfassung Der Wicoxon-Test prüft zwei Stichproben, ob sie aus der gleichen Verteilung stammen; erfordert keine Normalverteilungsannahme. Wenn man mehr als zwei Stichproben hat (z.B. aus drei Softwaretechniken), heißt der analoge Test „Kruskal-Wallis Varianzanalyse“ („Kruskal-Wallis One-way Analysis of Variance“) Wenn man ein Vorher-Nachher-Experiment hat (es werden Werte vor und nach Einführung einer neuen Methode gemessen) und man will Unterschiede in den VorherNachher-Differenzen testen, dann benutzt man den „Wilcoxon Matched-Pairs Signed-Ranks Test.“ 64 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Nächster Termin Beim nächsten Mal (9.11.) bitte ein Laptop mit R installiert mitbringen! www.r-project.org 65 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik Literatur [Howell 1999] David C. Howell, Fundamental Statistics for the Behavioral Sciences, Brooks/Cole Publishing Co, 1999. Bleymüller et al., Statistik für Wirtschaftswissenschaftler, Verlag Vahlen Fahrmeir et al., Multivariate statistische Verfahren, de Gruyter Verlag, 1984 Fahrmeir et al., Statistik, Springer, 1999 Hartung, Statistik, Oldenbourg, 1999 66 14.12.2009 Empirische Softwaretechnik – Wintersemester 2009/2010 Grundlagen der Statistik