Document

Werbung
Empirische Softwaretechnik
Grundlagen der Statistik
Dr. Victor Pankratius ∙ Andreas Höfer
Wintersemester 2009/2010
IPD Tichy, Fakultät für Informatik
KIT – die Kooperation von Forschungszentrum Karlsruhe GmbH und Universität Karlsruhe (TH)
Das Problem:
Fragestellung „Korrelation“
Steigt der Wert einer Variablen, wenn der einer anderen ansteigt?
z.B. Ausbildung und Einkommen
Sinkt der Wert einer Variablen, wenn der einer anderen ansteigt?
Z.B. SW-Qualität und Vererbungstiefe
Wie kann man die „Stärke“ eines solchen Zusammenhangs
numerisch beschreiben?
Diskussion später: Gibt es auch einen kausalen
Zusammenhang?
2
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Einführende Beispiele - Streudiagramme (engl. Scatterplot)
Figure
Lebenserwartung
und 9.2
Gesundheitsausgaben
Lebenserwartung (Männer)
Life Expectancy and Health Care Costs
74
73
72
71
70
69
68
67
Quelle: [Howell 1999]
66
200
400
600
800
1000
1200
1400
Health Care Expenditures (Europa)
Gesundheitsausgaben
Korrelation r = 0,14
 nicht statistisch signifikant
3
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
1600
Einführende Beispiele
Brustkrebs und Sonnenbaden
Figure 9.3
Cancer Rate and Solar Radiation
34
Burstkrebsrate
Breast Cancer Rate
Quelle: [Howell 1999]
32
30
28
26
24
22
20
200
300
400
Solar Radiation
500
Sonnenbestrahlung
Korrelation r = -0,76
4
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
600
EXKURS IN DIE STATISTIK:
- Korrelation
- Regression
- Tests
5
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Skalentypen
Nominalskala
Merkmalsausprägungen bilden keine Reihenfolge
Beispiel: Religion, Geschlecht, Farbe
Ordinalskala
Rangordnung mit „größer als“ Beziehung, aber Abstände zwischen
Merkmalsausprägungen nicht quantifizierbar
Beispiel: Noten, Güteklassen, Rangplätze
Intervallskala
Eigenschaften wie Ordinalskala, aber zusätzlich auch Abstände zwischen
Merkmalsausprägungen wichtig; Nullpunkt willkürlich; Quotienten dürfen
aber nicht gebildet werden
Beispiel: Temperatur in °C (sinnlos: „20°C doppelt so warm wie 10°C“)
Verhältnisskala
Eigenschaften wie Intervallskala, aber absoluter Nullpunkt.
Beispiele: Körpergröße, Alter, Einkommen
6
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Korrelation
Allgemein: Gibt es eine stochastische Abhängigkeit
(Korrelation) zwischen den Zufallsvariablen X und Y?
Z.B. X = Vererbungstiefe, Y = Wartungsdauer
Korrelationsanalyse
untersucht Korrelation anhand von Stichproben
Benutzt Korrelationskoeffizienten zum Testen der
(Null-) Hypothese „X und Y sind unabhängig“
Wir befassen uns im Folgenden mit verhältnisskalierten Daten
7
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Zur Erinnerung: Varianz und Kovarianz
Sei E(X) der Erwartungswert einer Zufallsvariablen X
Streuungsmaße
Varianz:
Standardabweichung:
8
var X
X
sX
E X E(X)
2
var X
Kovarianz:
cov X, Y
E X EX
d.h. Varianz auch:
cov X, X
Var (x)
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Y EY
Varianz und Kovarianz (Forts.)
Es gilt:
var X Y
cov( X
E X
Y, X
Y)
Y EX
Y
X
Y EX
Y
…s. Tafel…
var X Y
var X
var Y
2 cov X, Y
Die Kovarianz ist also ein Ausgleichsterm bezüglich der
Additivität der Varianz
9
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Kovarianz
cov X, Y
E X EX
Y EY
Der maximale Wert von |cov(X, Y)| ist das Produkt der
Standardabweichungen von X und Y.
 Damit Normieren!
10
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Pearsons Korrelationskoeffizienten
1. Definition: die folgende Kennzahl zu den
Zufallsvariablen X und Y
es gilt: r :
cov X, Y
; 1 r
var X var Y
1
wenn r = 0 ist, dann heißen X und Y unkorreliert
sind X und Y unabhängig, dann ist r = 0
die Umkehrung gilt nicht (Beispiel in [Kreyszig 1998, S. 308])
11
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Pearsons Korrelationskoeffizienten
2. Definition: der aus der konkreten Stichprobe ermittelte
Wert
dabei ist...
sxy
R:
sx sy
mit
12
14.12.2009
sxy
1
n 1
xi
i
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
x
yi
y
Pearsons 2. Koeffizient (Forts.)
... und
xder Stichproben-Mittelwert
x1
x
x2
...
xn
n
2
... sowie s x die Stichproben-Varianz
s
13
14.12.2009
2
x
1
n 1
(xi
x)2
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Pearsons 2. Koeffizient (Forts.)
R wird als empirischer Korrelationskoeffizient bezeichnet
R ist eine Schätzung für r, die aus der Stichprobe
berechnet wird
Hier nicht besprochen: Schätzer haben „BLUE“ Eigenschaft (Best
Linear Unbiased Estimator)
14
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Regressionsanalyse
Allgemeines Modell der linearen Regression [vgl. Fahrmeir84]
yˆ b1 b2 x1 b3 x2 ... bp x p e
y ist die sog. abhängige Variable (beobachtbar, metrisch skaliert)
x1 … xp sind die sog. unabhängigen Variablen (kontrolliert variiert)
bi mit j = 0…p sind unbekannte Modellparameter, die ermittelt
werden sollen (fester Parametervektor)
e ist Fehlervariable; Wert dieser Zufallsvariable nicht beobachtbar
Für p = 1 spricht man von linearer Einfachregression
15
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Regressionsanalyse
Für xnj, yn als n-te boebachtete Werte von xj, y und en als
zugehörigen nicht beobachteten Fehler ergibt sich:
yˆ n
b1 b2 xn1 b3 xn 2 ... bp xnp
en
Wichtige Annahmen
e ist normalverteilt
Erwartungswert E(e) = 0
Var(en) = 2 ( 2 ist weiterer i. A. unbekannter Modellparameter)
Alle Fehlervariablen en haben gleiche Varianz
als Homoskedastizitaet bezeichnet
cov(em, en) = 0 , m ≠ n
Unkorreliertheit der Fehlervariablen
16
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
2.
Diese Eigenschaft wird
Regressionsanalyse
Im Folgenden Betrachtung für p = 1:
yˆ i
17
14.12.2009
b1 b2 xi
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Regressionsanalyse
y
Tatsächlicher
Punkt
yi
ŷi
Residuum (Fehler)
ei = yi – ŷi
ŷi = b1 + b2xi
Durch Modell
geschätzter Punkt
xi
18
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
x
Regressionsanalyse – Kleinster Quadrate Methode
y
Minimiere
Flächensumme dieser
Abweichungsquadrate
(SAQ)
Tatsächlicher
Punkt
yi
ŷi
ŷi = b1 + b2xi
Durch Modell
geschätzter Punkt
xi
19
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
x
Regressionsgerade
Gesucht ist die Gerade y = b1 + b2x zu der die Datenpunkte
(x1, y1) ... (xn, yn) aus der Stichprobe einen minimalen
Abstand haben
D.h. minimiere
N
SAQ(b 1,b2 )
( yi
yˆ i )
N
2
i 1
( yi b1 b2 xi ) 2
i 1
Was sind die Variablen?
xi, yi sind die beobachteten Größen,
b1, b2 sind die Veränderlichen
20
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Regressionsgerade
Setze die beiden ersten partiellen Ableitungen = 0
N
( yi b1 b2 xi ) 2
SAQ(b 1, b2 )
i 1
SAQ(b 1,b2 )
b1
SAQ(b 1,b2 )
b2
0
mit
SAQ(b 1, b 2 )
b1
SAQ(b 1, b 2 )
b2
21
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
N
2
( yi b1 b2 xi )
i 1
N
2
xi ( yi b1 b2 xi )
i 1
Regressionsgerade
Daraus (vgl. Tafel) ergibt sich das zu lösende
Gleichungssystem
N
n b1 b2
N
xi
yi
i 1
N
b1
14.12.2009
N
xi b2
i 1
22
i 1
xi
i 1
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
2
N
xi yi
i 1
Regressionsgerade
Auflösen nach b1, b2 (vgl. Tafel):
b1
y b2 x
N
xi yi n x y
b2
i 1
N
xi
2
n x2
i 1
Verzicht auf weiteren Beweis, dass hier tatsächlich Minimum vorliegt.
23
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Regressionsanalyse
Die Regressionsgerade verläuft durch den Schwerpunkt
( x, y ) der Punktwolke (ohne Beweis).
y
Tatsächlicher
Punkt
ŷi = b1 + b2x
yi
ŷi
Residuum (Fehler)
ei = yi – ŷi
Durch Modell nicht erklärte Abweichung (SQR)
ŷ i - y
y
Durch Modell
geschätzter Punkt
xi
24
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
x
Durch Modell erklärte Abweichung
(SQE)
Regressionsgerade und Korrelation
Maß für die von der Regressionsfunktion gelieferte
Erklärung; Güte des Regressionsansatzes
Bestimmtheitsmaß
N
r
SQE
SQT
2
( yˆ i
y) 2
SQT „Quadratsumme der zu
erklärenden Abweichungen“
= SQE + SQR
( yi
y) 2
0  keine Erklärung
1  vollständige Erklärung
i 1
N
i 1
Verwandtschaft:
r
25
14.12.2009
2
Kann als der empirische Korrelationskoeffizient
aufgefasst werden. Definitionsgemäß hat er das
Vorzeichen der Steigung der Regressionsgeraden.
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
200
400
600
Lineare Regression
„funktioniert“ hier
nicht.
0
Höhe der Quecksilbersäule [mm]
800
Ausblick: Nicht-lineare Regression
0
50
100
150
200
Temperatur [°C]
26
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
250
300
350
e x/50,23
0,64 7,73
200
400
600
y
0
Höhe der Quecksilbersäule [mm]
800
Ausblick: Nicht-lineare Regression
0
50
100
150
200
Temperatur [°C]
27
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
250
300
350
Eine nichtlineare Funktion
passt besser.
Weitere Untersuchungen bei der Regression
Besitzen die Variablen überhaupt einen signifikanten
Einfluss, d.h., tragen sie zur Erklärung der Variation der
Zielvariablen bei?
Dazu muss die Fehlervarianz geschätzt und statistische Tests
durchgeführt werden
Variablenselektion
Zu viele zu erklärende Variablen können dazu führen, dass die
Schätzer für b schlechter werden
28
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Schätzverfahren allgemein
Von einem Stichprobenergebnis ausgehend sollen die
unbekannten Parameter einer Grundgesamtheit geschätzt
werden
Punkteschätzung: Für den zu schätzenden Parameter wird
aufgrund einer Stichprobe ein einziger Schätzwert angegeben.
Beispiel: Für das unbekannte arithmetische Mittel µ einer
Grundgesamtheit wird das arithmetische Mittel x der Stichprobe
verwendet. x wird als konkrete Realisation einer Zufallsvariablen X
interpretiert; X wird als Schätzfunktion für µ benutzt.
Intervallschätzung: Ausgehend von einer Stichprobe wird ein
Konfidenzintervall (Vertrauensbereich) angegeben, in dem der zu
schätzende Parameter der Grundgesamtheit mit einer bestimmten
Wahrscheinlichkeit liegt.
29
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Schätzverfahren allgemein
Verfahren zur Konstruktion von Schätzfunktionen
Maximum-Likelihood-Methode
Prinzip: Bester Schätzwert maximiert Likelihood-Funktion
Dazu später mehr…
Schätzer sollten folgende Eigenschaften haben
Erwartungstreue: Der Erwartungswert stimmt mit dem wahren
Parameter überein (im Bsp. mit arithmetischen Mittel: E( X ) µ )
Effizienz: Wähle die Schätzfunktion mit der kleinsten Varianz
Konsistenz: Für Stichprobenumfang 
fällt Schätzwert mit zu
schätzendem Parameter zusammen
Suffizienz: Sämtliche Informationen über den zu schätzenden
Parameter, die die Stichprobe enthält, werden ausgeschöpft
30
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Testverfahren
Wie kann man mit Hilfe von Zufallsstichproben prüfen, ob
bestimmte Hypothesen richtig oder falsch sind? Dabei
unterscheidet man zwischen 2 Arten von Hypothesen:
Parameterhypothesen: Hypothesen über unbekannte Parameter
einer Grundgesamtheit
 Überprüfung mit Parametertests
(Hinweis: Wichtige Unterscheidung zw. parametrisch und nicht-parametrisch)
Verteilungshypothesen: Hypothesen über die unbekannte
Verteilungsform einer Grundgesamtheit
 Überprüfung mit Verteilungstests
(z.B. Chi-Quadrat-Anpassungstest, Kolmogorov-Smirnov-Anpassungstest)
31
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Testverfahren
Typisches Vorgehen
1.
Aufstellung von Nullhypothese H0 und Alternativhypothese HA
Festlegung des Signifikanzniveaus p = α
(d.h. die Wahrscheinlichkeit, mit der H0 verworfen wird, obwohl sie
wahr ist)
2.
Festlegung einer geeigneten Prüfgröße und Bestimmung der
Testverteilung bei Gültigkeit der Nullhypothese
3.
Bestimmung des kritischen Bereichs (Ablehnungsbreich für H0)
4.
Berechnung des Wertes der Prüfgröße (sog. Teststatistik)
5.
Entscheidung und Interpretation
[vgl. Bleymüller et al.]
32
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Hypothesentests - Vokabular 1/2
Forschungshypothese: Die Annahme, die im Experiment
überprüft werden soll.
Nullhypothese H0: Die Hypothese, die durch ein
statistisches Verfahren getestet wird; üblicherweise das
Gegenteil der Forschungshypothese.
Alternativhypothese HA: Die Hypothese, die akzeptiert wird,
wenn H0 verworfen wird; üblicherweise die
Forschungshypothese.
33
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Hypothesentests - Vokabular 2/2
Signifikanzniveau: Die Wahrscheinlichkeit, mit der H0
verworfen wird, obwohl sie wahr ist.
Ablehnungsbereich: Ergebnisbereich eines Experiments,
der zur Ablehnung von H0 führt.
Annahmebereich: Ergebnisbereich eines Experiments, der
zur Annahme von H0 führt.
Kritischer Wert c: Ein Wert, der den Annahmebereich vom
Ablehnungsbereich trennt.
34
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Ablehnungsbereich
Formulierung der Hypothese definiert Ablehnungsbereich
Einseitiger Test: Ein einziger kritischer Wert c
Ablehnungsbereich ist ein einziger zusammenhängender Bereich.
Zweiseitiger Test: Zwei kritische Werte c1 und c2.
Gesamter Ablehnungsbereich besteht aus zwei Bereichen.
35
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Ablehnungsbereich
Beispiel
Fabrikant behauptet, Ausschussanteil seiner Lieferung wäre
höchstens 10 %  Nullhypothese H0: t <= 0,1
Abnehmer formuliert Alternativhypothese
Einseitige Fragestellung (Überprüfung durch „einseitigen Test“)
HA: t > 0,1 (Ausschussanteil größer als 10 %)
Fabrikant behauptet, Ausschussanteil seiner Lieferung wäre 10 %
 Nullhypothese H0: t = 0,1
Abnehmer formuliert Alternativhypothese
Zweiseitige Fragestellung (Überprüfung durch „zweiseitigen Test“)
HA: t ≠ 0,1 (Ausschussanteil ungleich 10 %, d.h, entweder t < 0,1 oder t > 0,1)
36
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Ablehnungsbereich
Beispiel: Fabrikant Nullhypothese H0: t0 <= 0,1;
Abnehmer formuliert HA: t > t0 = 0,1 (Ausschussanteil größer als 10%).
Normalverteilungsannahme mit µ = 0,1; σ = 0,03; Signifikanzniveau α = 0,05.
α = 0,05
1-α = 0,95
0
0,10
0,15
Ausschussanteil
0,20
pc = 0,149
0
H0 annehmen
zc = 1,645
3
Prüfgröße: Aus Ausschussanteil P
standardisierte Zufallsvariable Z
H0 ablehnen
Kritischer Bereich
37
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Annahme- und Ablehnungsbereich
P( X
Annahmebereich
rechtsseitig
H0: μA ≤ μ0
HA: μA > μ0
μ0
linksseitig
H0: μA ≥ μ0
HA: μA < μ0
P( X c) 0
Ablehnungsbereich
α
P( X
c1 )
0
c2 )
38
14.12.2009
Ablehnungsbereich
α
c
μ0
0
zweiseitig Ablehnungsbereich
H0: μA = μ0
HA: μA ≠ μ0
α/2
0
Annahmebereich
c
P( X
c)
c1
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Annahmebereich
μ0
Ablehnungsbereich
c2
α/2
Fehlerarten beim Hypothesentest
Die Ablehnung von H0 kann entweder die richtige oder die
falsche Entscheidung sein.
Wenn „H0 trifft nicht zu“ wahr ist, dann trifft man die richtige
Entscheidung. Wenn „ H0 trifft zu“ wahr ist, trifft man die falsche
Entscheidung.
Analog zwei Möglichkeiten im Falle der Annahme von H0
Intuitives Beispiel
Feueralarm trifft bei der Feuerwehr ein; soll ein Einsatz beginnen?
Es könnte ein Fehlalarm sein.
„Es brennt tatsächlich“  2 Möglichkeiten: Feuerwehr rückt aus oder nicht
„Es brennt nicht“  2 Möglichkeiten: Feuerwehr rückt aus oder nicht
Welche Art von Fehler würde man bevorzugen?
39
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Fehlerarten beim Hypothesentest
Fehler 1. Art: H0 wird
ablehnen, obwohl sie wahr
ist (p = α).
Unbekannte
Realität
Fehler 2. Art: H0 wird
angenommen, obwohl sie
falsch ist (p = β).
40
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Entscheidung
(Zur Erinnerung: Signifikanzniveau α: Die
Wahrscheinlichkeit, mit der H0 abgelehnt wird,
obwohl sie wahr ist.)
H0 wahr
H0 falsch
H0 ablehnen
α
1-β
H0 annehmen
1-α
β
Fehler 1. und 2. Art
H0
HA
β
μ0
H0 annehmen
α
c
μA
H0 ablehnen
Wenn H0 falsch, gilt die Verteilung von H1
41
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
p-Wert
Alternative zur Vorgehensweise beim Testen mit Bestimmung einer
Prüfgröße und deren Vergleich mit einem kritischen Wert (Schritt 4)
Idee: Vergleiche sog. p-Wert direkt mit Signifikanzniveau α
p-Wert gibt die Wahrscheinlichkeit an, unter H0 den beobachteten
Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu
erhalten
Lehne H0 ab, wenn p-Wert kleiner ist als α
α
p
z142
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
z
P-Wert
Wenn p-Wert sehr klein ist, is es unter H0 sehr unwahrscheinlich,
diesen Prüfgrößenwert zu beobachten. Das spricht eher dafür, dass H0
nicht zutrifft.
α
p
z143
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
z
Güte
Güte/Macht/Trennschärfe eines Tests: 1-ß
Interpretiert als die Wahrscheinlichkeit, die Alternative
anzunehmen, wenn sie stimmt.
1-ß: Wahrscheinlichkeit, keinen Fehler 2. Art zu begehen
Wenn die Güte gering ist, dann ist die Wahrscheinlichkeit, die
Alternative anzunehmen, gering. Man spricht dann von einer
„verpassten Chance“.
Gütefunktion g(c) gibt die Ablehnwahrscheinlichkeit in Abhängigkeit
von c an
Falls möglich, wähle unter allen -Niveau-Tests denjenigen aus,
der die größte Macht besitzt.
44
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Zusammenhang von α und Güte
H0
HA
β
H0
α
μ0
HA
β
c μA
α
μ0
c
μA
Vergrößerung von α…
Verschiebt den kritischen Wert c nach links.
Reduziert ß  Erhöht Güte.
Aber:
α,die Wahrscheinlichkeit für den Fehler 1. Art, erhöht!
45
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Zusammenhang von μ0 - μA und Güte
H0
HA
β
H0
α
μ0
c μA
HA
β
μ0
α
c
μA
Großer Abstand zwischen μ0 and μA…
Bedeutet großen Unterschied in den Mittelwerten (Effektgröße)
Reduziert die Überlappungen der Verteilungen.
Erhöht Güte.
Umgekehrt bedeutet geringer Abstand geringe Güte.
46
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Zusammenhang Stichprobengröße und Güte
H0
H0
HA
β
α
μ0
HA
c μA
β
α
μ0
c
μA
Bei größerer Stichprobe ändert sich die Verteilung der Statistik:
die Varianz wird kleiner
Daher engerer Annahmebereich – und größere Güte bei
gleicher Alternative
Bei großen Stichprobenumfängen ist das Risiko einer
“verpassten Chance” geringer.
47
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Beispiele für parametrische Tests
Einstichprobentests zu Lagealternativen
t-Test für den Erwartungswert
Voraussetzungen: Gegeben Zufallsvariable X und X1,…,Xn
unabhängige Wiederholungen, alle identisch normalverteilt mit
X ~ N (µ, ²), aber die Varianz ² der Grundgesamtheit ist unbekannt
Ein hypothetischer Erwartungswert µo soll verglichen werden mit dem
tatsächlichen, unbekannten Erwartungswert m=E(X).
Beispiel für Hypothesenpaar für zweiseitiges Testproblem:
H0: µ = µ0
HA: µ ≠ µ0
Als Teststatistik nimmt man
mit S: Stichproben-Standardabweichung, n Stichprobengröße,
T ist Student-t-verteilt
Anmerkung: Ist ² bekannt, benutzt man
den sog. Gauß-Test mit der Teststatistik
Dazu in der nächsten Vorlesung mehr
48
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Stichprobenmittelwert
Beispiele für parametrische Tests
Beispiel t-Test
Eine Maschine stellt Plättchen mit normalverteilter Dicke her und
Sollwert (d.h., Mittelwert) µ = 0,25 cm. Eine Stichprobe von n = 10
Werten liefert ein arithmetische Mittel von x = 0,253 cm bei einer
Standardabweichung von s = 0,003 cm. Überprüfen Sie, ob die
Maschine noch exakt arbeitet, mit einem Signifikanzniveau von
α = 0,05.
H0: µ = 0,25 cm; HA: µ ≠ 0,25 cm
Prüfgröße T ist Student-t-verteilt mit n - 1 = 9 Freiheitsgraden
Bei zweiseitiger Fragestellung liefert Tabelle für α = 0,05 und = 9
den kritischen Wert tc = 2,262. Damit auch tcu = -tc = -2,62 und
tco = tc = 2,262
Für -2,262 ≤ t ≤ 2,262 wird H0 also nicht abgelehnt
T ist hier (0,253 - 0,25) (0,003 √10) = 3,162
Nullhypothese wird abgelehnt. Maschine arbeitet nicht mehr exakt.
49
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
WILCOXONRANGSUMMENTEST
50
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Motivation
In Experimenten ist die Datenmenge oft klein
Daten sind nicht normalverteilt
Dann ist t-Test nicht anwendbar.
Deshalb nicht-parametrische Tests für Lagebestimmung
verwenden
Nicht-parametrisch heißt: Es werden keine Annahmen über die
Parameter der Verteilung gemacht
Wilcoxon-Rangsummen Test (oder Mann-Whitney U-Test)
ist ein nicht-parametrischer, Zweistichproben-Test.
51
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Wilcoxon Rangsummen-Test –
Voraussetzungen
Die Stichproben X und Y sind unabhängig.
Die Grundgesamtheiten von X und Y haben stetige
Verteilungsfunktionen F und G.
Hypothesen für zweiseitigen Test:
H0 : F(z) G(z)
H1 : F(z θ) G(z) für alle z R, θ 0
Die Verteilungen von F und G besitzen dieselbe Form, können
aber möglicherweise um einen Betrag verschoben sein.
Unter diesen Voraussetzungen gilt, dass die Gleichheit der
Mediane äquivalent zur Gleichheit der Verteilungsfunktionen ist.
52
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Annahmen
Beobachtungen x1,...xm und y1,...,yn haben mindestens
ordinales Messniveau, d.h. die Beobachtungen können
sortiert werden
ObdA: m ≤ n
N=m+n
Stichprobenvariablen X1, ..., Xm und Y1,…, Yn unabhängig
53
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Bemerkungen
Sind F und G normalverteilt so benütze
t-Test auf Gleichheit der Erwartungswerte
F-Test auf Gleichheit der Varianzen
Normalverteilung in der Praxis jedoch oft nicht gegeben
Deshalb: Benutze nicht-parametrisches Gegenstück
54
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Vorgehen Schritt für Schritt
1.
2.
3.
4.
55
Kombiniere die Stichproben x und y der Größen n und m.
Sortiere die kombinierte Stichprobe der Größe N = n + m.
(Ordinalskala geht hier ein)
Vergebe Ränge von 1 bis N, beginnend mit 1.
Summiere die Ränge der kleineren Stichprobe;
ergibt WN
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Wilcoxon Rangsummen-Test
Beispiel
Stichprobe x = (3, 8), Größe m = 2
Stichprobe y = (6, 10 , 12), Größe n = 3
Sortierte Stichprobe
3
6
8
10
12
Quelle
X
Y
X
Y
Y
Rang (i)
1
2
3
4
5
Kleinere Stichprobe (V)
1
0
1
0
0
Teststatistik:
N
W5 = 1 + 3 = 4
WN =
rg (Vi )
i 1
56
14.12.2009
n m
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
i Vi
i 1
Wie wahrscheinlich ist W5=4 ?
Bei einem Vektor der Länge n+m ist die
Anzahl der Untervektoren der Länge m gleich
n m
m
Unter H0 haben alle Untervektoren der Länge n+m die
gleiche Wahrscheinlichkeit (!)
Es sei a(c) = Anzahl der Vektoren v mit Rangsumme c
Dann ist die Wahrscheinlichkeit für das Auftreten eines
bestimmten Rangsummenwertes
PH 0 (WN
57
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
c)
a (c )
m n
m
Wie wahrscheinlich ist W5 = 4?
Ein Vektor der Größe N hat
N
N!
(n m)!
n! m!
m m! (N m)!
Teilvektoren der Größe m.
5
10
2
Wenn H0 gilt, sind alle
Teilvektoren gleich
wahrscheinlich.
Zähle die Anzahl der
Teilvektoren mit der
Rangsumme w = 4, dividiere
durch 10
58
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
W5 = w
Teilvektoren
P(W5 = w)
3
(1, 2)
0,1
4
(1, 3)
0,1
5
(1, 4) (2, 3)
0,2
6
(1, 5) (2, 4)
0,2
7
(2, 5) (3, 4)
0,2
8
(3, 5)
0,1
9
(4, 5)
0,1
Vorgehen (fortgesetzt)
Wähle das Signifikanzniveau α
Teste H0:
5.
6.
a)
Zweiseitiger Test:
Lehne H0 ab, wenn WN ≤ wα/2 oder WN ≥ w1-α/2
p-Wert: P(WN ≤ wα/2) + P(WN ≥ w1-α/2)
b)
59
14.12.2009
Einseitige Tests: Verwende nur eine der oberen
Ablehnungsbedingungen und wα.
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Beispiel: Programmieraufwand
Programmierzeiten der Kontrollgruppe Xi und der
jContract-Gruppe Yj in Minuten:
Xi
270
291
276
469
729
392
Yj
702
471
399
1148
375
223
282
Nullhypothese: beide Verteilungen gleich
Alternative: jContract kleiner (einseitiger Test)
60
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Programmieraufwand
Kombinierte Stichprobe mit Rängen
223 270 276 282 291 375
y x
x y x y
1 2
3 4 5 6
392 399 469 471 702 729 1148
x
y x y y x
y
7
8 9 10 11 12 13
WN = 2 + 3 + 5 + 7 + 9 + 12 = 38
61
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Programmieraufwand
Ist jetzt G = F?
Hypothese ablehnen wenn WN ≤ w
(einseitiger Test auf kleiner)
Für α = 0,05 haben wir wα = 29
Also: Da WN = 38 > 29 = wα lehnen wir Hypothese nicht ab
Ergebnis: Zusicherungen reduzieren den
Programmieraufwand nicht
62
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Was tun bei gleichen Werten?
Wenn gleiche Stichprobenwerte vorliegen, ordne
Durchschnittsränge auf alle Elemente der Gruppe
Gleiche Stichprobenwerte heißen Bindungen (engl. ties)
Beispiel: x=(100 110 120 120 120 150)
Ränge:
( 1 2 4 4 4 6)
63
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Zusammenfassung
Der Wicoxon-Test prüft zwei Stichproben, ob sie aus der
gleichen Verteilung stammen; erfordert keine
Normalverteilungsannahme.
Wenn man mehr als zwei Stichproben hat (z.B. aus drei
Softwaretechniken), heißt der analoge Test „Kruskal-Wallis
Varianzanalyse“ („Kruskal-Wallis One-way Analysis of
Variance“)
Wenn man ein Vorher-Nachher-Experiment hat (es werden
Werte vor und nach Einführung einer neuen Methode
gemessen) und man will Unterschiede in den VorherNachher-Differenzen testen, dann benutzt man den
„Wilcoxon Matched-Pairs Signed-Ranks Test.“
64
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Nächster Termin
Beim nächsten Mal (9.11.) bitte ein Laptop
mit R installiert mitbringen!
www.r-project.org
65
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Literatur
[Howell 1999] David C. Howell, Fundamental Statistics for
the Behavioral Sciences, Brooks/Cole Publishing Co, 1999.
Bleymüller et al., Statistik für Wirtschaftswissenschaftler,
Verlag Vahlen
Fahrmeir et al., Multivariate statistische Verfahren, de
Gruyter Verlag, 1984
Fahrmeir et al., Statistik, Springer, 1999
Hartung, Statistik, Oldenbourg, 1999
66
14.12.2009
Empirische Softwaretechnik – Wintersemester 2009/2010
Grundlagen der Statistik
Herunterladen