s - Institut für Informatik

Werbung
Universität Potsdam
Institut für Informatik
Lehrstuhl Maschinelles Lernen
Hypothesenbewertung
Christoph Sawade/Niels Landwehr
Tobias Scheffer
Überblick
Wiederholung: Hypothesenbewertung



Verfahren
Anwendungen
Konfidenzintervalle

ROC-Analyse

Statistische Tests


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
2
Überblick
Wiederholung: Hypothesenbewertung



Verfahren
Anwendungen
Konfidenzintervalle

ROC-Analyse

Statistische Tests


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

p-Wert
Vorzeichen-, Wald-, t- und Pearsons-Test
3
Hypothesenbewertung
Klassifikation, Regression: Lernproblem


Eingabe: Trainingsdaten L = (x1 , y1 ),..., (x m , ym )
Ausgabe: Hypothese (Modell) f : X → Y
f ( x) =
?∈ Y
x∈ X
Testbeispiel

Ziel des Lernens: genaue Vorhersagen treffen

„Hypothesenbewertung“: Abschätzung der
Genauigkeit von Vorhersagen

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Schätzproblem: was ist eine gute Schätzung des
erwarteten Fehlers?
4
Verlustfunktionen

Instanz (x,y), Hypothese sagt f(x).
Verlustfunktion definiert, wie schlecht das ist.
 ( y, f ( x)) Verlust der Vorhersage f(x) auf Instanz (x,y)



Nicht-negativ: ∀y, y ' : ( y, y ') ≥ 0
Problem-spezifisch, gegeben.
Verlustfunktionen für Klassifikation



Sawade/Landwehr/Scheffer, Maschinelles Lernen II

=
( y, y ') 0,=
wenn y y '; 1, sonst
Zero-one loss:
Klassenabhängige Kostenmatrix: ( y, y ') = c yy '
Verlustfunktionen für Regression

Squared error:
( y, y =
') ( y − y ') 2
5
Hypothesenbewertung
Zentrale Annahme: dem Lernproblem liegt eine
(unbekannte) Verteilung p(x,y) zugrunde
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Verteilung für Label
gegeben Instanz
Verteilung über
Instanzen
p ( x, y ) = p ( x ) p ( y | x )

Empirisches Risiko:
1
Rˆ ( f ) =
m
∑
m
j =1
l ( y j , f (x j ))
6
Fehler eines Schätzers
Empirischer Fehler ist Schätzer
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

1 m
Rˆ ( f ) = ∑ j =1 ( y j , f (x j ))
m

Schätzer ist Zufallsvariable.
Wert hängt von Zufallsexperiment „Messung des
empirischen Risikos“ ab
(xi , yi ) ~ p (x, y )
Welche (xi , yi ) werden gezogen?


(
)
( )
( )
2
2
Bias Rˆ + Var Rˆ
  Rˆ − R  =


Bias dominiert
Wert Rˆ ( f )
R
Varianz dominiert
R
7
Bias eines Schätzers
Schätzer


Ansonsten hat
einen Bias:
E[ Rˆ ( f )] − R( f )
Bias < 0.
Schätzer ist pessimistisch, wenn


Rˆ ( f )
Schätzer ist optimistisch, wenn


ist erwartungstreu, genau dann wenn:
E[ Rˆ ( f )] = R( f )

=
Bia s

Rˆ ( f )
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Bias > 0.
Schätzer ist erwartungstreu, wenn

Bias = 0.
8
Varianz eines Schätzers
Schätzer
Rˆ ( f )
hat eine Varianz
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Va [rRˆ ( f )] =
E[( Rˆ ( f ) − E[ Rˆ ( f )]) 2 ] =
E[ Rˆ ( f ) 2 ] − E[ Rˆ ( f )]2




Je größer die Stichprobe ist, die zum Schätzen
verwendet wird, desto geringer ist die Varianz.
Genaue Form der Varianz hängt von der Verlustfunktion
ab.
Hohe Varianz: großer „Zufallsanteil“ bei der Bestimmung
des empirischen Risikos.
Großer Bias: systematischer Fehler bei der Bestimmung
des empirischen Risikos.
9
Hypothesenbewertung: Risikoschätzung

Empirisches Risiko auf Daten T =
(x1 , y1 ),..., (x m , ym )
:
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wichtig: Wo kommt T her?
 Trainingsdaten (T=L)?


Hold-out: Verfügbare Daten in disjunkte L und T
aufteilen.
Cross-Validation (Spezialfall: Leave-one-out)
10
Holdout-Testing



Starte Lernalgorithmus mit Daten L, gewinne so
Hypothese f L .
Ermittle empirisches Risiko RˆT ( f L ) auf Daten T.
Starte Lernalgorithmus auf Daten D, gewinne so
Hypothese f D .
Ausgabe: Hypothese f D , benutze RˆT ( f L ) als
Schätzer für das Risiko von f D
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

11
Cross Validation


Gegeben: Daten D = (x1 , y1 ),..., (x d , yd )
Teile D =
in n Abschnitte Di =
(xi , yi ),..., (xi , yi ) , k
n
D
=
mit
i =1 Di und Di ∩ D j = 0
Wiederhole für i=1..n
 Trainiere fi mit Li = D \ Di.
ˆ ( f ) auf D .
 Bestimme empirisches Risiko R
D
i
i
1
1
k
k
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

d /n
i
Training examples
12
Cross Validation
Mittle empirische Risikoschätzungen auf den
jeweiligen Testmengen Di :
R=


1
n
∑
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

n
ˆ (f )
R
i
i =1 Di
Trainiere fD auf allen Daten D.
Liefere Hypothese fD und Schätzer R .
Training examples
13
Leave-One-Out Cross-Validation
Spezialfall n= d heisst auch leave-one-out
Fehlerschätzung
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

d
14
Überblick
Wiederholung: Hypothesenbewertung



Verfahren
Anwendungen
Konfidenzintervalle

ROC-Analyse

Statistische Tests


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
15
Anwendungen Hypothesenevaluierung
Verfahren hat einen Parameter, den wir einstellen
müssen
 Regularisierungsparameter λ
f w*

arg min fw
∑ ( f
i
2
x
w
y
+
λ
(
),
)
||
||
w
i
i
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

λ =?
(Hyper)Parameter, der Modellklasse bestimmt, z.B.
Polynomgrad bei polynomieller Regression
M
f w ( x) = ∑ wi x i
M=?
i =0

In allen diesen Fällen ist der Trainingsfehler kein
geeignetes Entscheidungskriterium!

Besser Fehlerschätzung mit Holdout-Menge oder
Cross-Validierung
16
Beispiel polynomielle Regression:
Training vs. Testfehler
Erfolg des Lernens hängt vom gewählten Polynomgrad M ab,
der Komplexität des Modells kontrolliert (hier besonders stark,
weil Modell nicht regularisiert)
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

17
Regularisierte Polynomielle Regression


Regularisierer wirkt wie eine Begrenzung der
Modellkomplexität und verhindert Überanpassung
In der Praxis am besten, Modellkomplexität durch
Regularisierung zu kontrollieren (direkter Parameter wie
bei Polynomen oft nicht verfügbar)
Regularisierer kann durch Fehlerschätzung (HoldoutTesting oder Cross-Validation) eingestellt werden.
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

18
Triple-Cross-Validation
Ziel: Abschätzung der Genauigkeit von
Vorhersagen unter optimalen Parametern
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

19
Triple-Cross-Validation


Gegeben: Daten D = (x1 , y1 ),..., (x d , yd )
Teile D =
in n Abschnitte Di =
(xi , yi ),..., (xi , yi ) , k d / n
n
D
=
mit
i =1 Di und Di ∩ D j = 0
Wiederhole für i=1..n
m
0
 Teile Di in m Abschnitte mit Di =  j =1 Di , j und Di , j ∩ Di , k =
 Wiederhole für j=1..m
1





1
k
k
Trainiere fi,j,C mit Lj = Di \ Di,j f.a. möglichen Parameter C
Bestimme empirisches Risiko RˆC ( fi , j ,C ) auf Di,j.
Bestimme C* mit minimalen Risiko RˆC
Trainiere fi mit Li = D \ Di und C*
Bestimme empirisches Risiko Rˆ D ( f i ) auf Di.
i
20
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Triple-Cross-Validation
Mittle empirische Risikoschätzungen auf den
jeweiligen Testmengen Di :
R=


1
n
∑
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

n
ˆ (f )
R
i
i =1 Di
Trainiere fD auf allen Daten D.
Liefere Hypothese fD und Schätzer R .
21
Überblick
Wiederholung: Hypothesenbewertung



Verfahren
Anwendungen
Konfidenzintervalle

ROC-Analyse

Statistische Tests


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
22
Konfidenzintervalle
Idee Konfidenzintervall:




Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Intervall um den geschätzten Fehler Rˆ ( f ) angeben
so dass der echte Fehler „meistens“ im Intervall liegt
Quantifiziert Unsicherheit der Schätzung
Weg zum Konfidenzintervall: Analyse der Verteilung der
Zufallsvariable Rˆ ( f )
Rˆ ( f )
[
]
R
23
Zero-One Loss und
Fehlerwahrscheinlichkeit

Für Konfidenzintervalle betrachten wir Risikoschätzung
im Spezialfall Klassifikation mit Zero-One Loss
Verlustfunktion Zero-One Loss:
 l ( y , y ' ) = 0, wenn y = y ' ; 1, sonst

→ Risiko = Fehlerwahrscheinlichkeit.

R ( f ) = ∫ ( y, f (x)) p (x, y )dxdy
=
∫ [[ y ≠ f (x)]] p(x, y)dxdy
= p ( y ≠ f (x))
[[ Ereignis ]] : binäre Indikatorvariable
für "Ereignis"
24
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Verteilung für Fehlerschätzer
Hypothese f wird auf separater Testmenge mit m
unabhängigen Beispielen evaluiert:
1 m
RˆT ( f ) = ∑ j =1 ( y j , f (x j ))
m
T = (x1 , y1 ),..., (x m , ym )

Fehlerschätzer ist erwartungstreu, E[ RˆT ( f )] = R( f )

Fehlerschätzer ist Summe über Beispielverluste: Bei
jedem Beispiel kann ein korrektes oder falsches
Ergebnis beobachtet werden
=
 j ( y j , f (x j )) ∈ {0,1} unabhängig, Bernouilli-verteilt mit Parameter R( f )
 j ~ Bern( | R( f ))

Entspricht m Münzwürfen
25
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Schranken für echtes Risiko


Was sagt das empirische Risiko rˆ = RˆT ( f ) jetzt also
über das echte Risiko?
Empirisches Risiko r̂ → empirische Varianz sr2ˆ = rˆm(1−−1rˆ)
Einseitige Schranke für echtes Risiko:
(
) (
P R( f ) ≤ RˆT ( f ) +=
ε P R( f ) − RˆT ( f ) ≤ ε
e
= P
 srˆ
ε
≈ Φ
 srˆ
≤
ε 

srˆ 
)
=
e R ( f ) − Rˆ ( f )
e 
e

P  | r  ≈ N  | 0,1
 srˆ 
 srˆ




ε 
Φ   kumulative Verteilungsfunktion der Normalverteilung
 srˆ 
26
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Schranken für echtes Risiko


Was sagt das empirische Risiko rˆ = RˆT ( f ) jetzt also
über das echte Risiko?
Empirisches Risiko r̂ → empirische Varianz sr2ˆ = rˆm(1−−1rˆ)
Zweiseitige Schranke:
(
)
(
)
(
P | R( f ) − RˆT ( f ) |≤ ε = 1 − P R( f ) − RˆT ( f ) > ε + 1 − P RˆT ( f ) − R( f ) > ε
)
= ...
 
ε
≈ 2 1 − 1 − Φ 

 srˆ
 
ε 
= 2Φ  
 srˆ 

  

27
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Konfidenzintervalle



Idee: ε so wählen, dass Schranke mit vorgegebener
Wahrscheinlichkeit von 1-δ (z.B. δ =0.05) gilt.
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Einseitiges 1-δ-Konfidenzintervall: Schranke ε, so
dass
P ( R( f ) ≤ RˆT ( f ) + ε ) ≥ 1 − δ
Zweiseitiges 1-δ-Konfidenzintervall: Schranke ε, so
dass
P (| R( f ) − RˆT ( f ) |≤ ε ) ≥ 1 − δ
Bei symmetrischer Verteilung gilt immer:

ε zu einseitigem 1-δ-Konfidenzintervall
= ε zu zweiseitigem 1-δ/2-Konfidenzintervall.
28
Konfidenzintervalle
RˆT ( f )
ist annähernd normal-verteilt
(
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

)
P | R( f ) − Rˆ n ( f ) |> zα =
1−α
 α σ
Φ −1 1 − 
zα =
 2 n
1− α

zα
29
Konfidenzintervalle
RˆT ( f )
ist annähernd normal-verteilt
RˆT ( f )
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

RˆT ( f )
R
R
Experimente
Experimente
30
Students t-Verteilung
Empirisches Risiko annähernd normalverteilt:

(
)
p RˆT =
( f ) rˆ=
| r B ( mrˆ | r , m )
r (1− r ) 

≈ N  rˆ | r ,

m 

 rˆ − r

= N
| 0,1 Einfache Charakterisierung der
 σ rˆ
 Verteilung des empirischen Fehlers

Problem: Risiko muss bekannt sein, damit wir
Varianz bzw. Standardfehler bestimmen können.


σ rˆ2 =
r (1− r )
;
m
σ rˆ =
r (1− r )
m
Nur das empirische Risiko ist gegeben.
31
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Students t-Verteilung
Schätzen der Varianz durch empirische Varianz:

sr2ˆ
=
rˆ(1− rˆ)
srˆ
,
=
m −1
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

rˆ(1− rˆ)
m −1

Empirisches Risiko folgt bei geschätzter Varianz
Students t-Verteilung (ähnlich Gauß-Verteilung,
aber mehr Wahrscheinlichkeitsmasse in den
Außenbereichen).

Für große m konvergiert Students t-Verteilung
gegen die Normalverteilung.
32
Students t-Verteilung
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
 rˆ − r 
 rˆ − r 
lim m→∞ t 
|m  = N 
|0,1
 s

 s

ˆ
ˆ
 r

 r

33
Überblick
Wiederholung: Hypothesenbewertung



Verfahren
Anwendungen
Konfidenzintervalle

ROC-Analyse

Statistische Tests


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Vorzeichen-, Wald-, t- und Pearsons –Test
p-Wert
34
Klassifikator / Entscheidungsfunktion
Für eine binäre Klassifikation (y= +1 oder -1) wird oft
eine kontinuierliche Entscheidungsfunktion f(x) gelernt.

Z.B. lineares Modell
∑
T
x
f w=
(x) w=
m
i =1
wi xi
Je größer f(x), desto wahrscheinlicher ist, dass x zur
Klasse +1 gehört

Z.B. logistische Regression
Wahrscheinlich p(y=1)

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

σ ( f ( x)) =
Entscheidungsfunktionswert f(x)
1
1 + exp(− f ( x))
35
Klassifikator / Entscheidungsfunktion

Wie bestimmen wir Klassenentscheidung +1/-1 aus
f(x)?
Allgemeine Lösung:
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

+1: f (x) ≥ θ
Vorhersage = 
−1: sonst


Der Wert für θ verschiebt „false positives“ zu „false
negatives“.
Optimaler Wert hängt von Kosten einer positiven
oder negativen Fehlklassifikation ab.
36
Evaluation von Klassifikatoren und
Entscheidungsfunktionen
Fehlklassifikationswahrscheinlichkeit




Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Häufig nicht aussagekräftig, weil P(+1) sehr klein.
Wie gut sind 5% Fehler, wenn P(+1)=3%?
Idee: Nicht Klassifikator bewerten, sondern
Entscheidungsfunktion.
Receiver Operating Characteristic (ROC-Kurve)



Bewertet Entscheidungsfunktion,
Jeder Punkt auf der ROC Kurve entspricht einem
Schwellwert θ
Fläche unter ROC-Kurve = P(positives Beispiel hat
höheren f-Wert als negatives Beispiel)
37
ROC-Analyse
Entscheidungsfunktion + Schwellwert = Klassifikator
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

+1: f (x) ≥ θ
Vorhersage = 
−1: sonst





Fehler hängen vom Schwellwert ab
Großer Schwellwert: Mehr positive Bsp falsch.
Kleiner Schwellwert: Mehr negative Bsp falsch.
ROC-Analyse: Bewertung der Entscheidungsfunktion
unabhängig vom konkreten Schwellwert.
Charakterisieren das Verhalten des Klassifikators für
alle möglichen Schwellwerte.
38
ROC-Kurven



X-Achse: „False Positive Rate“
Y-Achse: „True Positive Rate“
Perfekte Funktion
TPR
Gute Funktion
Vorhersage „+“
Vorhersage „-“
Echtes Label „+“
TP
FN
Echtes Label „-“
FP
TN
FPR =
Zufällig raten
FPR
FP
N
=
N FP + TN
TPR =
TP
P
=
P TP + FN
39
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Rate der „False Positives“ und „True Positives“ in
Abhängigkeit des Schwellwertes
Bestimmen der ROC-Kurve von f




Annahme: kein f(x) = f(x´) für x ≠ x‘.
Generiere Liste L aller Instanzen x, absteigend sortiert nach f(x)
P = Anzahl positiver Instanzen, N = Anzahl negativer Instanzen
TP = FP = 0
Für i = 1 bis Länge(L)
 x = i-tes Element von L
 Wenn x positive Instanz: increment(TP)
 Wenn x negative Instanz: increment(FP)
 Zeichne neuen Punkt mit Koordination (FP/N,TP/P)
40
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Flächeninhalt der ROC-Kurve
Flächeninhalt AUC kann durch Integrieren (Summieren
der Trapez-Flächeninhalte) bestimmt werden.

x+ = zufällig gezogenes Positivbeispiel
x- = zufällig gezogenes Negativbeispiel
Theorem: AUC = P(f(x+) > f(x-)).


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

41
Precision / Recall

Precision =



Recall =
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Alternative zur ROC-Analyse.
Stammt aus dem Information Retrieval.

TP
TP + FP ← Alle Instanzen mit Vorhersage „+“
TP
TP + FN ← Alle Instanzen mit echtem Label „+“
Precision: P(positiv | positiv vorhergesagt)
Recall: P(positiv vorhergesagt | ist positiv)
42
Precision / Recall Trade-Off


Precision-/Recall-Kurven
Welcher Klassifikator ist der Beste / Schlechteste
43
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
recall
precision
F-Measure, Breakeven Point
Zusammenfassungen der Kurve in einer Zahl:

Sawade/Landwehr/Scheffer, Maschinelles Lernen II

F-Measure: Harmonisches Mittel über Precision und
Recall, maximiert über Schwellwert θ
2 ⋅ Precision ⋅ Recall
F-measure=
Precision + Recall

Precision-Recall-Breakeven-Point: Es gibt einen
Punkt θ auf der Kurve für den gilt Precision(θ) =
Recall(θ) =: PRBEP
44
Evaluation von Hypothesen:
Zusammenfassung

Verlustfunktion, Risiko
Empirisches Risiko → Aussagen über echtes
Risiko.



Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Holdout-Testing, Cross Validation.
Ein-/zweiseitige Konfidenzschranken.
Qualitäts-/Risikomaße



Fehlerrate,
ROC-Analyse, AUC,
Precision-Recall-Kurven.
45
Überblick
Wiederholung: Hypothesenbewertung



Verfahren
Anwendungen
Konfidenzintervalle

ROC-Analyse

Statistische Tests


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

p-Wert
Vorzeichen-, Wald-, t- und Pearsons –Test
46
Statistische Tests

Welche Schlussfolgerungen über die Realität
erlauben uns Beobachtungen wirklich?
Ein Test ist eine Prozedur mit den Eingaben




Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Nullhypothese,
Beobachtungen
Parameterα .
Ein Test hat die möglichen Ausgaben


„Nullhypothese abgelehnt“ – das Gegenteil der
Nullhypothese gilt.
„nicht abgelehnt“ – keine Schlussfolgerung möglich,
kein neues Wissen gewonnen.
47
Statistische Tests
Nullhypothese:



Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Aussage von der wir bis auf weiteres ausgehen,
die wir aber überprüfen möchten und zu widerlegen
bereit sind.
Bedingung für einen statistischen Test:

Wenn die Nullhypothese gilt, dann darf sie nur mit
einer Wahrscheinlichkeit von höchstens α abgelehnt
werden.
48
Statistische Tests
Ausgabe „Nullhypothese abgelehnt“:



Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wir ziehen die Schlussfolgerung, dass die
Nullhypothese nicht die Realität beschreibt.
Neues Wissen gewonnen, Publikation!
Ausgabe „nicht abgelehnt“:


Wir können keine Schlussfolgerung ziehen.
Vielleicht gilt die Nullhypothese, vielleicht nicht.
49
Statistische Tests
Beispiel: Wirksamkeit von Medikamenten



Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Nullhypothese: „Medikament ist nicht wirksam“.
Beobachtungen: Symptome bei einer Test- und
einer Kontrollgruppe.
Wenn sich Symptome bei Testgruppe so stark von
Kontrollgruppe unterscheiden, dass
 P(Beobachteter Unterschied | Nullhypothese) < α ,
dann sagen wir dass die Unterschiede zwischen den
Gruppen signifikant sind und lehnen die
Nullhypothese ab. Medikament ist wirksam.

Ansonsten kein Ergebnis.
50
Statistische Tests

Ziel: anhand vorliegender Beobachtungen x ∈ 
einer ZufallsvariableX eine begründete
Entscheidung über die Gültigkeit oder Ungültigkeit
einer Hypothese zu treffen
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Formal:
h 0 : θ ∈ Θ0 vs. h1 : θ ∈ Θ1
Nullhypothese
51
Statistische Tests
Im Allgemeinen ist ein statistischer Tests durch
seinen kritischen Bereich
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

R=
{x ∈  | T ( x ) > c}
definiert.


Teststatistik
Kritischer Wert
Wenn X ∈ R , lehnen wir die Nullhypothe ab, sonst
nicht
Woher kommen T ( x ) und c ?


problemabhängig
bestimmen die Aussagekraft
(Verteilungsannahmen, Vorwissen)
52
Statistische Tests
Viele Tests haben die folgende Form
 einseitiger Test:
h 0 : θ ≤ θ0 vs. h1 : θ > θ0
 zweiseitiger Test: h 0 : θ = θ0 vs. h 1 : θ ≠ θ0

Weitere Unterscheidungen





1 vs. 2 Stichproben-Tests
nach zu schätzenden Parametern (Mittelwert, Varianz)
Varianz bekannt / unbekannt
paired / unpaired
=
α sup P ( X ∈ R | θ )
Signifikanz-Niveau eines Tests:
θ∈Θo
53
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

p-Wert

Die Aussage „Nullhypothese abgelehnt“ ist nicht
sehr informativ
p-Wert: kleinste Signifikanz-Niveau α, für das die
Nullhypothese abgelehnt wird



Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wahrscheinlichkeit unter Annahme der
Nullhypothese, dass die wirkliche Teststatistik größer
ist, als die beobachtete
Achtung: keine Wahrscheinlichkeit, dass
Nullhypothese richtig ist!
Ursache für großen p-Wert


Nullhypothese richtig ODER
Nullhypothese falsch, aber Test zu schwach
54
p-Wert
p-Wert: kleinste Signifikanz-Niveau α, für das die
Nullhypothese abgelehnt wird


Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wahrscheinlichkeit unter Annahme der
Nullhypothese, dass die wirkliche Teststatistik größer
ist, als die beobachtete
Ein p-Wert von



<5%
<1%
<0,1%
gilt als signifikant
gilt als sehr signifikant
gilt als hoch signifikant
55
Beispiel
Patient
A
B

12 Patienten wurden zwei unterschiedliche
Schmerzmittel A und B verabreicht und die Wirkung
in Stunden gemessen
1
2
3,5
2
3,6
5,7
3
2,6
2,9
4
2,6
2,4
5
7,3
9,9
6
3,4
3,3
7
14,9
16,7
8
6,6
8
9
2,3
3,8
10
2
4
11
6,8
9,1
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

12
8,5
20,9
Gibt es Unterschiede zwischen den Medikament in
der Wirkung?
56
Vorzeichen-Test
Seien x1 ,…, x n unabhängig und identisch verteilt
mit Median m

h 0 : m = µ 0 vs. h1 : m ≠ µ 0

Lehne Nullhypothese ab, gdw. T ( x ) > c
unter h 0 binomial-verteilt
n
 n

=
T ( x ) max  ∑  x i − µ 0 > 0, ∑  x i − µ 0 < 0 
=
 i 1 =i 1

α
−1 

=
c BinCDFn,0.5 1 − 
 2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Vorzeichen-Test
Lehne Nullhypothese ab, gdw. T ( x ) > c
unter h 0 binomial-verteilt
h 0 : m = µ0
Wie wahrscheinlich ist
T ( x ) = 9?
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Beispiel
Patient
A
B
x=B-A


12 Patienten wurden zwei unterschiedliche
Schmerzmittel A und B verabreicht und die Wirkung
in Stunden gemessen
1
2
3,5
1,5
2
3,6
5,7
2,1
3
2,6
2,9
0,3
4
2,6
2,4
-0,2
5
7,3
9,9
2,6
6
3,4
3,3
-0,1
7
14,9
16,7
1,8
8
6,6
6
-0,6
9
2,3
3,8
1,5
10
2
4
2
11
6,8
9,1
2,3
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

12
8,5
20,9
12,4
Gibt es Unterschiede zwischen den Medikament in
der Wirkung?
 Nullhypothese: beide gleich h 0 : m = 6
T(x) = 9
59
Beispiel
p-Wert



1
2
3,5
1,5
2
3,6
5,7
2,1
3
2,6
2,9
0,3
4
2,6
2,4
-0,2
5
7,3
9,9
2,6
6
3,4
3,3
-0,1
7
14,9
16,7
1,8
8
6,6
6
-0,6
9
2,3
3,8
1,5
10
2
4
2
11
6,8
9,1
2,3
12
8,5
20,9
12,4
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Patient
A
B
x=B-A
Nullhypothese h 0 : m = 6
T(x) = 9
p − Wert
= p (T ( X ) > T ( X n ) | h0 )
= p ( Z > 9 ) + p ( Z < 3) , Z ~ Bin ( k |12;0,5 )
= 2 BinCDF ( 3 |12;0,5 )
≈ 14, 6%
60
Wald-Test
Gegeben eine normalverteilte Schätzung θ̂ ∈  für
einen Parameter θ aus x1 ,…, x n
θˆ − θ0
  ( 0,1)

se

h 0 : θ = θ0 vs. h1 : θ ≠ θ0

Lehne Nullhypothese ab, gdw. T ( x ) > c


T(x) =
θˆ − θ0

se
α
−1 
c Φ 1 − 
=
 2
unter h 0 normalverteilt
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wald-Test

Wald-Test: Lehne Nullhypothese ab, gdw.
θˆ − θ0
α
−1 
> Φ 1 − 

2

se
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Wald-Test hat Signifikanz-Niveau α

Beweis:
 θˆ − θ0

α


−
1
sup Pθ ( X ∈=
R ) Pθ0 
> Φ 1 −  

 se
2 
θ∈Θo




 α 
→ P  Z > Φ −1 1 −  
2 


=α
1− α



 α
Φ −1 1 − 
 2
62
Beispiel
Patient
A
B
x=B-A


12 Patienten wurden zwei unterschiedliche
Schmerzmittel A und B verabreicht und die Wirkung
in Stunden gemessen
1
2
3,5
1,5
2
3,6
5,7
2,1
3
2,6
2,9
0,3
4
2,6
2,4
-0,2
5
7,3
9,9
2,6
6
3,4
3,3
-0,1
7
14,9
16,7
1,8
8
6,6
6
-0,6
9
2,3
3,8
1,5
10
2
4
2
11
6,8
9,1
2,3
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

12
8,5
20,9
12,4
Gibt es Unterschiede zwischen den Medikament in
der Wirkung?
 Nullhypothese: beide gleich h 0 : θ = 0
2,133
T(x) ≈
≈ 2,168
0, 984
63
Beispiel
p-Wert

1
2
3,5
1,5
2
3,6
5,7
2,1
3
2,6
2,9
0,3
4
2,6
2,4
-0,2
5
7,3
9,9
2,6
6
3,4
3,3
-0,1
7
14,9
16,7
1,8
8
6,6
6
-0,6
9
2,3
3,8
1,5
10
2
4
2
11
6,8
9,1
2,3
12
8,5
20,9
12,4
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Patient
A
B
x=B-A
Nullhypothese h 0 : θ = 0

T ( x ) ≈ 2,168

p − Wert
= p (T ( X ) > T ( X n ) | h0 )
= p ( Z > 2,168 ) + p ( Z < −2,168 ) , Z ~ N ( 0;1)
= 2 NormCDF ( −2,168 | 0;1)
≈ 3%
64
t-Test
Seien x1 ,…, x n unabhängig normalverteilt mit
Erwartungswert µ und unbekannter Varianz

h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0

Lehne Nullhypothese ab, gdw. T ( x ) > c



X n − µ0
1 n
T(x) =
, Xn = ∑ xi

n i =1
se
α
−1 
unter h 0 t-verteilt
=
c Fn −1 1 − 
 2
(n-1 Freiheitsgrade)
Für kleine n besser geeignet als Wald-Test
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Beispiel
Patient
A
B
x=B-A


12 Patienten wurden zwei unterschiedliche
Schmerzmittel A und B verabreicht und die Wirkung
in Stunden gemessen
1
2
3,5
1,5
2
3,6
5,7
2,1
3
2,6
2,9
0,3
4
2,6
2,4
-0,2
5
7,3
9,9
2,6
6
3,4
3,3
-0,1
7
14,9
16,7
1,8
8
6,6
6
-0,6
9
2,3
3,8
1,5
10
2
4
2
11
6,8
9,1
2,3
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

12
8,5
20,9
12,4
Gibt es Unterschiede zwischen den Medikament in
der Wirkung?
 Nullhypothese: beide gleich h 0 : θ = 0
2,133
T(x) ≈
≈ 2,168
0, 984
66
Beispiel
p-Wert

1
2
3,5
1,5
2
3,6
5,7
2,1
3
2,6
2,9
0,3
4
2,6
2,4
-0,2
5
7,3
9,9
2,6
6
3,4
3,3
-0,1
7
14,9
16,7
1,8
8
6,6
6
-0,6
9
2,3
3,8
1,5
10
2
4
2
11
6,8
9,1
2,3
12
8,5
20,9
12,4
Sawade/Landwehr/Scheffer, Maschinelles Lernen II
Patient
A
B
x=B-A
Nullhypothese h 0 : θ = 0

T ( x ) ≈ 2,168

p − Wert
= p (T ( X ) > T ( X n ) | h0 )
= p ( Z > 2,168 ) + p ( Z < −2,168 ) , Z ~ Fn −1 ( 0 )
= 2tCDFn −1 ( −2,168 )
≈ 5,3%
67
Pearsons χ -Test
2
Seien x1 ,…, x n unabhängig multinomial-verteilt mit
Erwartungswert µ = ( µ1 ,…, µ k )
x i =…
( x1i , , x ik ) , x ij ∈ {0,1}

h 0 : µ = µ 0 vs. h1 : µ ≠ µ 0

Lehne Nullhypothese ab, gdw. T ( x ) > c
k

T(x) = ∑
(x
j
1
− µj )
2
µj
−1 
α
2



=
c χ k −1  1 − 
 2
j =1
unter h 0 χ -verteilt
(k-1 Freiheitsgrade)
2
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Dualität
Ein Test mit Signifikanzniveau α verwirft die
Nullhypothese h 0 : µ = µ 0 , genau dann nicht, wenn µ 0
innerhalb des 1 − α -Vertrauensintervalls liegt.
69
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Zusammenfassung

Ein statistischer Test ist spezifiziert durch eine
Statistik und einen kritischen Wert
Wir lehnen die Nullhypothese ab, wenn X ∈ R
R=
{x ∈  | T ( x ) > c}

Da X unbekannt, hängt Test von Beobachtungen ab:
Die Nullhypothese soll nur mit Wahrscheinlichkeit α
fälschlicher Weise abgelehnt werden

Verschiedene Tests: Vorzeichen-Test, Wald-Test,
2
t-Test, Pearson χ
70
Sawade/Landwehr/Scheffer, Maschinelles Lernen II

Herunterladen