x zeichen

Werbung
Kapitel 7
Bayes- oder Optimalklassifikator
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
1
Der Entwurf eines optimalen
Klassifikators
• Letztes Glied in der Mustererkennungskette
• Der Klassifikator hat die Aufgabe einer optimalen Zuordnung
eines Merkmalsvektors zu einer Bedeutungsklasse
• Grundlage für den Entwurf: Statistische Entscheidungstheorie
• Beschreibung des Erkennungssystems in Analogie zu einem
Nachrichtenübertragungssystem:
Störung
Quelle

Codierer
gesendetes
abstraktes
Zeichen
Kanal
ideales
Zeichenbild
H. Burkhardt, Institut für Informatik, Universität Freiburg
Decodierer
reales
Zeichenbild
̂
Senke
rekonstruiertes
abstraktes
Zeichen
ME-I, Kap. 7a
2
Über die einzelnen Komponenten
Codierer: aus einem abstrakten Quellzeichen K entsteht ein
Schriftzeichen: z.Bsp. OCR-B
Störung: beinhaltet alle Veränderungen wie z.B. eigentlicher Druckoder Schreibvorgang, mögliche Verschmutzungen, Fehler des
Scanners usw.
Decodierer: Lesemaschine, Entscheider, rekonstruiert das gesendete
Zeichen, übergibt Entscheidung an Senke
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
3
Aufbau des Decodierers
reales
Zeichen
Merkmalsbildung
x
H. Burkhardt, Institut für Informatik, Universität Freiburg
̂
Erkennung
Klassifikation
ME-I, Kap. 7a
4
Stochastisches Modell
Der zeichenerzeugende Prozeß erzeugt jeweils miteinander
verbundene Wertepaare (,x)
Störung
Quelle
Codierer
Kanal
Merkmalsbildung
x

Seine statistischen Eigenschaften werden vollständig durch die
Verbundverteilung beschrieben:
p ( , x )  p ( x,  )
  { i } i  1, 2,  K
 diskret, x kontinuierlich
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
5
Optimalitätskriterium
Gesucht ist ein Klassifikator, welcher „bestmöglich“ nach einem vorgegebenen
statistischen Gütekriterium klassifiziert (Optimalklassifikator)
Wählt man als Optimalitätskriterium die Minimierung von Fehlentscheidungen
bei vielen Versuchen, so ergibt sich ein Klassifikator, welcher die Aposteriori-Wahrscheinlichkeit maximiert (Maximum-A-PosterioriKlassifikator):
max{P ( k | x)}
MAP- oder Bayes-Klassifikator
K
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
6
Theorem von Bayes
A4
A1
Ai seien sich gegenseitig ausschliessende
(disjunkte) Ereignisse
B
n
S   Ai
Ereignisraum (sample space)
i 1
A2
A3
B sei ein beliebiges Ereignis. Dann gilt:
P ( Ai | B ) 
P ( Ai , B )
P(B)

P ( B | Ai ) P ( Ai )
S
n
 P(B | A )P( A )
j
j
j 1
 P ( Ai | B ) P ( B )  P ( Ai , B )  P ( B | Ai ) P ( Ai )
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
7
Beispiel
Die Anwendung des Theorems soll nun durch ein Beispiel veranschaulicht werden. Im Beispiel tritt das
Ereignis B ,,Die Reifen eines Autos quietschen'' mit der Wahrscheinlichkeit P(B)=0,05 auf; die Hypothese
A ,,Die Bremsen des Autos sind schlecht eingestellt'' mit der Wahrscheinlichkeit P(A)=0,02.
Nehmen wir des weiteren an, dass schlecht eingestellte Bremsen oft, aber nicht immer, ein Quietschen der
Räder verursachen. Die bedingte Wahrscheinlichkeit dafür ist P(B|A)=0,7. Wenn man nun ein Quietschen
der Reifen beobachtet, so kann man mit Hilfe des Bayes'schen Theorem die Wahrscheinlichkeit berechnen,
dass die Bremsen schlecht eingestellt sind:
P ( B | A)  P ( A) 0, 7  0, 02
P( A | B) 

 0, 28
P( B)
0, 05
Man führt die W. P(Ursache | Ereignis) auf die einfacher zu berechnende W. P(Ereignis | Ursache) zurück.
Durch die Beobachtung des Ereignisses B hat sich die Wahrscheinlichkeit der Hypothese A von 0,02 auf
0,28 erhöht. Die Berechnung von P(A|B) ausgehend von P(A) kann als Neubewertung der Hypothese A
beim Eintreten des Ereignisses B aufgefaßt werden.
Darin liegt die Stärke dieses Theorems. Mit ihm läßt sich die Fortpflanzung der Unsicherheit berechnen. Der
Nachteil ist jedoch, dass zu jedem Ereignis und zu jeder Hypothese die Wahrscheinlichkeit und die
entsprechenden bedingten Wahrscheinlichkeiten gespeichert werden müssen. Dies erfordert eine große
Datenmenge, die häufig schwer zu beschaffen ist und auch oft nicht mit mathematischer Exaktheit beschafft
werden kann. [Gottlob1990]
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
8
Grundlage der Optimalentscheidung ist die a-posteriori- oder
Rückschlusswahrscheinlichkeit P(k|x). Dies ist die bedingte
Wahrscheinlichkeit, dass bei bei einem beobachteten Wert x das
Zeichen k vorlag.
Diese kann mit dem Bayes-Theorem wie folgt umgewandelt werden:
p ( x,  k ) p ( x |  k ) P ( k )
P ( k | x ) 

p (x)
p ( x)
mit der Randverteilung:
p ( x)   p ( x, k )   p ( x | k )P (k )
K
K
Die a-posteriori oder Rückschlusswahrscheinlichkeit zur Entscheidung der
Klassenzugehörigkeit wird zurückgeführt auf die klassenspezifischen
Verteilungsdichten, welche gemessen werden können!
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
9
Bayes- oder Maximum-A-Posteriori (MAP)
Klassifikator
Die Maximierung der a-posteriori oder Rückschlusswahrscheinlichkeit zur
Entscheidung der Klassenzugehörigkeit wird zurückgeführt auf die
klassenspezifischen Verteilungsdichten, welche gemessen werden können:
max P (i | x )
i
 P (i | x ) 
? P ( j | x )
p ( x | i ) P (i ) ? p ( x |  j ) P ( j )



p (x)
p ( x)
p(x) auf beiden Seiten gleich!
Bayes- oder
MAP-Klassifikator
Bei gleichwahrscheinlicher a-priori-Verteilung P(i)= P(j) erhält man daraus:
? p(x |  )
p ( x | i ) 

j
H. Burkhardt, Institut für Informatik, Universität Freiburg
MLE-Klassifikator
(Maximum-Likelihood Estimation)
ME-I, Kap. 7a
10
Optimalklassifikatoren
max{ P ( k | x )}
k
 max{ p ( x |  k ) P ( k )}
Bayes- oder MAPKlassifikator
k
Das MAP-Kriterium wird zurückgeführt auf klassenspezifische Verteilungsdichten,
welche gemessen werden können.
max{ p ( x |  k )}
K
Maximum-Likelihood-Klassifikator
(p(x|k) Bed. Wahrscheinlichkeit von x bzgl. k)
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
11
Zwei-Klassen-Problem mit Gaußverteilungsdichten und
einem skalaren Merkmal x
Die Auftretenswahrscheinlichkeit
von x unter der Annahme, dass
2 gesendet wurde ist größer als
die von der Annahme, dass 1
gesendet wurde.
p (x)   p ( x | k )  P (k )
P ( k | x)  p ( x)  p ( x,  k )  p ( x |  k )  P ( k )
K
p ( x |  2 )  P ( 2 )
p ( x | 1 )  P (1 )
p ( x | 1 )  P (1 )
x
p ( x |  2 )  P ( 2 )
x
1
x
x
Merkmalsraum
2
? p ( x |  ) P ( )
p ( x | i ) P (i ) 

j
j
p(x|k) Klassenspezifische Verteilungsdichte für den Merkmalsvektor x, die der Klasse
k zuzuordnen sind.
A-priori-W. für die Häufigkeit der Quellsymbole: P(k)
(Quellstatistik, Auftretens-W. für die Ereignisse k, z.Bsp. Buchstaben in einer Sprache)
Die W., dass x gemessen wird ergibt sich aus der Überlagerung der Auswirkungen, dass
k gesendet wurde: p (x)  p(x | 1 ) P(1 )  p( x |  2 ) P( 2 )     p( x |  k ) P( k )
K
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
12
MAP-Entscheidung
1
0.9
P (1 | x) 
0.8
p ( x | 1 ) P (1 )
p (x)
P (2 | x) 
p ( x | 2 ) P (2 )
p (x)
0.7
0.6
0.5
0.4
0.3
p ( x |  2 ) P ( 2 )
P ( 2 | x )
p ( x | 1 ) P (1 )
0.2
Normalverteilung:
0.1
0
-2
p( x) 
0
2
4
6
p ( x)   p ( x, k )   p ( x | k )P (k )
K
K
H. Burkhardt, Institut für Informatik, Universität Freiburg
8
10
12
1
2  x
e
1  xx 
 

2  x 
2
p ( x | 1 ) P (1 )  0, 2 p ( x  1)  0, 3 p ( x  4)
p ( x |  2 ) P ( 2 )  0, 5 p ( x  8)
ME-I, Kap. 7a
13
Entscheidung mit Log-Likelihood
 y1 später mit
Anstatt: y2 
 dx
log-likelihood einfacher: d x2 
1
y2
y1
d x1
x
xs
d x2
x
1
H. Burkhardt, Institut für Informatik, Universität Freiburg
x
2
ME-I, Kap. 7a
14
Normalverteilte klassenspezifische
Merkmale p(x|k)
Eindimensionaler Fall (nur ein Merkmal):
p(x)
p( x) 
1
2  x
1
2  x
e

1
2
1
2  x
e
1  xx 
 

2  x 
2
x
x
x 
Erwartungswert von x:
 x  E{x} 

x 
Varianz:
var( x)   x2  E{( x   x ) 2 } 
x  p ( x )dx
x 

( x   x ) 2  p ( x) dx
x 
Standardabweichung:
 x  var( x)
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
15
N-dimensionale Normalverteilung
Erwartungswert: x=E(x)
(Vektor)
Statt Varianz  2 nun Autokovarianzmatrix:
K  C xx  E{( x  μ x )(x  μ x )T }  R xx  μ x μ xT
N-dimensionale Normalverteilung: p ( x ) 
 K1,1
K
2,1
K
 

 K N ,1
K1,2
K 2,2

K N ,2
K1, N 
 K 2, N 


 

 K N , N 

H. Burkhardt, Institut für Informatik, Universität Freiburg
1
(2 ) N det(K )
e
1
 ( x  μ x )T K 1 ( x  μ x )
2
K m , n  E{( xm   xm )( xn   xn )}
K n , n  E{( xn   xn ) 2 }
K : a) symmetrisch
b) positiv semidefinit
ME-I, Kap. 7a
16
N-dimensionale Normalverteilung
Aus der Positiv-Semidefinitheit folgt:
aT Ka  0 für beliebige a  0
Falls eine oder mehr Komponenten Linearkombinationen von anderen sind, ist K
semidefinit, andernfalls positiv definit (soll hier i.allg. angenommen werden).
Falls K pos. definit, dann auch K-1 => det(K)>0 und det(K-1)>0 .
Ortskurven konstanter Wahrscheinlichkeitsdichten p(x):
Q  ( x   x )T K 1 ( x   x )  const .
Diese quadratische Form ergibt Kegelschnitte und für pos. def. K-1 erhält man
N-dimensionale Ellipsoide.
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
17
N=2: Ellipsen
Aus der Eigenwertgleichung:
Kb   b  [K   I ]b  0
Ergeben sich die
Eigenwerte: 1, 2
und die Eigenvektoren: b1, b2
b2
x1
1
b1
2
x
x1
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
18
Der Bayes-Klassifikator
max P (i | x)
i
Annahme: Klassenspezifische
Gauß-Verteilungen
Zweidimensionaler Merkmalsraum
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
19
Optimales Erkennungssystem
klassenspezifische Verteilungen
im Merkmalsraum
x
p(x|1)
p(x|2)
p(x|K)
Auftretenswahrscheinlichkeiten
der Symbole
P(1)
P(2)
P(K)

p(x|1) P(1)
ˆ k
p ( x | ˆ k ) P (ˆ k )
p(x|2) P(2)
Rückweisungsprüfung
Maximumsuche
p(x|K) P(K)
Hilfsgröße für die
Entscheidung
Zurückweisung
Zurückweisungsprüfung
Zurückweisung falls:
d.h. P (ˆ k | x)  
ˆ k
p(x)
p ( x)   p ( x | ˆ k ) P (ˆ k )
p ( x | ˆ k ) P (ˆ k )   p ( x)
Rückweisungsschwelle
Falls maximale klassenspez. W. im Vergleich zur absoluten
Auftretens-W. (rel. Mass) einen zu geringen Wert hat
Zurückweisung (sonst wäre Entscheidung sehr unsicher)
(typisch in der Nähe der Klassengrenzen !)
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
20
Zur Positiv-Definitheit der Kovarianzmatrix K
Man erwartet, dass die Beobachtungen des Zufallsprozesses unabhängig sind.
Beh.: Q  z T Kz  0 für z  0
Bew:
Q  z T E{( x   )( x   )T }z
2
 E{z T ( x   )( x   )T z}  E{[( x   )T z ] }

 w (Skalar)
 E{w 2 }  0 für w  0
Der singuläre Fall Q=0 bedeutet, dass der Zufallsprozess (x-) z steht, d.h. er
belegt nur einen linearen Unterraum des N-dimensionalen Beobachtungsraumes N. Dies ist dann der Fall, wenn die Zufallsvariablen nicht den ganzen
Raum aufspannen, d.h. wenn ein Vektor linear abhängig ist von anderen (z.B.
wenn die Beobachtungen im dreidimensionalen Raum immer nur in einer
Ebene liegen).
Für einzelne Vektoren darf die Orthogonalität (x-)z gegeben sein, jedoch nicht
für das ganze Ensemble, so dass E{...}=0.
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
21
Konsequenzen der PositivDefinitheit von K
•
•
•
•
•
K ist regulär und es existiert K-1
det(K)>0
K-1 ist ebenfalls positiv definit
det(K-1)>0
Die Eigenwerte von K sind positiv
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
22
Fall 1: Klassenweise beliebige
normalverteilte Merkmale
Mit dieser Annahme kann das MAP-Kriterium weiter spezifiziert
werden:
p ( x,  k )  p ( x |  k )  P ( k )
Der zeichenerzeugende Prozess zerfällt in K voneinander
unabhängige Teilprozesse {p(x|k)} mit den Kenngrößen:
 xk  E{x |  k }
klassenspezifischer Erwartungswert
K k  E{( x   xk )( x   xk )T |  k } klassenspezifische Kovarianzmatrix
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
23
Berechnet man die k-te Entscheidungsfunktion des MAPKriteriums, so ergibt sich:
Dk ( x)  p ( x |  k )  P ( k ) 
P (k )
(2 ) det(K k )
N
e
 12 ( x   xk )T K k1 ( x   xk )
Mit Hilfe einer monotonen Abbildung ln(...), welche die
Größenverhältnisse nicht verändert, ergibt sich:
1
1
Dk ( x )  ln P ( k )  ln(det( K k ))  [( x   xk ) T K k1 ( x   xk )]
2
2
mit abschließendem Maximumvergleich.
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
24
Die Grenzen zwischen den Klassengebieten ergeben sich zu:
!
Di( x)  D j ( x)
daraus ergibt sich die Grenzfläche g ij ( x)  0, mit:
det K i
P ( i )
g ij ( x )  ln
 2 ln
det K j
P ( j )
 ( x   xi )T K i1 ( x   xi )  ( x   x j )T K j 1 ( x   x j )
Aus der Differenz zweier quadratischen Formen ergibt sich eine
gemeinsame quadratische Form der Gestalt:
g ij ( x)  g 0  ( x  x 0 )T M 1 ( x  x 0 )
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
25
mit:
det K i
P ( i )
g 0  ln
 2 ln
  Txi K i1 xi
det K j
P ( j )
  Tx j K j 1 x j  xT0 M 1x 0
x 0  M[K i1 xi  K j 1 x j ]
M  [K i1  K j 1 ]1  K i [K j  K i ]1 K j
 K j [K j  K i ]1 K i
Die die quadratische Form charakterisierende Matrix M-1 ist nun
nicht mehr zwingend pos. definit => die Grenzflächen zwischen
den Gebieten sind allgemeine Kegelschnitte (bei N=2: Ellipsen,
Parabeln, Hyperbeln, Geraden)
Die Unterscheidungsfunktionen D´k(x) sind in Bezug auf den
Merkmalsvektor quadratische Funktionen oder Polynome
zweiten Grades (quadratischer oder Polynomklassifikator)
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
26
Klassenweise normalverteilte Merkmale
(aus J. Schürmann: „Polynomklassifikatoren für die Zeichenerkennung“, Oldenbourg Verlag)
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
27
Fall 2: Klassenweise normalverteilte Merkmale
mit identischen Kovarianzmatrizen K
x2
2
1
3
x1
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
28
Fall 2: Klassenweise normalverteilte Merkmale
mit identischen Kovarianzmatrizen K
Entscheidungsfunktion:
1
1

Dk ( x )  ln P ( k )  ln(det K )  [( x   xk )T K 1 ( x   xk )]
2
2
Dk  2 Dk  ln(det K )
 Dk  2 ln P ( k )  ( x   xk )T K 1 ( x   xk )
Für gleiche Auftretenswahrscheinlichkeiten P ( k )  1/ K folgt:
Dk Dk  2 ln K
 Dk d
2
M
1
 ( x   xk ) K ( x   xk )
T
Mahalanobis-AbstandsKlassifikator
Dies ist eine allgemeine gewichtete quadratische Metrik.
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
29
Formulierung als linearer Klassifikator
Die Entscheidungsfunktion enthält noch einen quadratischen Term. Dieser ist
jedoch für jede Klasse identisch und kann somit eliminiert werden. Damit
kommt man zu einer linearen Formulierung des Klassifikators.
Alternativ ergibt sich:
1


Dk  Dk  [ln(det K )  xT K 1x]
2
1 T 1

 Dk  ln P ( k )   xk K  xk   Txk K 1x
2
Dieser Ausdruck ist linear in x !
 Dk( x )  a0 k  a x  a0 k  a k , x
T
k
Hyperebene als
Trennfläche !
mit:
1 T 1
a0 k  ln P ( k )   xk K  xk
2
a k  K 1 xk
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
30
Fall 3: Klassenweise normalverteilte Merkmale mit der
Einheitsmatrix als Kovarianzmatrix K=2I
(sphärisch invariante Verhältnisse, Hyperkugeln)
Entscheidungsfunktion:
Dk ( x )  ln P ( k )  N ln  
1
2 
Für konstante A-priori-W. folgt:
 Dk  x   xk
( x   xk ) T ( x   xk )
Euklidsche Metrik
Minimum-Abstands-Klassifikator
2
Auch hier formuliert als linearer Klassifikator:
Dk 
1
2
( x  Dk)
2
 Dk( x )  a0 k  aTk x
mit:
Dk 
1
2
2
( x  ( x   xk
2
2
2
1
 2  x,  xk  ))    xk    xk , x 

2 


ak
a0 k
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
31
Kurven konstanter a) Euklidscher- und b) MahalanobisDistanz dM zum Erwartungswert der jeweiligen Klasse
x2
x2
2 2 c v 2
μ1
a)
x1
H. Burkhardt, Institut für Informatik, Universität Freiburg
μ2
b)
2 1 cv1
x1
ME-I, Kap. 7a
32
Bayes-Entscheidungsgrenzen für
normalverteilte Musterklassen
• Allgemeiner Fall: matlab-Bayes-Fall1.bat
• Mahalanobis: matlab-Bayes-Fall2.bat
• Euklid: matlab-Bayes-Fall3.bat
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
33
Transformation der Mahalanobis-Metrik auf
sphärisch invariante Verhältnisse
Die Kovarianzmatrix kann mit einer KLT diagonalisiert werden:
Λ  diag( 1 , 2 , ,  N )  A T KA
bzw:
K  AΛA T
Die unitäre Matrix erfüllt: AT  A 1
Die Eigenwerte sowie die Eigenvektoren von K definieren die
Diagonalmatrix und die Eigenvektoren die Tansformationsmatrix:
A  e1 , e2 ,, eN 
Kurven konstanter Mahalanobisdistanz ergeben sich zu:
( x   i )T AΛ 1A T ( x   i )  c 2
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
34
Transformation auf sphärisch invariante
Verhältnisse
Einführung einer Koordinatentransformation: x  A T x
Damit werden die ursprünglichen Koordinaten auf die Eigenvektoren projeziert und
man kommt dann zu den folgenden Kurven konstanter Mahalanobis-Distanz:
( x1  i1 ) 2
1
 
 )2
( xN  iN
N
 c2
Dies ist ein Hyperellipsoid in dem neuen Koordinatensystem.
Mit xk  xk / k und ik  ik / k erhält man
sphärisch invariante (Euklidsche) Verhältnisse:
 ) 2  c 2
( x1   i1 ) 2    ( xN  iN
(Kugeln)
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
35
Beispiel: Zweiklassenproblem der Dimension 2
Die Kovarianzmatrix und die Erwartungswerte seien gegeben mit:
1.1 0.3
K

0.3
1.9


μ1   0 0 
μ 2  3 3
T
T
Klassifiziere die Beobachtung x  1.0 2.2  nach Bayes.
T
Die soll durch Berechnung der Mahalanobisdistanz zu den beiden
Erwartungswerten geschehen:
d (1 , x )  ( x  1 ) K ( x   i )  1.0
2
M
T
1
2
 0.95 0.15  1.0 
2.2  
  2.2   2.952

0.15
0.55

 
1
enstprechend:
d M2 ( 2 , x )  ( x   2 )T K 1 ( x   2 )   2.0
 0.95 0.15   2.0 
0.8  
 3.672



 0.15 0.55   0.8 
D.h. die Beobachtung wird der Klasse 1 zugeordnet.
Man beachte, dass die Beobachtung bzgl. der Euklidschen Distanz näher an Klasse 2 liegt!!
x  1
2
 5.84
x  2
2
 4.64
H. Burkhardt, Institut für Informatik, Universität Freiburg
Siehe dazu auch:
http://www.cs.mcgill.ca/~mcleish/644/main.html
Applet für Bayessche Entscheidungen
ME-I, Kap. 7a
36
Das Voronoi-Diagramm im zweidimensionalen Raum
als Entscheidungsgrenzen für die Euklidsche Distanz
R2
x2
R1
x3
x1
Zerlegung der Ebene in Regionen Ri
für eine Menge von Punkten xi. Jede
Region enthält genau die Punkte,
welche näher sind zu den jeweiligen
Punkten (Erwartungswerten) als
irgend ein anderer Punkt:
x4
Ri  {x : d ( x, x i )  d ( x, x j ) für i  j}
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
37
Wahrscheinlichkeit einer Fehlklassifikation bei einem Zwei-KlassenProblem mit Normalverteilungen und einem skalaren Merkmal
2
1
d
p (x | 2 )
p( x ) 
1 1
1
 ( x   ) 2 / 2 2 
e

g ( x)


2  2 
 2
p ( x | 1 )
x
d/2 x
x
1
x
2
Die W. dass 1 gesendet wurde und bei gemessenen Werten x zugunsten von 2
entschieden wird, entspricht der W. dass x oberhalb von d/2 liegt (schraffierte Fläche).
Ebenso für 2  1 . D.h. die W. einen Fehler bei der Klassifikation zu machen ergibt
sich aus der doppelten Fläche:

1
P( E )  2 
g ( u )du

2 x d / 2
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
38
Mit der kumulativen Verteilungsfunktion F ( x0 )  P ( x  x0 ) gilt:
1
 x  x
g
(
u
)
du

(1

erf


2
 2

x
F ( x) 

)

und mit der Gauß'schen Fehlerfunktion
x
2
erf( x ) 
t
e
 dt (analytisch nicht integrierbar)
2

0
bzw. komplementären Fehlerfunktion
2
erfc( x ) 


t
e
 dt  1  erf( x)
2
x
erhält man die Fehler-W. zu:

P( E ) 

g (u ) du 1  F ( x  d / 2)
xd / 2

1
 x  x
(1  erf 
2
 2
1

 x  x 
)

erfc
 xd / 2 2



 2  x  d / 2
x 0
1
 d /2 
P ( E )  erfc 

2
 2 
x 0
Die W. für eine Fehlklassifikation sinkt mit
wachsendem Klassenabstand und steigt mit
wachsender Streuung der Merkmale
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
39
Die Gesamtfehlerwahrscheinlichkeit im N-dimensionalen
Merkmalsraum berechnet sich aus der minimalen
Distanz dmin zu (Forney):
1
 d min / 2 
P ( E )  const  erfc 

2
 2 
(ohne Beweis)
d min
H. Burkhardt, Institut für Informatik, Universität Freiburg
ME-I, Kap. 7a
40
Zugehörige Unterlagen
Herunterladen