Support Vector Machine und Ridge Regression in der digitalen

Werbung
Support Vector Machine und
Ridge Regression in der
digitalen Bildverarbeitung
Volker Gimple, Gruppenleiter Bildverarbeitung
STEMMER IMAGING GmbH, Puchheim
INHALT (1)
Einleitung
Begriffsklärung
Struktur und Beispiele modellbasierter Objekterkennungslösungen
Probleme Modellbasierter Ansätze
Klassifikationsansatz
Begriffsklärung
Grundidee
Anforderungen
Support Vector Machines
Charakterisierung
Vorteile
Beispiele
November 2013
2
INHALT (2)
Tichonov Regularisierung/Ridge Regression
Charakterisierung
Vorteile
Beispiele
Kritik an Support Vector Machine und Ridge Regression
Erweiterungen
Regression + Objektsuche
Regression + Objektsuche + Rotationsinvarianz + Skaleninvarianz
November 2013
3
BEGRIFFSKLÄRUNG: OBJEKTERKENNUNG
Umgangssprachlicher Begriff „Objekterkennung“ hat zwei trennbare Aspekte:
Objektfindung („wo“)
Bildinhalt nach vorher definiertem Objekt absuchen.
Objektklassifikation („welches“)
Bildinhalt einer von N vorher angelernten Objektklassen zuordnen.
„Objekterkennung“ wird im Folgenden je nach Kontext
mit beiden Bedeutungen verwendet.
November 2013
4
MODELLBASIERTE OBJEKTERKENNUNG
TYPISCHER AUFBAU/WORKFLOW
Bilderfassung
Mit geeigneter Kamera/3D Sensor, Optik, Beleuchtung
Bildaufbereitung
Kalibration, Filter, Transformation(en)
Merkmalsextraktion
Filter, Segmentierung, Vermessung, Statistik
Vergleich mit hinterlegten Modellen anhand der extrahierten Merkmale
Typischerweise regelbasiert
November 2013
5
BEISPIELE
Kreise finden und vermessen
(geometrisches Pattern Matching,
CVB ShapeFinder 2)
OCR basierend auf…
… Konturvergleich (CVB Contour)
… binärem Merkmalsbaum (CVB Minos)
November 2013
6
GRENZEN MODELLBASIERTER ANSÄTZE (1)
Merkmalsextraktion muss hinreichend stabil funktionieren
Schwierig z. B. bei partieller Verdeckung, starkem Rauschen, glänzender Oberfläche,
Reflektionen
Variationen müssen in Modellvergleich integrierbar sein
Deformationsmodell für Variationen des Objekts
Abbildungsmodell für z. B. perspektivische Verzerrung oder Abbildungsfehler
November 2013
7
GRENZEN MODELLBASIERTER ANSÄTZE (2)
Andernfalls können bereits geringe Abweichungen vom Modell zum Verlust der
Zuordnung führen
Anzahl der Parameter für regelbasierten Vergleich kann damit sehr groß werden
Explizite analytische Zuordnung von Eingabedaten (Bildinhalt)
zu Objektklasse nicht immer mit vertretbarem Aufwand durchführbar
November 2013
8
KLASSIFIKATIONSANSATZ (1)
Interpretation der Bildinhalte ohne hinterlegte Modelle (für Objekte, Abbildung oder
Deformation) mit Klassifikationsmethoden die nicht spezifisch für die Bildverarbeitung
sind
Motiviert durch Funktionsweise des „biologischen“ Sehens und Lernens
Abstrahierte Grundidee:
Gehe davon aus, dass eine Abbildung 𝑓 existiert die einem Eingabedatensatz (z. B.
Bild) 𝑋𝑖 ∈ 𝑋 ein (Klassifikations-) Ergebnis 𝑌𝑖 ∈ 𝑌 korrekt zuordnet
Ermittle mittels geeigneter Algorithmen und unter Verwendung der Lernmenge
{𝑋|𝑌} aus einer Schar von Hypothesen (z. B. lineare Funktionen) diejenige aus, die
𝑓 am besten annähert
November 2013
9
KLASSIFIKATIONSANSATZ (2)
RANDBEDINGUNGEN
Zunächst: Einschränkung auf Zwei-Klassen Problem; damit: 𝑌𝑖 ∈ −1; +1
1
(erweiterbar auf 𝑛 Klassen durch Kombination von 𝑛(𝑛 − 1) Zwei-Klassen-Klassifikatoren)
2
Konsistenz
Daten der Lernmenge sollen hinreichend präzise reproduziert werden
Aber: Konsistenz alleine genügt nicht („rote learner“)
Generalisierung
Eingabedaten  Lernmenge sollen mit hoher Wahrscheinlichkeit
korrekt klassifiziert werden
Erreichbar durch Wahl geeigneter Lernmethode und simpler Hypothesen
(z. B. lineare Funktionen)
November 2013
10
KLASSIFIKATIONSANSATZ (3)
RANDBEDINGUNGEN
Begrenzte Komplexität
Anpassung des Lernvorgangs an konkrete Applikation anhand weniger Parameter
Einfaches Auffinden der optimalen Parameter
Effizienz
Lernvorgang soll mit vorhandenen Ressourcen in vertretbarer Zeit durchführbar sein
Klassifikator soll mit möglichst geringem Rechenaufwand anwendbar sein
November 2013
11
SUPPORT VECTOR MACHINE (1)
CHARAKTERISIERUNG
V. Vapnik, 1995
Effiziente Berechnung eines Large Margin Classifiers durch
Minimierung einer Bewertungsfunktion, die…
… Fehler auf der Lernmenge bestraft, aber zulässt
… komplexe Lösungen benachteiligt
(Vermeidung von Überanpassung)
… im Idealfall konvex ist (keine lokalen Minima)
… irrelevante Lernbeispiele verwirft
(Reduktion auf „Support-Vektoren“ spart Ressourcen)
Durch Kernelfunktion nichtlineare Klassentrennung im
Input-Raum trotz linearem Klassifikator im Entscheidungsraum
November 2013
Aus: Support Vector Machines,
Cambridge University Press
12
SUPPORT VECTOR MACHINE (2)
ANWENDUNGSBEISPIELE (CVB MANTO)
Quelle: SAC GmbH
io
nio
nio
nio
November 2013
13
TICHONOW REGULARISIERUNG (1)
CHARAKTERISIERUNG
A. N. Tichonow, ca. 1960; auch: Tichonow-Miller-Methode, Ridge Regression
Im Grunde Verfahren zur Lösung schlecht konditionierter Probleme
(kleine Störung der Lerndaten kann große Störung des Classifiers bewirken)
Idee: 𝑨𝒙 = 𝒃 mit 𝑨 nicht direkt invertierbar
soll durch Minimierung von 𝑨𝒙 − 𝒃 gelöst werden
Hinzufügen von Regularisierungsterm 𝑨𝒙 − 𝒃 + G 𝒙 macht schlecht
konditioniertes System lösbar zu 𝒙∗ = (𝑨𝑇 𝑨 + 𝑮𝑇 𝑮)−1 𝑨𝑇 𝒃; geeignete Wahl von 𝑮
bevorzugt Lösungen mit wünschenswerten Eigenschaften
z. B.: 𝑮 = 𝛾𝑰 → Präferenz für Lösung mit kleiner Norm
𝛾 erlaubt Gewichtung zwischen Stabilisierung (𝛾 groß)
und Präzision der Approximation (𝛾 klein)
November 2013
14
TICHONOW REGULARISIERUNG (2)
EIGENSCHAFTEN/VORTEILE
Einfache Implementierung (Lernvorgang komplett in Matrixform beschreibbar)
(Aber: Keine Reduktion der Lerndaten, dadurch höherer Speicher- und
Rechenzeitbedarf als bei SVM)
Liefert wieder linearen Classifier der wie bei SVM durch Kernelfunktion nichtlineare
Trennung im Input-Raum erreichen kann
Leichter als SVM auf Regressionsaufgaben erweiterbar
(im Wesentlichen: 𝑌𝑖 ∈ −1; +1 erweitern auf 𝑌𝑖 ∈ ℝ𝑚 und Lösen von 𝑚 Systemen)
November 2013
15
TICHONOW REGULARISIERUNG (3)
ANWENDUNGSBEISPIELE (CVB MANTO 2)
November 2013
16
KRITIK AN SVM UND RIDGE REGRESSION
Aufwand für Beschaffung geeigneter und ausreichend vieler Lernbeispiele für SVM
und Ridge Regression sehr hoch
Bei Anwendung zur Objektsuche i. A. keine hohe Positioniergenauigkeit
Klassifikatoren für 𝑛 Klassen um so schlechter anwendbar (Rechenzeit, Trennschärfe)
je größer 𝑛 wird
Black-Box Verhalten der Klassifikatoren
„An important feature of a learning machine is that its teacher will often be very largely
ignorant of quite what is going on inside, although he may still be able to some extent
to predict his pupil's behaviour“
(Alan Turing, 1950 in „Computing Machinery and Intelligence“. Mind, 59, 433-460)
November 2013
17
ERWEITERUNGEN (1)
OBJEKTSUCHE MIT REGRESSION
Idee: Lerne für Positionen um das Objekt herum Bild + Vektor zum Objekt an
(Vektor kleiner als Objektgröße, sonst „typische“ Texturierung um Objekt herum nötig)
Suche konvergiert dann Schrittweise zur tatsächlichen Objektposition
Vorteile
Lernbeispiele können größtenteils automatisch extrahiert werden
Beschleunigung der Objektsuche da Suche in relativ großem Attraktionsbereich um
Objekt herum auf eine Objektposition konvergiert
November 2013
18
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
19
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
20
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
21
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
22
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
23
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
24
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
25
ERWEITERUNGEN (2)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
26
ERWEITERUNGEN (3)
ZUSÄTZLICH: ROTATION UND GRÖSSE
Erweitere Ansatz zur Objektsuche mit Regression um Rotations- und/oder
Größeninformation
Vorteile bleiben erhalten; zusätzlich Größe und Drehlage des Objekts als Ergebnis
Zusätzlich erweiterbar auf z. B. affine Transformation (als Approximation für
perspektivische Verzerrung)
November 2013
27
ERWEITERUNGEN (4)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
28
ERWEITERUNGEN (4)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
29
ERWEITERUNGEN (4)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
30
ERWEITERUNGEN (4)
ANWENDUNGSBEISPIELE (CVB MANTO EMBEDDED)
November 2013
31
Vielen Dank für Ihre
Aufmerksamkeit
STEMMER IMAGING GmbH
Gutenbergstraße 9 – 13
82178 Puchheim, Deutschland
Telefon:
Fax:
+49 89 80902-0
+49 89 80902-116
[email protected]
www.stemmer-imaging.de
Ihr Ansprechpartner:
Volker Gimple
Herunterladen