Document

Werbung
Statistische und neuronale Lernverfahren
Martin Stetter
WS 03/04, 2 SWS
VL: Dienstags 8:30 - 10 Uhr
PD Dr. Martin Stetter, Siemens AG
Statistische und neuronale Lernverfahren
1
Behandelte Themen
0. „Motivation“: Lernen in Statistik und Biologie
1. Wahrscheinlichkeitstheorie: Grundlagen und Definitionen
2. Überblick über statistische Datenmodellierungs-Verfahren
3. Lernen von Datenmodellen
• Bayes‘sches Schließen (Inferenz)
• Maximum-Likelihood Parameterschätzung
• ML und Fehlerminimierung
• Generalisierung und Regularisierung
• Optimierungsverfahren
4. Neuronale Lernverfahren für Klassifikation
• Perceptron, Soft-Margin Classifiers, Support Vector Machine, Kernel-Klassifikation
5. Neuronale Lernverfahren für Regression
• Lineare Modelle, Multilagen-Perceptron, Radiale Basisfunktionen, Kernel-Regression
4. Bayes-Belief-Netze
PD Dr. Martin Stetter, Siemens AG
Statistische und neuronale Lernverfahren
2
Behandelte Themen
0. „Motivation“: Lernen in Statistik und Biologie
2. Überblick über statistische Datenmodellierungs-Verfahren
3. Lineare Modelle (Regression)
4. Selbstorganisierende Karten, Bayes-Belief-Netze (Dichteschätzung)
5. Perceptron und Multilagen-Perceptron (Funktionsapproximation)
6. Lernen von Datenmodellen
• Bayes‘sches Schließen (Inferenz)
• Maximum-Likelihood Parameterschätzung
• ML und Fehlerminimierung
• Generalisierung und Regularisierung
• Optimierungsverfahren
7. Kernel-Trick und Support Vector Machine
• Perceptron, Soft-Margin Classifiers, Support Vector Machine, Kernel-Klassifikation
PD Dr. Martin Stetter, Siemens AG
Statistische und neuronale Lernverfahren
3
Literatur
Statistische Lernverfahren:
• B. Schölkopf, A. Smola: Learning with Kernels. MIT Press, Cambridge, MA (2002)
Statistische und neuronale Verfahren:
• C. M. Bishop, Neural Networks for Pattern Recognition, Clarendon Press Oxford (1995)
Neuronale Netze:
• J. Hertz, A. Krogh, R. G. Palmer, Introduction to the Theory of Neural Computation, Addison
Wesley, Redwood City CA (1991)
Gehirn und Nervenzellen, Computational Neuroscience:
• M. Stetter, Exploration of Cortical Function, Kluwer Academic Publishers, Boston Dordrecht
(2002)
• Bioinformatik und System-Biologie
• P. Baldi, G. W. Hatfield, DNA Microarrays and Gene Expression, Cambridge University
Press Cambridge, MA (2002)
PD Dr. Martin Stetter, Siemens AG
Statistische und neuronale Lernverfahren
4
Einführung: Lernen in Statistik und Biologie
Biologisches Lernen
Maschinelles Lernen
Erkennen von Zusammenhängen im
Lebensraum
Erkennen von statistischer Struktur
in Datensätzen
„Synaptische Plastizität“ im Gehirn
Einstellung der Modellparameter
Erlernen von Fähigkeiten aus
Beispielen (prozedurales Lernen)
Optimierung eines Modells
Regularisiertes Lernen
Finden einfacher Lösungen
Bayes‘sches Schließen (Inferenz)
Schlußfolgern
PD Dr. Martin Stetter, Siemens AG
Einführung: Lernen in Statistik und Biologie
5
Statistisches Lernen: Beispiel
Statistisches / Maschinelles Lernen: „Entdeckung von Struktur in Daten“
Beispiel: 2D-Klassifikation:
x2
y (i ) = 0
Datenpunkt
M Fiktive Daten eines Geldinstituts:
x1 = Abgehobener Geldbetrag
x2 = Häufigkeit Abhebevorgänge
x = ( x1 , x2 )
y
y
x (i )
y( j) = 1
= „Muster“
= Scheckkartenbetrug (1=ja, 0=nein)
= „Klassenlabel“, Soll, Output
(1)
(1)
(x , y ) K (x
(M )
,y
(M )
)
w
Ziel: Lerne Klassifikationsregel, um künftige Betrüger frühzeitig an ihrem
Verhalten zu erkennen.
PD Dr. Martin Stetter, Siemens AG
Einführung: Lernen in Statistik und Biologie
x1
6
Lernen eines Klassifikators:
x2
Linearer Klassifikator:
yˆ = Θ(w ⋅ x + b)
Θ( x) = 1, x ≥ 0
Θ( x) = 0, x < 0
Separierende „Hyperebene“ w ⋅ x + b = 0
y (m) = 0
x (m )
w ⋅ x := w1 x1 + w2 x2
( w , b)
= Parametersatz, „Modell“,
„Hypothese“
w
Datenpunkt
c+
c−
yˆ = 0
yˆ = +1
x1
„Lernen“: Finde besten Parametersatz
Online-Lernen (Beispiel für b=0):
Offline-Lernen:
c+/ − =
1
x(m)
∑
M + / − {m| y ( m ) = ±1}
Klassenzentren
ŵ = c + − c −
bˆ = −w ⋅ (c + + c − ) / 2
PD Dr. Martin Stetter, Siemens AG
Für jeden Datenpunkt ändere w gemäß
Δw = η ( y ( m ) − yˆ ( m ) )x ( m )
(Perceptron-Lernregel, siehe später)
Einführung: Lernen in Statistik und Biologie
7
Warum „statistisches“ Lernen?
x2
Daten sind unsicher:
-- Datenpunkte x könnten versetzt sein
-- Gemessene Klassen können falsch sein
Klassifikationsgesetz ist unsicher
w
-- Mitglieder unterschiedlicher Klassen
könnten dasselbe Muster x aufweisen
x1
Lösung: Probabilistischer Klassifikator („soft classifier“)
Spezifiziere Wahrscheinlichkeit für
Klassenmitgliedschaft
Pr( y (x) = 1) = g (w ⋅ x + b)
Beispiel: Logistische Transferfunktion f :
g (x)
1
1
g ( x) =
1 + exp(− x)
x
PD Dr. Martin Stetter, Siemens AG
Einführung: Lernen in Statistik und Biologie
8
Neuronales Lernen: Gehirn und Nervenzelle
Das menschliche Gehirn
Besteht aus Nervenzellen (Neuronen) und Hilfszellen
Hochstrukturiert (Kerne, Areale der Grosshirnrinde)
Gigantisches Netz aus Neuronen:
-- 100 000 000 000 Nervenzellen
-- Jede Zelle erhält synaptischen Input von ca. 10 000
anderen Nervenzellen (Konvergenz)
-- Jede Zelle sendet ca. 10 000 outputs (Divergenz)
-- Gesamte Leitungslänge: 750 000 km !!!
Dendrit
Nervenzelle
Soma
Axon
Besteht aus Dendrit,
Soma (Zellkörper)
Axon
PD Dr. Martin Stetter, Siemens AG
Einführung: Lernen in Statistik und Biologie
9
Neuronales Lernen: Reizleitung in Neuronen
Funktionsweise des Neurons
Signal: Aktionspotential, „Spike“
Signalfluss:
Dendrit --> Soma --> Axon-->
Synapse--> Dendrit ...
(a) Spike kommt an;
Synapse injiziert Strom I
Membranspannung steigt (PSP)
(b) Viele PSPs summieren sich
Bei Schwellenspannung: Spike
(c) Spike läuft Axon entlang
verzweigt sich mit dem Axon
(d) Spike kommt an.....
PD Dr. Martin Stetter, Siemens AG
Biologisches Lernen (Hypothese):
Synaptischer Strom I ändert sich in Abhängigkeit
von der Zeit und der Hirnaktivität („LTP, LTD“.....)
Einführung: Lernen in Statistik und Biologie
10
Ratenmodell des Neurons
x1
• Neuron erhält Signale von d Synapsen
x2
• An Synapse i kommen Spikes mit der
Rate xi an
x3
• Synapse i induziert Spannung Ui = wi xi
wi heißt synaptisches Gewicht
• Das Soma summiert die Spannungsänderungen:
d
i =1
• Die Spikerate y am Axon ist eine sigmoide
Funktion der Summenspannung
PD Dr. Martin Stetter, Siemens AG
.
.
.
xd
Modellneuron (Perceptron)
∑
f
y (x)
wd
Lernen im Modellneuron:
U = ∑ wi xi = w ⋅ x
y ( x) = g ( w ⋅ x − θ )
w1
w2
w3
Synaptische Gewichte w ändern sich
abhängig von der Aktivität
Biologisch motivierte Lernregeln...
(zB. „Hebb-Regel“)
Einführung: Lernen in Statistik und Biologie
11
Statistische und Neuronale Lernverfahren: Beispiele
Künstliche Neuronale Netze
Statistische Datenmodellierung
Modellneuronen können zu künstlichen neuro-
Modellneuronen können auch als statistische
nalen Netzen zusammengeschaltet werden, zB.
Datenmodelle interpretiert werden, z.B.
Probabilistischer Klassifikator
Perceptron
Multilagen-Perceptron
Support-Vector Machine
Radiale Basisfunktionen-Netzwerk
Bayes-Belief-Netzwerk
Hopfield-Netzwerk
Helmholtz-Machine
Adaptive Resonance Theory Netzwerk
Selbstorganisierende Merkmalskarten
PD Dr. Martin Stetter, Siemens AG
Einführung: Lernen in Statistik und Biologie
Vektor-Quantisierer
ICA
12
Zusammenfassung
• Ein biologisch motiviertes Modellneuron läßt sich mit einem linearen
probabilistischen Klassifikator identifizieren
• Viele künstliche Neuronale Netze lassen sich mit statistischen Lernverfahren
identifizieren
• Viele Verfahren, viele Aufgaben
„Road Map“
• Bayes‘sche Inferenz als genereller Rahmen für statistische Lernverfahren
• Statistische Datenmodellierung durch Optimierung und Regularisierung
• Spezielle maschinelle Lernverfahren und Neuronale Netzwerk-Typen
PD Dr. Martin Stetter, Siemens AG
Einführung: Lernen in Statistik und Biologie
13
Herunterladen