Statistische und neuronale Lernverfahren Martin Stetter WS 03/04, 2 SWS VL: Dienstags 8:30 - 10 Uhr PD Dr. Martin Stetter, Siemens AG Statistische und neuronale Lernverfahren 1 Behandelte Themen 0. „Motivation“: Lernen in Statistik und Biologie 1. Wahrscheinlichkeitstheorie: Grundlagen und Definitionen 2. Überblick über statistische Datenmodellierungs-Verfahren 3. Lernen von Datenmodellen • Bayes‘sches Schließen (Inferenz) • Maximum-Likelihood Parameterschätzung • ML und Fehlerminimierung • Generalisierung und Regularisierung • Optimierungsverfahren 4. Neuronale Lernverfahren für Klassifikation • Perceptron, Soft-Margin Classifiers, Support Vector Machine, Kernel-Klassifikation 5. Neuronale Lernverfahren für Regression • Lineare Modelle, Multilagen-Perceptron, Radiale Basisfunktionen, Kernel-Regression 4. Bayes-Belief-Netze PD Dr. Martin Stetter, Siemens AG Statistische und neuronale Lernverfahren 2 Behandelte Themen 0. „Motivation“: Lernen in Statistik und Biologie 2. Überblick über statistische Datenmodellierungs-Verfahren 3. Lineare Modelle (Regression) 4. Selbstorganisierende Karten, Bayes-Belief-Netze (Dichteschätzung) 5. Perceptron und Multilagen-Perceptron (Funktionsapproximation) 6. Lernen von Datenmodellen • Bayes‘sches Schließen (Inferenz) • Maximum-Likelihood Parameterschätzung • ML und Fehlerminimierung • Generalisierung und Regularisierung • Optimierungsverfahren 7. Kernel-Trick und Support Vector Machine • Perceptron, Soft-Margin Classifiers, Support Vector Machine, Kernel-Klassifikation PD Dr. Martin Stetter, Siemens AG Statistische und neuronale Lernverfahren 3 Literatur Statistische Lernverfahren: • B. Schölkopf, A. Smola: Learning with Kernels. MIT Press, Cambridge, MA (2002) Statistische und neuronale Verfahren: • C. M. Bishop, Neural Networks for Pattern Recognition, Clarendon Press Oxford (1995) Neuronale Netze: • J. Hertz, A. Krogh, R. G. Palmer, Introduction to the Theory of Neural Computation, Addison Wesley, Redwood City CA (1991) Gehirn und Nervenzellen, Computational Neuroscience: • M. Stetter, Exploration of Cortical Function, Kluwer Academic Publishers, Boston Dordrecht (2002) • Bioinformatik und System-Biologie • P. Baldi, G. W. Hatfield, DNA Microarrays and Gene Expression, Cambridge University Press Cambridge, MA (2002) PD Dr. Martin Stetter, Siemens AG Statistische und neuronale Lernverfahren 4 Einführung: Lernen in Statistik und Biologie Biologisches Lernen Maschinelles Lernen Erkennen von Zusammenhängen im Lebensraum Erkennen von statistischer Struktur in Datensätzen „Synaptische Plastizität“ im Gehirn Einstellung der Modellparameter Erlernen von Fähigkeiten aus Beispielen (prozedurales Lernen) Optimierung eines Modells Regularisiertes Lernen Finden einfacher Lösungen Bayes‘sches Schließen (Inferenz) Schlußfolgern PD Dr. Martin Stetter, Siemens AG Einführung: Lernen in Statistik und Biologie 5 Statistisches Lernen: Beispiel Statistisches / Maschinelles Lernen: „Entdeckung von Struktur in Daten“ Beispiel: 2D-Klassifikation: x2 y (i ) = 0 Datenpunkt M Fiktive Daten eines Geldinstituts: x1 = Abgehobener Geldbetrag x2 = Häufigkeit Abhebevorgänge x = ( x1 , x2 ) y y x (i ) y( j) = 1 = „Muster“ = Scheckkartenbetrug (1=ja, 0=nein) = „Klassenlabel“, Soll, Output (1) (1) (x , y ) K (x (M ) ,y (M ) ) w Ziel: Lerne Klassifikationsregel, um künftige Betrüger frühzeitig an ihrem Verhalten zu erkennen. PD Dr. Martin Stetter, Siemens AG Einführung: Lernen in Statistik und Biologie x1 6 Lernen eines Klassifikators: x2 Linearer Klassifikator: yˆ = Θ(w ⋅ x + b) Θ( x) = 1, x ≥ 0 Θ( x) = 0, x < 0 Separierende „Hyperebene“ w ⋅ x + b = 0 y (m) = 0 x (m ) w ⋅ x := w1 x1 + w2 x2 ( w , b) = Parametersatz, „Modell“, „Hypothese“ w Datenpunkt c+ c− yˆ = 0 yˆ = +1 x1 „Lernen“: Finde besten Parametersatz Online-Lernen (Beispiel für b=0): Offline-Lernen: c+/ − = 1 x(m) ∑ M + / − {m| y ( m ) = ±1} Klassenzentren ŵ = c + − c − bˆ = −w ⋅ (c + + c − ) / 2 PD Dr. Martin Stetter, Siemens AG Für jeden Datenpunkt ändere w gemäß Δw = η ( y ( m ) − yˆ ( m ) )x ( m ) (Perceptron-Lernregel, siehe später) Einführung: Lernen in Statistik und Biologie 7 Warum „statistisches“ Lernen? x2 Daten sind unsicher: -- Datenpunkte x könnten versetzt sein -- Gemessene Klassen können falsch sein Klassifikationsgesetz ist unsicher w -- Mitglieder unterschiedlicher Klassen könnten dasselbe Muster x aufweisen x1 Lösung: Probabilistischer Klassifikator („soft classifier“) Spezifiziere Wahrscheinlichkeit für Klassenmitgliedschaft Pr( y (x) = 1) = g (w ⋅ x + b) Beispiel: Logistische Transferfunktion f : g (x) 1 1 g ( x) = 1 + exp(− x) x PD Dr. Martin Stetter, Siemens AG Einführung: Lernen in Statistik und Biologie 8 Neuronales Lernen: Gehirn und Nervenzelle Das menschliche Gehirn Besteht aus Nervenzellen (Neuronen) und Hilfszellen Hochstrukturiert (Kerne, Areale der Grosshirnrinde) Gigantisches Netz aus Neuronen: -- 100 000 000 000 Nervenzellen -- Jede Zelle erhält synaptischen Input von ca. 10 000 anderen Nervenzellen (Konvergenz) -- Jede Zelle sendet ca. 10 000 outputs (Divergenz) -- Gesamte Leitungslänge: 750 000 km !!! Dendrit Nervenzelle Soma Axon Besteht aus Dendrit, Soma (Zellkörper) Axon PD Dr. Martin Stetter, Siemens AG Einführung: Lernen in Statistik und Biologie 9 Neuronales Lernen: Reizleitung in Neuronen Funktionsweise des Neurons Signal: Aktionspotential, „Spike“ Signalfluss: Dendrit --> Soma --> Axon--> Synapse--> Dendrit ... (a) Spike kommt an; Synapse injiziert Strom I Membranspannung steigt (PSP) (b) Viele PSPs summieren sich Bei Schwellenspannung: Spike (c) Spike läuft Axon entlang verzweigt sich mit dem Axon (d) Spike kommt an..... PD Dr. Martin Stetter, Siemens AG Biologisches Lernen (Hypothese): Synaptischer Strom I ändert sich in Abhängigkeit von der Zeit und der Hirnaktivität („LTP, LTD“.....) Einführung: Lernen in Statistik und Biologie 10 Ratenmodell des Neurons x1 • Neuron erhält Signale von d Synapsen x2 • An Synapse i kommen Spikes mit der Rate xi an x3 • Synapse i induziert Spannung Ui = wi xi wi heißt synaptisches Gewicht • Das Soma summiert die Spannungsänderungen: d i =1 • Die Spikerate y am Axon ist eine sigmoide Funktion der Summenspannung PD Dr. Martin Stetter, Siemens AG . . . xd Modellneuron (Perceptron) ∑ f y (x) wd Lernen im Modellneuron: U = ∑ wi xi = w ⋅ x y ( x) = g ( w ⋅ x − θ ) w1 w2 w3 Synaptische Gewichte w ändern sich abhängig von der Aktivität Biologisch motivierte Lernregeln... (zB. „Hebb-Regel“) Einführung: Lernen in Statistik und Biologie 11 Statistische und Neuronale Lernverfahren: Beispiele Künstliche Neuronale Netze Statistische Datenmodellierung Modellneuronen können zu künstlichen neuro- Modellneuronen können auch als statistische nalen Netzen zusammengeschaltet werden, zB. Datenmodelle interpretiert werden, z.B. Probabilistischer Klassifikator Perceptron Multilagen-Perceptron Support-Vector Machine Radiale Basisfunktionen-Netzwerk Bayes-Belief-Netzwerk Hopfield-Netzwerk Helmholtz-Machine Adaptive Resonance Theory Netzwerk Selbstorganisierende Merkmalskarten PD Dr. Martin Stetter, Siemens AG Einführung: Lernen in Statistik und Biologie Vektor-Quantisierer ICA 12 Zusammenfassung • Ein biologisch motiviertes Modellneuron läßt sich mit einem linearen probabilistischen Klassifikator identifizieren • Viele künstliche Neuronale Netze lassen sich mit statistischen Lernverfahren identifizieren • Viele Verfahren, viele Aufgaben „Road Map“ • Bayes‘sche Inferenz als genereller Rahmen für statistische Lernverfahren • Statistische Datenmodellierung durch Optimierung und Regularisierung • Spezielle maschinelle Lernverfahren und Neuronale Netzwerk-Typen PD Dr. Martin Stetter, Siemens AG Einführung: Lernen in Statistik und Biologie 13