INTELLIGENTE DATENANALYSE IN MATLAB Mathematische Grundlagen Michael Brückner/Tobias Scheffer Literatur 2 A. Fischer, A F h K K. V Vetters: Lineare L Algebra Al b – Eine E Einführung für Ingenieure und Naturwissenschaftler. H Amann, H. A J Escher: J. E h Analysis A l i I-III. I III S. Boyd, L. Vandenbergh: Convex Optimization. R. Schlittgen: Einführung in die Statistik. H. R. Schwarz: Numerische Mathematik. Michael Brückner/Tobias Scheffer 21.04.2009 Überblick 3 LLineare Algebra Al b Analysis Stochastik Numerik Michael Brückner/Tobias Scheffer 21.04.2009 Lineare Algebra: Vektoren Vektor: x1 T x x1 xm xm Vektorsumme: x x11 xn1 n xi i 1 x1m xnm 4 Skalarprodukt: Michael Brückner/Tobias Scheffer x1 x 2 x3 m x i 1 y, x x, y x y xi yi T x, y x y cos x2 x1 x3 y 21.04.2009 Lineare Algebra: Matrizen T x11 x1n x11 xm1 X x1 x n xm1 xmn x1n xmn Matrix: Matrixsumme: Matrixprodukt: p x11 y11 x1n y1n X Y xm1 ym1 xmn ymn x11 x1n y11 YX XY xm1 xmn yn1 5 Michael Brückner/Tobias Scheffer n x1i yi1 y1k i 1 ynk n xmi yi1 i 1 x y 1i ik i 1 n xmi yik i 1 n 21.04.2009 Lineare Algebra: Geometrie Hyperebene: H b H x | f (x) x w w T 0 w 0 Hw w z f (z ) w Ellipsoid: w0 w EA x | g (x) x T Ax 1 6 Michael Brückner/Tobias Scheffer 21.04.2009 Lineare Algebra: Matrix Matrix-Eigenschaften Eigenschaften 7 Quadratisch: Symmetrisch: y Spur (trace): Rang (rank): Determinante: Positiv definit: Michael Brückner/Tobias Scheffer nm A AT m tr ( A ) aii a11 a1n A am1 amn i 1 rk ( A ) Anzahl linear unabhänger Zielen/Spalten det ( A ) vol ( EA ) 2 gilt nur falls A positiv definit x 0 : xT Ax 0 äquivalent gilt G : A GG T 21.04.2009 Lineare Algebra: Spezielle Matrizen Eins-Vektor/-Matrix: 1 1 1 1 , 1 1 1 1 Einheitsvektor: ei 0 0 1 0 0 T i 1 8 a1 0 ame m 0 am Diagonalmatrix: diag (a) a1e1 Einheitsmatrix: 1 0 I diag (1) 0 1 Michael Brückner/Tobias Scheffer 21.04.2009 Lineare Algebra: Matrix Matrix-Faktorisierung Faktorisierung l11 0 u11 um1 A LU lm1 lmm 0 umm LU-Zerlegung (m = n): Cholesky-Zerlegung (m = n): Eigenwert-Zerlegung (m = n): A VΣV T v1 1 0 T v m v1 v m 0 m Eigenvektoren 9 A GG T Michael Brückner/Tobias Scheffer T existiert nur falls A positiv definit 1 falls i j v iT v j 0 falls i j Eigenwerte 21.04.2009 Lineare Algebra: Matrix Matrix-Faktorisierung Faktorisierung Singulärwert-Zerlegung (m > n): Singulärwerte g A UΩV T u1 1 0 v v T um n 0 n 1 0 1 falls i j u uj 0 falls i j T i Berechnung durch Eigenwert-Zerlegung von 1 0 1 0 A T A V V T , AA T U 0 n 0 n 0 10 1 falls i j v vj 0 falls i j T i Michael Brückner/Tobias Scheffer AT A : 0 T U , i i 0 21.04.2009 Analysis: Distanzen D f Definition: Beispiele für Vektor-Distanzen 11 d ( x, y ) 0 x y d ( x, y ) d ( y , x ) Minkowski-Distanz: xy Manhattan-Distanz: xy 1 Euklidische xy Distanz: p m p x y i 1 i p Norm von x: x d ( x, 0) i 2 Beispiel für Matrix-Distanzen: Schatten-Distanz: XY Trace-Distanz: XY Frobenius-Distanz: XY Michael Brückner/Tobias Scheffer d ( x, y ) d ( x, z ) d ( z , y ) p tr F m p i 1 Singulärwerte der Matrix X Y p i XY 1 XY 2 21.04.2009 Analysis: Differentialrechnung E Erste Ableitung Abl einer Funktion F k f: Nach Nach f x einem Skalar x: x f einem Vektor x: f f x f grad ( f ) x x m 1 Gradient 12 T Partielle Ableitung g Zweite Ableitung einer Funktion f : Nach einem Skalar Nach einem Vektor Michael Brückner/Tobias Scheffer 2 f f 2 x 2 f 2 f x: 2 x x x m 1 1 2 x f H ( f ) x: 2 2 f f 2 Hesse-Matrix x x x m 1 m 2 x 21.04.2009 Analysis: Integralrechnung I Integral l einer FFunktion k f: einem Skalar x: Über Üb einem V Vektor k x: Über Bestimmtes Integral: Fx f ( x)x Fx f (x)x f (x)x1 xm b f ( x)x F (b) F (a) x x a 13 Umkehroperation: f ( x) Fx x Berechnung analytisch durch Integrationsregeln oder numerische Approximation (Quadraturformeln). Michael Brückner/Tobias Scheffer 21.04.2009 Analysis: Konvexität K Konvexe Funktion F k f: f (tx (1 t ) y ) tf ( x) (1 t ) f ( y ) Konkave Funktion f: f (tx (1 t ) y ) tf ( x) (1 t ) f ( y ) Streng konvex bzw. bzw konkav: „“ bzw. „“ wird zu „“ bzw. „“. Es existiert genau ein Minimum bzw. Maximum. Zweite Ableitung ist überall positiv bzw. negativ. Tangente g an f( f(x)) ist untere bzw. obere Schranke von f. 14 Michael Brückner/Tobias Scheffer 21.04.2009 Analysis: Optimierung O Optimierungsaufgabe f b (OA): (OA) xS xS f Zielfunktion. S zulässiger l i BBereich i h (definiert (d fi i durch d hN Nebenbedingungen). b b di ) f * Optimalwert. x* optimale ti l Lösung. Lö Ein f * min f ( x) mit x* arg min f ( x) x אS wird zulässige Lösung genannt. K Konvexe OA: OA Zielfunktion und zulässiger Bereich konvex. Lokales L k l Optimum O ti = Globales Gl b l Optimum. O ti 15 Michael Brückner/Tobias Scheffer 21.04.2009 Analysis: Optimierung Notwendige Optimalitätskriterien für x*: Wenn f in x* differenzierbar ist, dann ist x f ( x* ) 0 . Wenn f in x* zweimal differenzierbar ist, dann ist 2x f ( x* ) eine positiv (semi-)definite Matrix. OA ohne h Nebenbedingungen: N b b di S m OA mit n Nebenbedingungen: S x | g (x) 0, g (x) 0, i 1...k , j k 1...n m i 16 Michael Brückner/Tobias Scheffer j 21.04.2009 Analysis: Optimierung L Lagrange-Ansatz A ffür OA mit Nebenbedingungen: N b b d S x | g (x) 0, g (x) 0, i 1...k , j k 1...n Nebenbed.: m i j n L ( x, α ) f ( x ) i g i ( x ) Lagrange-Funktion: L F ki i 1 Dualität: Dualitätslücke f * min f (x) minm max L(x, α ) max minm L(x, α ) xS x α 0 α 0 x f p ( x) Primale Duale 17 OA: OA: Michael Brückner/Tobias Scheffer f d (α ) f (x) falls x S minm f p (x) mit f p (x) x falls x S max f d (α ) mit f d (α ) minm L(x, α ) α 0 x 21.04.2009 Stochastik: Wahrscheinlichkeitstheorie 18 ZZufallsexperiment: f ll d definierter f Prozess, P in dem d eine Beobachtung ω erzeugt wird (Elementarereignis). E i i Ereignisraum Ω: Menge M aller ll möglichen ö li h El Elementarereignisse. E i i A: Teilmenge Ereignis T il des d EEreignisraums. i i Wahrscheinlichkeitsfunktion P: Funktion welche W h h i li hk i Wahrscheinlichkeitsmasse auff EEreignisse i i A aus Ω verteilt. Michael Brückner/Tobias Scheffer 21.04.2009 Stochastik: Wahrscheinlichkeitstheorie G l Gültige W h h l hk fk (Kolmogorow Wahrscheinlichkeitsfkt. (K l A Axiome) ) Wahrscheinlichkeit von Ereignis A: 0 P( A) 1 Sicheres Si h P () 1 EEreignis: i i Für die Wahrscheinlichkeit zweier unabhängiger (inkompatibler) Ereignisse A und B (d.h. (d h A B ) P( A B) P( A) P( B) gilt: 19 Summenregel: Produktregel: Satz von Bayes: Michael Brückner/Tobias Scheffer P( A) P( A Bi ) i {Bi} ist Partitionierung von Ω P( A B) P( A | B) P( B) P( A | B) P( B) P( B | A) P( A) P( A | B) P( B | A) P( A) P( B) 21.04.2009 Stochastik: Wahrscheinlichkeitstheorie ZZufallsvariable f ll bl X: Abbildung Abb ld eines elementaren l Ereignisses auf einen numerischen Wert, X : x . El Elementarereignis t i i ω ↔ Belegung B l der d Zufallsvariable Z f ll i bl X(ω)=x X( ) . Verteilungsfunktion einer Zufallsvariable X: FX ( x) P( X x) P({ | X ( ) x}) Dichtefunktion einer Zufallsvariable X: f X ( x) P( X x) P({ | X ( ) x}) Zusammenhang von Verteilungs- und Dichtefunktion: a FX (a ) 20 Michael Brückner/Tobias Scheffer f X ( x)x f X (a) FX (a ) x 21.04.2009 Stochastik: Informationstheorie IInformationsgehalt f h l d der RRealisierung l x einer Zufallsvariable X: h( x) I ( X x) Idee: Id IInformation f ti zweier i unabhängiger bhä i Ereignisse E i i soll sich addieren, h( x, y ) I ( X x) I (Y y) . Für zwei unabhängige Ereignisse gilt p ( x, y ) P( X x Y y ) P ( X x) P (Y y ) und somit h( x, y) log p( x, y) mit h( x) I ( X x) log P( X x). Für bedingte Ereignisse gilt: h( x, y ) h( x | y ) h( y ) Analog zum Satz von Bayes gilt: h ( x | y ) h ( y ) h ( y | x ) h ( x ) h ( x | y ) h ( x, y ) h ( y ) 21 Michael Brückner/Tobias Scheffer 21.04.2009 Stochastik: Kenngrößen von Zufallsvariablen Verteilung/Dichte. V l /D h Wertebereich: stetig/diskret, endlich/unendlich, ... Erwartungswert (mittlere Realisierung): X E X p ( x) x x Varianz (mittlere quadratische Abweichung vom Erwartungswert): 2 2 X2 E X X p( x) x X x Entropie p (mittlerer ( Informationsgehalt): g ) H X E h( X ) p ( x) log p ( x) x 22 Michael Brückner/Tobias Scheffer 21.04.2009 Stochastik: Mathematische Statistik Annahme: A h D Daten (S (Stichprobe) h b ) = Realisierungen R l bzw. b Belegungen von Zufallsvariablen. Zi l Aussagen Ziel: A üb über Eigenschaften Ei h f der d GrundG d gesamtheit (alle möglichen Belegungen) treffen. E i kl Entwicklung von SSchätzhä und d TTestverfahren f h für fü solche l h Aussagen, z.B.: Schätzer S hät für fü PParameter t von V Verteilungsfunktionen. t il f kti Signifikanztests für Aussagen. 23 Michael Brückner/Tobias Scheffer 21.04.2009 Numerik Ziel:l K Zi Konstruktion t kti und d Analyse A l von Algorithmen Al ith für fü kontinuierliche mathematische Probleme, falls Keine exakte Lösung für ein Problem existiert, Exakte Lösung nicht effizient gefunden werden kann. Konstruktionsprinzipien: p p Exakte Verfahren: exakte Lösung bei unendlicher Rechnergenauigkeit. Näherungsverfahren: approximative Lösung. Analysen: Laufzeit, L f it 24 Stabilität/Fehleranalyse St bilität/F hl l und d RRobustheit. b th it Michael Brückner/Tobias Scheffer 21.04.2009 Numerik: Fehler F hl Fehlerarten: Eingabefehler, Messfehler, Rundung auf Maschinengenauigkeit. Systematische S t ti h Fehler F hl ((z.B. B Diskretisierung), Di k ti i ) Rundungsfehler. R d f hl Beispiele: Addition von x und Additi d y mitit x y : 1020 1020 1020 40 ln 1 e 40 Logarithmieren/Potenzrechnen: Fehlerfortpflanzung: Summieren n ähnlich großer Zahlen n y xi i 1 ab y f (1, (1 n) mit f (a, b) f a, 2 25 Michael Brückner/Tobias Scheffer ab f 1, 1 b und f a, a xa 2 21.04.2009 Numerik: Anwendungen 26 LLösung linearer l Gleichungssysteme. Gl h Interpolation/Approximation von reellen Funktionen. Finden von Extremwerten (Nullstellen, Minima, Maxima, Sattelpunkte, …) nichtlinearer Gleichungen. Numerische Differentiation/Integration. Anfangswert-/Randwertprobleme für Differentialgleichungen. Eigenwertprobleme und Matrix-Faktorisierung. Michael Brückner/Tobias Scheffer 21.04.2009 Numerik: Beispiel Nullstellenproblem ZZiel:l Finden F d von x mit g ( x ) 0 . Newtonsches Näherungsverfahren: 0 0 xt01 xt0 x g ( xt0 ) 1 g ( xt0 ) Anwendung: Lösen von Optimierungsproblemen; für optimale Lösung x* gilt x f ( x* ) 0 g ( x) x f ( x) : xt*1 xt* 2x f ( xt* ) 1 x f ( xt* ) H ( f ) 1 grad ( f ) Quasi-Newton-Verfahren: Approximation 27 Michael Brückner/Tobias Scheffer von x g ( xt0 ) 1 bzw bzw. H ( f ) 1. 21.04.2009 Zusammenfassung Maschinelles M hi ll LLernen ist i t zu einem i großen ß Teil T il di die Anwendung von Mathematik aus zahlreichen Gebieten,, insbesondere der SStatistik & Op G Optimierung. g Inhalt dieser Vorlesung ist Das Verstehen und Implementieren von Algorithmen des Maschinellen Lernens. Inhalt dieser Vorlesung ist NICHT Das Herleiten/Erklären der zugrunde liegenden Mathematik. 28 Michael Brückner/Tobias Scheffer 21.04.2009