INTELLIGENTE DATENANALYSE
IN MATLAB
Mathematische Grundlagen
Michael Brückner/Tobias Scheffer
Literatur
2
A. Fischer,
A
F h K
K. V
Vetters: Lineare
L
Algebra
Al b – Eine
E
Einführung für Ingenieure und Naturwissenschaftler.
H Amann,
H.
A
J Escher:
J.
E h Analysis
A l i I-III.
I III
S. Boyd, L. Vandenbergh: Convex Optimization.
R. Schlittgen: Einführung in die Statistik.
H. R. Schwarz: Numerische Mathematik.
Michael Brückner/Tobias Scheffer
21.04.2009
Überblick
3
LLineare Algebra
Al b
Analysis
Stochastik
Numerik
Michael Brückner/Tobias Scheffer
21.04.2009
Lineare Algebra: Vektoren
Vektor:
x1
T
x x1 xm
xm
Vektorsumme:
x
x11 xn1
n
xi
i 1
x1m xnm
4
Skalarprodukt:
Michael Brückner/Tobias Scheffer
x1 x 2 x3
m
x
i 1
y, x x, y x y xi yi
T
x, y x y cos
x2
x1
x3
y
21.04.2009
Lineare Algebra: Matrizen
T
x11 x1n x11 xm1
X x1 x n
xm1 xmn x1n xmn
Matrix:
Matrixsumme:
Matrixprodukt:
p
x11 y11 x1n y1n
X Y
xm1 ym1 xmn ymn
x11 x1n y11
YX XY
xm1 xmn yn1
5
Michael Brückner/Tobias Scheffer
n
x1i yi1
y1k
i 1
ynk n
xmi yi1
i 1
x
y
1i ik
i 1
n
xmi yik
i 1
n
21.04.2009
Lineare Algebra: Geometrie
Hyperebene:
H
b
H x | f (x) x w w
T
0
w
0
Hw
w
z
f (z )
w
Ellipsoid:
w0
w
EA x | g (x) x T Ax 1
6
Michael Brückner/Tobias Scheffer
21.04.2009
Lineare Algebra: Matrix
Matrix-Eigenschaften
Eigenschaften
7
Quadratisch:
Symmetrisch:
y
Spur (trace):
Rang (rank):
Determinante:
Positiv definit:
Michael Brückner/Tobias Scheffer
nm
A AT
m
tr ( A ) aii
a11 a1n
A
am1 amn
i 1
rk ( A ) Anzahl linear unabhänger Zielen/Spalten
det ( A ) vol ( EA ) 2
gilt nur falls A positiv definit
x 0 : xT Ax 0
äquivalent gilt G : A GG T
21.04.2009
Lineare Algebra: Spezielle Matrizen
Eins-Vektor/-Matrix:
1
1 1
1 , 1
1
1 1
Einheitsvektor:
ei 0 0 1 0 0
T
i 1
8
a1 0
ame m
0 am
Diagonalmatrix:
diag (a) a1e1
Einheitsmatrix:
1 0
I diag (1)
0 1
Michael Brückner/Tobias Scheffer
21.04.2009
Lineare Algebra: Matrix
Matrix-Faktorisierung
Faktorisierung
l11 0 u11 um1
A LU
lm1 lmm 0 umm
LU-Zerlegung (m = n):
Cholesky-Zerlegung (m = n):
Eigenwert-Zerlegung (m = n):
A VΣV T v1
1 0
T
v m v1 v m
0 m
Eigenvektoren
9
A GG T
Michael Brückner/Tobias Scheffer
T
existiert nur falls
A positiv definit
1 falls i j
v iT v j
0 falls i j
Eigenwerte
21.04.2009
Lineare Algebra: Matrix
Matrix-Faktorisierung
Faktorisierung
Singulärwert-Zerlegung (m > n):
Singulärwerte
g
A UΩV T u1
1 0
v v T
um
n
0 n 1
0
1 falls i j
u uj
0 falls i j
T
i
Berechnung durch Eigenwert-Zerlegung von
1 0
1 0
A T A V V T , AA T U
0 n
0 n
0
10
1 falls i j
v vj
0 falls i j
T
i
Michael Brückner/Tobias Scheffer
AT A :
0 T
U , i i
0
21.04.2009
Analysis: Distanzen
D f
Definition:
Beispiele für Vektor-Distanzen
11
d ( x, y ) 0 x y
d ( x, y ) d ( y , x )
Minkowski-Distanz:
xy
Manhattan-Distanz:
xy 1
Euklidische
xy
Distanz:
p
m
p
x y
i 1
i
p
Norm von x:
x d ( x, 0)
i
2
Beispiel für Matrix-Distanzen:
Schatten-Distanz:
XY
Trace-Distanz:
XY
Frobenius-Distanz:
XY
Michael Brückner/Tobias Scheffer
d ( x, y ) d ( x, z ) d ( z , y )
p
tr
F
m
p
i 1
Singulärwerte
der Matrix X Y
p
i
XY 1
XY
2
21.04.2009
Analysis: Differentialrechnung
E
Erste
Ableitung
Abl
einer Funktion
F k
f:
Nach
Nach
f
x
einem Skalar x:
x f
einem Vektor x:
f
f
x f grad ( f )
x
x
m
1
Gradient
12
T
Partielle Ableitung
g
Zweite Ableitung einer Funktion f :
Nach
einem Skalar
Nach
einem Vektor
Michael Brückner/Tobias Scheffer
2 f
f 2
x
2 f
2 f
x:
2
x
x
x
m
1
1
2
x f H ( f )
x:
2
2
f
f
2
Hesse-Matrix
x x
x
m
1
m
2
x
21.04.2009
Analysis: Integralrechnung
I
Integral
l einer FFunktion
k
f:
einem Skalar x:
Über
Üb einem V
Vektor
k x:
Über
Bestimmtes Integral:
Fx f ( x)x
Fx f (x)x f (x)x1 xm
b
f ( x)x F (b) F (a)
x
x
a
13
Umkehroperation:
f ( x)
Fx
x
Berechnung analytisch durch Integrationsregeln
oder numerische Approximation (Quadraturformeln).
Michael Brückner/Tobias Scheffer
21.04.2009
Analysis: Konvexität
K
Konvexe
Funktion
F k
f:
f (tx (1 t ) y ) tf ( x) (1 t ) f ( y )
Konkave Funktion f:
f (tx (1 t ) y ) tf ( x) (1 t ) f ( y )
Streng konvex bzw.
bzw konkav:
„“
bzw. „“ wird zu „“ bzw. „“.
Es existiert genau ein Minimum bzw. Maximum.
Zweite Ableitung ist überall positiv bzw. negativ.
Tangente
g
an f(
f(x)) ist untere bzw. obere Schranke von f.
14
Michael Brückner/Tobias Scheffer
21.04.2009
Analysis: Optimierung
O
Optimierungsaufgabe
f b (OA):
(OA)
xS
xS
f Zielfunktion.
S zulässiger
l i
BBereich
i h (definiert
(d fi i durch
d hN
Nebenbedingungen).
b b di
)
f * Optimalwert.
x* optimale
ti l Lösung.
Lö
Ein
f * min f ( x) mit x* arg min f ( x)
x אS wird zulässige Lösung genannt.
K
Konvexe
OA:
OA
Zielfunktion
und zulässiger Bereich konvex.
Lokales
L k l Optimum
O ti
= Globales
Gl b l Optimum.
O ti
15
Michael Brückner/Tobias Scheffer
21.04.2009
Analysis: Optimierung
Notwendige Optimalitätskriterien für x*:
Wenn
f in x* differenzierbar ist, dann ist
x f ( x* ) 0 .
Wenn
f in x* zweimal differenzierbar ist, dann ist
2x f ( x* )
eine positiv (semi-)definite Matrix.
OA ohne
h Nebenbedingungen:
N b b di
S m
OA mit n Nebenbedingungen:
S x | g (x) 0, g (x) 0, i 1...k , j k 1...n
m
i
16
Michael Brückner/Tobias Scheffer
j
21.04.2009
Analysis: Optimierung
L
Lagrange-Ansatz
A
ffür OA mit Nebenbedingungen:
N b b d
S x | g (x) 0, g (x) 0, i 1...k , j k 1...n
Nebenbed.:
m
i
j
n
L ( x, α ) f ( x ) i g i ( x )
Lagrange-Funktion:
L
F ki
i 1
Dualität:
Dualitätslücke
f * min f (x) minm max L(x, α ) max minm L(x, α )
xS
x
α 0
α 0 x
f p ( x)
Primale
Duale
17
OA:
OA:
Michael Brückner/Tobias Scheffer
f d (α )
f (x) falls x S
minm f p (x) mit f p (x)
x
falls x S
max f d (α ) mit f d (α ) minm L(x, α )
α 0
x
21.04.2009
Stochastik: Wahrscheinlichkeitstheorie
18
ZZufallsexperiment:
f ll
d
definierter
f
Prozess,
P
in dem
d eine
Beobachtung ω erzeugt wird (Elementarereignis).
E i i
Ereignisraum
Ω: Menge
M
aller
ll möglichen
ö li h El
Elementarereignisse.
E i i A: Teilmenge
Ereignis
T il
des
d EEreignisraums.
i i
Wahrscheinlichkeitsfunktion P: Funktion welche
W h h i li hk i
Wahrscheinlichkeitsmasse
auff EEreignisse
i i A aus Ω
verteilt.
Michael Brückner/Tobias Scheffer
21.04.2009
Stochastik: Wahrscheinlichkeitstheorie
G l
Gültige
W h h l hk fk (Kolmogorow
Wahrscheinlichkeitsfkt.
(K l
A
Axiome)
)
Wahrscheinlichkeit
von Ereignis
A:
0 P( A) 1
Sicheres
Si h
P () 1
EEreignis:
i i
Für die Wahrscheinlichkeit zweier unabhängiger
(inkompatibler) Ereignisse A und B (d.h.
(d h A B )
P( A B) P( A) P( B)
gilt:
19
Summenregel:
Produktregel:
Satz von Bayes:
Michael Brückner/Tobias Scheffer
P( A) P( A Bi )
i
{Bi} ist Partitionierung
von Ω
P( A B) P( A | B) P( B)
P( A | B) P( B) P( B | A) P( A) P( A | B)
P( B | A) P( A)
P( B)
21.04.2009
Stochastik: Wahrscheinlichkeitstheorie
ZZufallsvariable
f ll
bl X: Abbildung
Abb ld
eines elementaren
l
Ereignisses auf einen numerischen Wert, X : x .
El
Elementarereignis
t
i i ω ↔ Belegung
B l
der
d Zufallsvariable
Z f ll
i bl X(ω)=x
X( ) .
Verteilungsfunktion einer Zufallsvariable X:
FX ( x) P( X x) P({ | X ( ) x})
Dichtefunktion einer Zufallsvariable X:
f X ( x) P( X x) P({ | X ( ) x})
Zusammenhang von Verteilungs- und Dichtefunktion:
a
FX (a )
20
Michael Brückner/Tobias Scheffer
f X ( x)x
f X (a)
FX (a )
x
21.04.2009
Stochastik: Informationstheorie
IInformationsgehalt
f
h l d
der RRealisierung
l
x einer
Zufallsvariable X: h( x) I ( X x)
Idee:
Id
IInformation
f
ti zweier
i unabhängiger
bhä i
Ereignisse
E i i
soll sich addieren, h( x, y ) I ( X x) I (Y y) .
Für zwei unabhängige Ereignisse gilt
p ( x, y ) P( X x Y y ) P ( X x) P (Y y )
und somit h( x, y) log p( x, y) mit h( x) I ( X x) log P( X x).
Für bedingte Ereignisse gilt: h( x, y ) h( x | y ) h( y )
Analog zum Satz von Bayes gilt:
h ( x | y ) h ( y ) h ( y | x ) h ( x ) h ( x | y ) h ( x, y ) h ( y )
21
Michael Brückner/Tobias Scheffer
21.04.2009
Stochastik: Kenngrößen von Zufallsvariablen
Verteilung/Dichte.
V
l /D h
Wertebereich: stetig/diskret, endlich/unendlich, ...
Erwartungswert (mittlere Realisierung):
X E X p ( x) x
x
Varianz (mittlere quadratische Abweichung vom
Erwartungswert):
2
2
X2 E X X p( x) x X
x
Entropie
p (mittlerer
(
Informationsgehalt):
g
)
H X E h( X ) p ( x) log p ( x)
x
22
Michael Brückner/Tobias Scheffer
21.04.2009
Stochastik: Mathematische Statistik
Annahme:
A
h
D
Daten (S
(Stichprobe)
h b ) = Realisierungen
R l
bzw.
b
Belegungen von Zufallsvariablen.
Zi l Aussagen
Ziel:
A
üb
über Eigenschaften
Ei
h f der
d GrundG d
gesamtheit (alle möglichen Belegungen) treffen.
E i kl
Entwicklung
von SSchätzhä und
d TTestverfahren
f h
für
fü solche
l h
Aussagen, z.B.:
Schätzer
S hät
für
fü PParameter
t von V
Verteilungsfunktionen.
t il
f kti
Signifikanztests für Aussagen.
23
Michael Brückner/Tobias Scheffer
21.04.2009
Numerik
Ziel:l K
Zi
Konstruktion
t kti und
d Analyse
A l
von Algorithmen
Al ith
für
fü
kontinuierliche mathematische Probleme, falls
Keine
exakte Lösung für ein Problem existiert,
Exakte Lösung nicht effizient gefunden werden kann.
Konstruktionsprinzipien:
p
p
Exakte
Verfahren: exakte Lösung bei unendlicher
Rechnergenauigkeit.
Näherungsverfahren: approximative Lösung.
Analysen:
Laufzeit,
L f it
24
Stabilität/Fehleranalyse
St bilität/F hl
l
und
d RRobustheit.
b th it
Michael Brückner/Tobias Scheffer
21.04.2009
Numerik: Fehler
F hl
Fehlerarten:
Eingabefehler, Messfehler, Rundung auf Maschinengenauigkeit.
Systematische
S t
ti h Fehler
F hl ((z.B.
B Diskretisierung),
Di k ti i
) Rundungsfehler.
R d
f hl
Beispiele:
Addition von x und
Additi
d y mitit x y : 1020 1020 1020
40 ln 1 e 40
Logarithmieren/Potenzrechnen:
Fehlerfortpflanzung: Summieren n ähnlich großer Zahlen
n
y xi
i 1
ab
y f (1,
(1 n) mit f (a, b) f a,
2
25
Michael Brückner/Tobias Scheffer
ab
f
1,
1 b und f a, a xa
2
21.04.2009
Numerik: Anwendungen
26
LLösung linearer
l
Gleichungssysteme.
Gl h
Interpolation/Approximation von reellen Funktionen.
Finden von Extremwerten (Nullstellen, Minima,
Maxima, Sattelpunkte, …) nichtlinearer Gleichungen.
Numerische Differentiation/Integration.
Anfangswert-/Randwertprobleme für Differentialgleichungen.
Eigenwertprobleme und Matrix-Faktorisierung.
Michael Brückner/Tobias Scheffer
21.04.2009
Numerik: Beispiel Nullstellenproblem
ZZiel:l Finden
F d von x mit g ( x ) 0 .
Newtonsches Näherungsverfahren:
0
0
xt01 xt0 x g ( xt0 ) 1 g ( xt0 )
Anwendung:
Lösen von Optimierungsproblemen;
für optimale Lösung x* gilt x f ( x* ) 0 g ( x) x f ( x) :
xt*1 xt* 2x f ( xt* ) 1 x f ( xt* )
H ( f ) 1 grad ( f )
Quasi-Newton-Verfahren:
Approximation
27
Michael Brückner/Tobias Scheffer
von
x g ( xt0 ) 1
bzw
bzw.
H ( f ) 1.
21.04.2009
Zusammenfassung
Maschinelles
M
hi ll LLernen ist
i t zu einem
i
großen
ß Teil
T il di
die
Anwendung von Mathematik aus zahlreichen
Gebieten,, insbesondere der SStatistik & Op
G
Optimierung.
g
Inhalt dieser Vorlesung ist
Das
Verstehen und Implementieren von Algorithmen des
Maschinellen Lernens.
Inhalt dieser Vorlesung ist NICHT
Das
Herleiten/Erklären der zugrunde liegenden
Mathematik.
28
Michael Brückner/Tobias Scheffer
21.04.2009