Mathematische Grundlagen

Werbung
INTELLIGENTE DATENANALYSE
IN MATLAB
Mathematische Grundlagen
Michael Brückner/Tobias Scheffer
Literatur





2
A. Fischer,
A
F h K
K. V
Vetters: Lineare
L
Algebra
Al b – Eine
E
Einführung für Ingenieure und Naturwissenschaftler.
H Amann,
H.
A
J Escher:
J.
E h Analysis
A l i I-III.
I III
S. Boyd, L. Vandenbergh: Convex Optimization.
R. Schlittgen: Einführung in die Statistik.
H. R. Schwarz: Numerische Mathematik.
Michael Brückner/Tobias Scheffer
21.04.2009
Überblick




3
LLineare Algebra
Al b
Analysis
Stochastik
Numerik
Michael Brückner/Tobias Scheffer
21.04.2009
Lineare Algebra: Vektoren


Vektor:
 x1 
T
x       x1  xm 
 xm 
Vektorsumme:
x
 x11    xn1 
n

xi  



i 1
 x1m    xnm 

4
Skalarprodukt:
Michael Brückner/Tobias Scheffer
x1  x 2  x3
m
x
i 1

y, x  x, y  x y   xi yi
T
x, y  x y cos 
x2
x1
x3
y
21.04.2009
Lineare Algebra: Matrizen
T
 x11  x1n   x11  xm1 
X               x1  x n 
 xm1  xmn   x1n  xmn 

Matrix:

Matrixsumme:

Matrixprodukt:
p
 x11  y11  x1n  y1n 

X  Y  




 xm1  ym1  xmn  ymn 
 x11  x1n   y11
YX  XY        
 xm1  xmn   yn1
5
Michael Brückner/Tobias Scheffer
 n
x1i yi1 
 y1k   
i 1

    



 ynk   n
xmi yi1 
 
i 1

x
y

1i ik 
i 1




n
xmi yik 


i 1
n
21.04.2009
Lineare Algebra: Geometrie

Hyperebene:
H
b
H  x | f (x)  x w  w
T
0
w

0
Hw
w
z
f (z )
w


Ellipsoid:

w0
w

EA  x | g (x)  x T Ax  1
6
Michael Brückner/Tobias Scheffer
21.04.2009
Lineare Algebra: Matrix
Matrix-Eigenschaften
Eigenschaften






7
Quadratisch:
Symmetrisch:
y
Spur (trace):
Rang (rank):
Determinante:
Positiv definit:
Michael Brückner/Tobias Scheffer
nm
A  AT
m
tr ( A )   aii
 a11  a1n 
A      
 am1  amn 
i 1
rk ( A )  Anzahl linear unabhänger Zielen/Spalten
det ( A )  vol ( EA ) 2
gilt nur falls A positiv definit
x  0 : xT Ax  0
äquivalent gilt G : A  GG T
21.04.2009
Lineare Algebra: Spezielle Matrizen

Eins-Vektor/-Matrix:
1
1  1
1    , 1     
1
1  1

Einheitsvektor:
ei   0  0 1 0  0
T
i 1


8
 a1  0 
 ame m       
 0  am 
Diagonalmatrix:
diag (a)   a1e1
Einheitsmatrix:
1  0 
I  diag (1)      
0  1 
Michael Brückner/Tobias Scheffer
21.04.2009
Lineare Algebra: Matrix
Matrix-Faktorisierung
Faktorisierung
 l11  0  u11  um1 
A  LU           
lm1  lmm   0  umm 

LU-Zerlegung (m = n):

Cholesky-Zerlegung (m = n):

Eigenwert-Zerlegung (m = n):
A  VΣV T   v1
1  0 
T
 v m        v1  v m 
 0  m 
Eigenvektoren
9
A  GG T
Michael Brückner/Tobias Scheffer
T
existiert nur falls
A positiv definit
1 falls i  j
v iT v j  
0 falls i  j
Eigenwerte
21.04.2009
Lineare Algebra: Matrix
Matrix-Faktorisierung
Faktorisierung

Singulärwert-Zerlegung (m > n):
Singulärwerte
g
A  UΩV T  u1

 1  0 
   
  v  v T
 um  
n
 0  n  1


0


1 falls i  j
u uj  
0 falls i  j
T
i
Berechnung durch Eigenwert-Zerlegung von
1  0
1  0 
  
A T A  V      V T , AA T  U 
 0  n
 0  n 

0

10
1 falls i  j
v vj  
0 falls i  j
T
i
Michael Brückner/Tobias Scheffer
AT A :

0  T
U ,  i  i


0 
21.04.2009
Analysis: Distanzen

D f
Definition:

Beispiele für Vektor-Distanzen

11
d ( x, y )  0  x  y
d ( x, y )  d ( y , x )
 Minkowski-Distanz:
xy
 Manhattan-Distanz:
xy 1
 Euklidische
xy
Distanz:
p

m
p
 x y
i 1
i
p
Norm von x:
x  d ( x, 0)
i
2
Beispiel für Matrix-Distanzen:
 Schatten-Distanz:
XY
 Trace-Distanz:
XY
 Frobenius-Distanz:
XY
Michael Brückner/Tobias Scheffer
d ( x, y )  d ( x, z )  d ( z , y )
p
tr
F

m
p

i 1
Singulärwerte
der Matrix X  Y
p
i
 XY 1
 XY
2
21.04.2009
Analysis: Differentialrechnung

E
Erste
Ableitung
Abl
einer Funktion
F k
f:
 Nach
 Nach
f
x
einem Skalar x:
x f 
einem Vektor x:
 f
f 
 x f  grad ( f )  



x

x
m 
 1
Gradient

12
T
Partielle Ableitung
g
Zweite Ableitung einer Funktion f :
 Nach
einem Skalar
 Nach
einem Vektor
Michael Brückner/Tobias Scheffer
2 f
 f  2
x
 2 f
2 f 

x:


2

x

x

x
m
1
1


2
x f  H ( f )   

 
x:
 2

2
 f 
  f

2
Hesse-Matrix
 x x

x

m
1
m


2
x
21.04.2009
Analysis: Integralrechnung

I
Integral
l einer FFunktion
k
f:
einem Skalar x:
 Über
Üb einem V
Vektor
k x:
 Über

Bestimmtes Integral:
Fx   f ( x)x
Fx   f (x)x     f (x)x1  xm
b
 f ( x)x  F (b)  F (a)
x
x
a


13
Umkehroperation:
f ( x) 
Fx
x
Berechnung analytisch durch Integrationsregeln
oder numerische Approximation (Quadraturformeln).
Michael Brückner/Tobias Scheffer
21.04.2009
Analysis: Konvexität

K
Konvexe
Funktion
F k
f:
f (tx  (1  t ) y )  tf ( x)  (1  t ) f ( y )

Konkave Funktion f:
f (tx  (1  t ) y )  tf ( x)  (1  t ) f ( y )

Streng konvex bzw.
bzw konkav:
 „“
bzw. „“ wird zu „“ bzw. „“.
 Es existiert genau ein Minimum bzw. Maximum.
 Zweite Ableitung ist überall positiv bzw. negativ.
 Tangente
g
an f(
f(x)) ist untere bzw. obere Schranke von f.
14
Michael Brückner/Tobias Scheffer
21.04.2009
Analysis: Optimierung

O
Optimierungsaufgabe
f b (OA):
(OA)
xS
xS

f Zielfunktion.

S zulässiger
l i
BBereich
i h (definiert
(d fi i durch
d hN
Nebenbedingungen).
b b di
)

f * Optimalwert.

x* optimale
ti l Lösung.
Lö
 Ein

f *  min f ( x) mit x*  arg min f ( x)
x ‫ א‬S wird zulässige Lösung genannt.
K
Konvexe
OA:
OA
 Zielfunktion
und zulässiger Bereich konvex.
 Lokales
L k l Optimum
O ti
= Globales
Gl b l Optimum.
O ti
15
Michael Brückner/Tobias Scheffer
21.04.2009
Analysis: Optimierung

Notwendige Optimalitätskriterien für x*:
 Wenn
f in x* differenzierbar ist, dann ist
 x f ( x* )  0 .
 Wenn
f in x* zweimal differenzierbar ist, dann ist
 2x f ( x* )
eine positiv (semi-)definite Matrix.

OA ohne
h Nebenbedingungen:
N b b di
S  m

OA mit n Nebenbedingungen:
S  x   | g (x)  0, g (x)  0, i  1...k , j  k  1...n
m
i
16
Michael Brückner/Tobias Scheffer
j
21.04.2009
Analysis: Optimierung

L
Lagrange-Ansatz
A
ffür OA mit Nebenbedingungen:
N b b d
S  x   | g (x)  0, g (x)  0, i  1...k , j  k  1...n
 Nebenbed.:
m
i
j
n
L ( x, α )  f ( x )    i g i ( x )
 Lagrange-Funktion:
L
F ki
i 1
 Dualität:
Dualitätslücke
f *  min f (x)  minm max L(x, α )  max minm L(x, α )
xS
x
α 0
α  0 x
f p ( x)
 Primale
 Duale
17
OA:
OA:
Michael Brückner/Tobias Scheffer
f d (α )
 f (x) falls x  S
minm f p (x) mit f p (x)  
x
falls x  S
 
max f d (α ) mit f d (α )  minm L(x, α )
α 0
x
21.04.2009
Stochastik: Wahrscheinlichkeitstheorie




18
ZZufallsexperiment:
f ll
d
definierter
f
Prozess,
P
in dem
d eine
Beobachtung ω erzeugt wird (Elementarereignis).
E i i
Ereignisraum
Ω: Menge
M
aller
ll möglichen
ö li h El
Elementarereignisse.
E i i A: Teilmenge
Ereignis
T il
des
d EEreignisraums.
i i
Wahrscheinlichkeitsfunktion P: Funktion welche
W h h i li hk i
Wahrscheinlichkeitsmasse
auff EEreignisse
i i A aus Ω
verteilt.
Michael Brückner/Tobias Scheffer
21.04.2009
Stochastik: Wahrscheinlichkeitstheorie

G l
Gültige
W h h l hk fk (Kolmogorow
Wahrscheinlichkeitsfkt.
(K l
A
Axiome)
)
 Wahrscheinlichkeit
von Ereignis
A:
0  P( A)  1
 Sicheres
Si h
P ()  1
EEreignis:
i i
 Für die Wahrscheinlichkeit zweier unabhängiger
(inkompatibler) Ereignisse A   und B   (d.h.
(d h A  B   )
P( A  B)  P( A)  P( B)
gilt:



19
Summenregel:
Produktregel:
Satz von Bayes:
Michael Brückner/Tobias Scheffer
P( A)   P( A  Bi )
i
{Bi} ist Partitionierung
von Ω
P( A  B)  P( A | B) P( B)
P( A | B) P( B)  P( B | A) P( A)  P( A | B) 
P( B | A) P( A)
P( B)
21.04.2009
Stochastik: Wahrscheinlichkeitstheorie

ZZufallsvariable
f ll
bl X: Abbildung
Abb ld
eines elementaren
l
Ereignisses auf einen numerischen Wert, X :     x   .


El
Elementarereignis
t
i i ω ↔ Belegung
B l
der
d Zufallsvariable
Z f ll
i bl X(ω)=x
X( ) .
Verteilungsfunktion einer Zufallsvariable X:
FX ( x)  P( X  x)  P({   | X ( )  x})

Dichtefunktion einer Zufallsvariable X:
f X ( x)  P( X  x)  P({   | X ( )  x})

Zusammenhang von Verteilungs- und Dichtefunktion:
a
FX (a ) 


20
Michael Brückner/Tobias Scheffer
f X ( x)x

f X (a) 
FX (a )
x
21.04.2009
Stochastik: Informationstheorie

IInformationsgehalt
f
h l d
der RRealisierung
l
x einer
Zufallsvariable X: h( x)  I ( X  x)
 Idee:
Id
IInformation
f
ti zweier
i unabhängiger
bhä i
Ereignisse
E i i
soll sich addieren, h( x, y )  I ( X  x)  I (Y  y) .
 Für zwei unabhängige Ereignisse gilt
p ( x, y )  P( X  x  Y  y )  P ( X  x) P (Y  y )
und somit h( x, y)   log p( x, y) mit h( x)  I ( X  x)   log P( X  x).
 Für bedingte Ereignisse gilt: h( x, y )  h( x | y )  h( y )
 Analog zum Satz von Bayes gilt:
h ( x | y )  h ( y )  h ( y | x )  h ( x )  h ( x | y )  h ( x, y )  h ( y )
21
Michael Brückner/Tobias Scheffer
21.04.2009
Stochastik: Kenngrößen von Zufallsvariablen



Verteilung/Dichte.
V
l /D h
Wertebereich: stetig/diskret, endlich/unendlich, ...
Erwartungswert (mittlere Realisierung):
 X  E  X    p ( x) x
x

Varianz (mittlere quadratische Abweichung vom
Erwartungswert):
2
2
 X2  E  X   X     p( x)  x   X 



x
Entropie
p (mittlerer
(
Informationsgehalt):
g
)
H X  E  h( X )   p ( x) log p ( x)
x
22
Michael Brückner/Tobias Scheffer
21.04.2009
Stochastik: Mathematische Statistik



Annahme:
A
h
D
Daten (S
(Stichprobe)
h b ) = Realisierungen
R l
bzw.
b
Belegungen von Zufallsvariablen.
Zi l Aussagen
Ziel:
A
üb
über Eigenschaften
Ei
h f der
d GrundG d
gesamtheit (alle möglichen Belegungen) treffen.
E i kl
Entwicklung
von SSchätzhä und
d TTestverfahren
f h
für
fü solche
l h
Aussagen, z.B.:
 Schätzer
S hät
für
fü PParameter
t von V
Verteilungsfunktionen.
t il
f kti
 Signifikanztests für Aussagen.
23
Michael Brückner/Tobias Scheffer
21.04.2009
Numerik

Ziel:l K
Zi
Konstruktion
t kti und
d Analyse
A l
von Algorithmen
Al ith
für
fü
kontinuierliche mathematische Probleme, falls
 Keine
exakte Lösung für ein Problem existiert,
 Exakte Lösung nicht effizient gefunden werden kann.

Konstruktionsprinzipien:
p
p
 Exakte
Verfahren: exakte Lösung bei unendlicher
Rechnergenauigkeit.
 Näherungsverfahren: approximative Lösung.

Analysen:
 Laufzeit,
L f it
24
Stabilität/Fehleranalyse
St bilität/F hl
l
und
d RRobustheit.
b th it
Michael Brückner/Tobias Scheffer
21.04.2009
Numerik: Fehler

F hl
Fehlerarten:
Eingabefehler, Messfehler, Rundung auf Maschinengenauigkeit.
 Systematische
S t
ti h Fehler
F hl ((z.B.
B Diskretisierung),
Di k ti i
) Rundungsfehler.
R d
f hl


Beispiele:
Addition von x und
Additi
d y mitit x  y : 1020  1020  1020
40  ln 1  e 40 
 Logarithmieren/Potenzrechnen:
 Fehlerfortpflanzung: Summieren n ähnlich großer Zahlen

n
y   xi
i 1
 ab 
y  f (1,
(1 n) mit f (a, b)  f  a,

2


25
Michael Brückner/Tobias Scheffer
 ab

f
 1,
1 b  und f  a, a   xa
 2

21.04.2009
Numerik: Anwendungen






26
LLösung linearer
l
Gleichungssysteme.
Gl h
Interpolation/Approximation von reellen Funktionen.
Finden von Extremwerten (Nullstellen, Minima,
Maxima, Sattelpunkte, …) nichtlinearer Gleichungen.
Numerische Differentiation/Integration.
Anfangswert-/Randwertprobleme für Differentialgleichungen.
Eigenwertprobleme und Matrix-Faktorisierung.
Michael Brückner/Tobias Scheffer
21.04.2009
Numerik: Beispiel Nullstellenproblem


ZZiel:l Finden
F d von x mit g ( x )  0 .
Newtonsches Näherungsverfahren:
0
0
xt01  xt0   x g ( xt0 ) 1 g ( xt0 )
 Anwendung:
Lösen von Optimierungsproblemen;
für optimale Lösung x* gilt  x f ( x* )  0  g ( x)   x f ( x) :
xt*1  xt*   2x f ( xt* ) 1  x f ( xt* )
H ( f ) 1 grad ( f )

Quasi-Newton-Verfahren:
 Approximation
27
Michael Brückner/Tobias Scheffer
von
 x g ( xt0 ) 1
bzw
bzw.
H ( f ) 1.
21.04.2009
Zusammenfassung


Maschinelles
M
hi ll LLernen ist
i t zu einem
i
großen
ß Teil
T il di
die
Anwendung von Mathematik aus zahlreichen
Gebieten,, insbesondere der SStatistik & Op
G
Optimierung.
g
Inhalt dieser Vorlesung ist
 Das
Verstehen und Implementieren von Algorithmen des
Maschinellen Lernens.

Inhalt dieser Vorlesung ist NICHT
 Das
Herleiten/Erklären der zugrunde liegenden
Mathematik.
28
Michael Brückner/Tobias Scheffer
21.04.2009
Herunterladen