Methoden der Biosignalverarbeitung

Werbung
Methoden der Biosignalverarbeitung - Quellenseparation
Notes
Vorlesung SS 2012
Methoden der Biosignalverarbeitung
Quellenseparation
Dipl. Math. Michael Wand
Prof. Dr. Tanja Schultz
1 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Quellenseparierung
Notes
• Blind Source Separation (BSS): eine Methode, Signale von mehreren
Sensoren zu verarbeiten
• Annahme: jeder Sensor misst eine Überlagerung von Signalen aus
mehreren Quellen
• Die Sensoren (z.B. Mikrophone, Elektroden, ...) sind dabei
typischerweise an etwas unterschiedlichen Positionen angebracht I
die Messsignale unterscheiden sich leicht
• Wie können wir hieraus die ungemischten Signale zurückgewinnen?
2 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht der Vorlesung
Notes
• Statistische Grundlagen
• Motivation für Quellenseparation
• Wie können wir eine gelungene Trennung erkennen?
? Hier gibt es eine sehr interessante Beobachtung, die (mal wieder) auf
der Gaussverteilung beruht!
• Algorithmische Lösungen des Separierungsproblems, mit Beispielen
3 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Literatur
Notes
Die Vorlesung basiert im wesentlichen auf:
Cardoso: Blind signal separation: statistical principles.
Proc. IEEE, vol. 9, no. 10, pg. 2009–2025, 1998
Hyvärinen/Oja: Independent Component Analysis: Algorithms and Applications.
Neural Networks, vol. 13, pg. 411–430, 2000
Zur Ergänzung könnte man noch lesen:
Wölfel/McDonough: Distant Speech Recognition.
1. Auflage, Wiley, 2009
Ein kleiner Überblick über BSS für die Spracherkennung
Cover/Thomas: Elements of Information Theory.
Wiley, 1991
Sehr gute Einführung in die Informationstheorie
4 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
5 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Zufallsvariablen, elementare Definitionen
• Informationstheoretische Grundlagen
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
6 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zufallsexperimente
Notes
Ein Zufallsexperiment: Wurf einer Münze.
Wahrscheinlichkeitsraum der möglichen Ausgänge dieses Experiments:
Ω = {Kopf, Zahl}.
Auf Ω existiert eine Wahrscheinlichkeitsverteilung, etwa
P(∅) = 0
P({Kopf}) = P({Zahl}) = 1/2
P(Ω) = 1.
Eine Wahrscheinlichkeitsverteilung ordnet jeder Teilmenge des
Wahrscheinlichkeitsraumes eine Wahrscheinlichkeit zwischen 0 und 1 zu.
7 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zufallsvariablen
Notes
Eine Zufallsvariable (ZV) X ordnet den Ausgängen eines Zufallsexperiments, also den Elementen von Ω, reelle Zahlen (oder Vektoren
des Rn ) zu.
Beispiel: Jemand wettet um einen Euro, dass eine geworfene Münze
“Kopf” zeigt. Dann wäre eine nützliche Zufallsvariable
X :Ω→R
Kopf 7→ 1
Zahl 7→ −1,
der Gewinn in Euro bei dem entsprechenden Ereignis. Die Verteilung auf
Ω überträgt sich auf R.
8 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Zufallsvariablen
Notes
Ein weiteres Beispiel: Jemand wirft mit zwei (fairen) Würfeln, einem roten
und einem weißen, und es interessiert uns nur die Summe des Wurfes.
Wahrscheinlichkeitsraum:
Ω = {(1, 1), (1, 2), (1, 3), . . . , (2, 1), . . . , (6, 5), (6, 6)}
= {1, 2, 3, 4, 5, 6}2
Zufallsvariable:
X : Ω → {2, . . . , 12}
(a, b) 7→ a + b
Zufallsvariable ist jetzt die Summe der Würfe. Sie ist natürlich nicht mehr
gleichverteilt.
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zufallsvariablen
Notes
Ein letztes Beispiel: Jemand wirft nur einen Würfel.
Dann wäre Ω = {1, . . . , 6}, und wir können definieren:
X : {1, . . . , 6} → {1, . . . , 6}
a 7→ a
X ist also die identische Abbildung.
Oft ist die Gestalt des Raums Ω sehr kompliziert, oder nicht vollständig
bekannt, oder irrelevant I verwende die Bildmenge der betrachteten
Zufallsvariablen als Ω und setze X = id .
10 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Diskrete und kontinuierliche Zufallsvariablen
Notes
Die Verteilung einer ZV X kann
• diskret sein: Wahrscheinlichkeitsmasse ist auf höchstens abzählbar
unendlich viele Punkte x1 , x2 , . . . des Rn verteilt
I Verteilung kann durch die Wahrscheinlichkeiten der einzelnen
Punkte charakterisiert werden, also P(xi ) = pi
• kontinuierlich sein: Wahrscheinlichkeitsmasse ist auf ein ganzes
Intervall verteilt
I man kann (oft) eine Dichtefunktion p angeben, dann gilt für
A ⊂ R:
Z
P(A) =
p(x)dx
A
Bei kontinuierlichen Variablen schreibt man auch A ∼ p.
11 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Stochastische Unabhängigkeit
Notes
Zwei Zufallsvariablen X , Y sind unabhängig, wenn folgendes gilt:
Im diskreten Fall:
P(X = a, Y = b) = P(X = a) · P(Y = b)
Im kontinuierlichen Fall für A, B ⊆ R:
P(X ∈ A, Y ∈ B) = P(X ∈ A) · P(Y ∈ B)
oder mit Dichtefunktionen ausgedrückt:
pX ,Y (x, y ) = pX (x) · pY (y )
wobei pX ,pY die Dichte von X bzw. Y bedeuten.
12 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Bedingte Wahrscheinlichkeit
Notes
Bedingte Wahrscheinlichkeiten kennen wir z.B. vom Theorem von Bayes:
Für diskrete Zufallsvariablen X , Y definieren wir
P(X = a|Y = b) =
P(X = a, Y = b)
P(Y = b)
bzw. im kontinuierlichen Fall für A, B ⊆ R:
P(X ∈ A|Y ∈ B) =
P(X ∈ A, Y ∈ B)
P(Y ∈ B)
Falls X und Y unabhängig sind, gilt offensichtlich P(X |Y ) = P(X )
(nachrechnen!).
13 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Randverteilungen
Notes
Annahme: X und Y seien diskrete Zufallsvariablen mit gemeinsamer
Verteilung p(X ,Y ) , also P(X = a, Y = b) = p(X ,Y ) (a, b). Was ist die
Verteilung von X oder Y ?
I summiere über alle möglichen Werte der jeweils anderen
Zufallsvariablen auf:
X
X
P(X = a) =
P(X = a, Y = b) =
p(X ,Y ) (a, b)
b
P(Y = b) =
b
X
P(X = a, Y = b) =
a
X
p(X ,Y ) (a, b)
a
14 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Randverteilungen
Notes
• Bei kontinuierlichen Variablen ganz entsprechend
• Summen werden durch Integrale ersetzt
Wenn (X , Y ) ∼ p, dann gilt X ∼ pA und Y ∼ pB mit
Z
pA (a) =
p(a, b)db
ZR
pB (b) =
p(a, b)da
R
15 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Randverteilungen
Notes
Die Verteilungen von X und Y heißen auch Randverteilungen der
gemeinsamen Verteilung (nachher kommt ein grafisches Beispiel).
Wenn X und Y unabhängig sind, so gilt nach Definition
P(X = a, Y = b) = P(X = a) · P(Y = b) bzw.
pA,B (x, y ) = pA (x) · pB (y ).
I die gemeinsame Verteilung ist das Produkt der Randverteilungen.
16 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Erwartungswert
Notes
Der Erwartungswert ist folgendermaßen definiert:
• Im diskreten Fall mit P(X = Xi ) = pi :
X
X
µ = E(X ) =
xi pi =
xi P(X = xi )
i
i
• Im kontinuierlichen Fall mit Dichte p:
Z
µ = E(X ) =
x · p(x)dx.
R
Ist X =
P
i
Xi , so ist auch E (X ) =
P
i
E (Xi ).
17 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Erwartungswert: Beispiele
Notes
Betrachte den Wurf eines fairen Würfels:
P(X = 1) = . . . = P(X = 6) =
1
6
Der Erwartungswert berechnet sich zu
1
1
1
21
E(X ) = 1· +2· +. . .+6· =
= 3.5
6
6
6
6
18 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Erwartungswert: Beispiele
Notes
Gegeben sei eine kontinuierliche
Zufallsvariable mit der Dichtefunktion
(
1
3 ≤ x ≤ 3e
f (x) = x
0 sonst
Dann ist ihr Erwartungswert:
Z ∞
E(X ) =
x · f (x) dx
−∞
3
Z
=
x · 0 dx +
−∞
=0+
Z
x·
3
3e
Z
3
3e
1
dx +
x
Z
∞
x · 0 dx
3e
1 dx + 0 = [x]3e
3 = 3e − 3.
Quelle des Beispiels: Wikipedia (deutsch), Erwartungswert
19 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Unkorreliertheit und Unabhängigkeit
Notes
Der Erwartungswert ist (wie gesagt) linear: E(X + Y ) = E(X ) + E(Y ).
Zwei Zufallsvariablen X , Y sind unkorreliert, wenn sich ihre
Erwartungswerte auch multiplikativ verhalten:
E(X · Y ) = EX · EY
Wenn X und Y unabhängige (kontinuierliche) Zufallsvariablen sind, so gilt
für beliebige Funktionen h1 , h2
Eh1 (X ) · h2 (Y ) = Eh1 (X ) · Eh2 (Y )
Mit h1 = h2 = Identität folgt: zwei unabhängige Variablen sind auch
unkorreliert. Das Gegenteil gilt aber nicht!
20 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Varianz
Notes
Ist µ = E(X ) der Erwartungswert einer reellen Zufallsvariablen, so ist die
Varianz durch
σ 2 = Var(X ) = E((X − µ)2 )
definiert.
Es gilt
im kontinuierlichen Fall: σ 2 = Var(X ) =
X
(xi − µ)2 pi
bzw.
i
im diskreten Fall: σ 2 = Var(X ) =
Z
(x − µ)2 p(x)dx.
R
Die Quadratwurzel der Varianz heißt Standardabweichung:
p
σX = Var(X )
21 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Varianz: Beispiele
Notes
Merke: Die Varianz ist der Erwartungswert der quadratischen Abweichung
der Zufallsvariablen von ihrem Mittelwert.
Die Varianz gibt die “Streuung” oder “Ausbreitung” einer Zufallsvariablen
an.
Als Beispiel betrachten wir zwei Gaussglocken:
Die grüne Glocke ist viel “breiter” I diese Verteilung hat eine höhere
Varianz.
22 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Kovarianz
Notes
Die Kovarianz ist ein Maß für den linearen Zusammenhang zweier
Zufallsvariablen.
Definiert ist sie für zwei ZV X , Y mit Mittelwerten µX , µY als
Cov (X , Y ) = E((X − µX )(Y − µY )) = E(XY ) − E(X )E(Y )
Die Varianz ist ein Spezialfall der Kovarianz:
Var(X ) = Cov (X , X )
Zwei Variablen sind unkorreliert, wenn ihre Kovarianz Null ist.
23 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Eigenschaften der Kovarianz
Notes
Die Kovarianz ist
• positiv, wenn X und Y einen “gleichsinnigen” linearen
Zusammenhang haben
• negativ, wenn X und Y einen “gegensinnigen” linearen
Zusammenhang haben
• Null, wenn kein linearer Zusammenhang existiert.
Ein nichtlinearer Zusammenhang ist aber möglich! Sei X gleichverteilt auf dem
Intervall [−1, 1]. Sei Y = X 2 . Dann ist E(X ) = 0 sowie
R1
. . . E(Y ) = −1 x 2 · 21 dx = 13 . Es gilt
E(XY ) = E(X 3 ) =
Z
1
−1
1
x 3 · dx = 0
2
und damit E(XY ) = E(X ) · E(Y ), obwohl Y sogar deterministisch, aber
nichtlinear, von X abhängt!
24 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Die Kovarianzmatrix
Notes
FAQ: Was genau ist die Kovarianzmatrix?
• Haben wir viele Zufallsvariablen X1 , . . . , XN , so fassen wir sie einfach
in einem Vektor zusammen: X = [X1 , . . . , XN ]T .
• Die Kovarianzmatrix ΣX enthält die Kovarianzen zwischen den
einzelnen Komponenten dieses Vektors:
Cov (X1 , X1 )
B Cov (X2 , X1 )
B
ΣX = B
..
@
.
Cov (XN , X1 )
0
Cov (X1 , X2 )
Cov (X2 , X2 )
..
.
Cov (XN , X2 )
···
···
..
.
···
1
Cov (X1 , XN )
Cov (X2 , XN ) C
C
C
..
A
.
Cov (XN , XN )
In der Diagonale stehen die Varianzen der einzelnen Komponenten. Die
Kovarianzmatrix ergibt sich übrigens, falls E(X ) = 0, durch
ΣX = E(XX T )
(nachrechnen!)
25 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zusammenfassung des Abschnitts
Notes
In diesem Abschnitt haben wir ein paar zentrale Begriffe der
Wahrscheinlichkeitstheorie wiederholt:
• Die Definition einer Zufallsvariablen
• Der Begriff des Erwartungswerts
• Varianz und Kovarianz
• Ganz wichtig: Die stochastische Unabhängigkeit und der
Zusammenhang zwischen Unabhängigkeit und Unkorreliertheit.
26 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Zufallsvariablen, elementare Definitionen
• Informationstheoretische Grundlagen
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
27 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Grundlagen der Informationstheorie
Notes
Jetzt werden wir die zentralen Grundbegriffe der Informationstheorie
kennenlernen (soweit wir sie benötigen).
Die Informationstheorie (Claude Shannon, 1948):
• Was ist Information? Theoretisches Gerüst
• Wie kann man Information messen?
Wir lernen folgende Begriffe kennen:
• Entropie (und bedingte Entropie)
• Mutual Information als weiteres Maß für den Zusammenhang zweier
Zufallsvariablen
• Distributionstheoretische Maße (speziell die
Kullback-Leibler-Divergenz)
28 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Entropie
Notes
Das Maß für pure Information: Entropie. Für eine diskrete Zufallsvariable
X , die Werte xi annimmt, ist die Entropie
X
H(X ) = −EX (log P(X )) = −
P(X = xi ) log P(X = xi ).
i
Für eine kontinuierliche Zufallsvariable entsprechend:
Z
H(X ) = −EX (log pX (x)) = − pX (x) log pX (x)dx.
Achtung: Diskrete und kontinuierliche Entropie (oder Differentialentropie)
haben etwas unterschiedliche Eigenschaften! Das ist für uns aber nicht
weiter wichtig.
29 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Entropie - Beispiel
Was ist denn nun Information?
Notes
Beispiel: Entropie einer diskreten Variable.
Betrachte den Wurf einer Münze, die
evtl. unfair ist (der Rand ist angefeilt).
Es erscheint Kopf mit Wahrscheinlichkeit
p und Zahl mit Wahrscheinlichkeit 1 − p.
Die Entropie dieser Zufallsvariable
(nennen wir sie X ) ist
H(X ) = −[p log p + (1 − p)log (1 − p)].
Der Graph dieser Funktion ist links abgebildet. Was sehen wir?
Quelle des Beispiels: Wikipedia, Entropy
30 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Entropie - Beispiel
Notes
Die Entropie dieser binär verteilten
ZV hat die folgenden Eigenschaften:
• Sie ist symmetrisch
• Sie erreicht
ihr Maximum (nämlich 1) bei p = 1/2.
• Minimal (nämlich 0) wird sie bei einer
Münze, die immer nur auf eine Seite fällt.
FAQ: Wie misst man Entropie? Oft verwendet
man in der Definition den Logarithmus zur Basis 2, dann ist die Einheit
das “Bit”.
31 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Entropie - Eigenschaften
Notes
• Die Entropie ist ein Maß für die Ungewissheit über den Ausgang
eines Experiments.
• Beispiel: Der Münzwurf ist maximal ungewiss, wenn die Münze fair
ist. Es gibt gar keine Ungewissheit, wenn die Münze immer gleich
fällt.
• Die diskrete Entropie ist immer größer oder gleich Null.
• Wichtiges Theorem: unter allen kontinuierlichen ZV gleicher Varianz
hat die Gaussverteilung die höchste Entropie.
32 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Bedingte Entropie
Notes
Die bedingte Entropie einer ZV X gegeben Y ist definiert als:
H(X |Y ) = −E(X ,Y ) (log P(X |Y ))
X
P(X = xi , Y = yj ) log P(X = xi |Y = yj ),
=−
i,j
wenn X die Werte xi , Y die Werte yj annimmt.
Im kontinuierlichen Fall haben wir
Z
H(X |Y ) = −E(X ,Y ) (log p(X |Y )) = −
p(x, y ) log p(x|y )d(x, y ),
R×R
wobei p(x, y ) die gemeinsame Dichte von X und Y ist.
33 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Bedingte Entropie
Notes
Die bedingte Entropie gibt an, wieviel Information X noch enthält, sobald
Y bekannt ist.
Wenn X und Y unabhängig sind, ist p(X |Y ) ≡ p(X ), und damit
H(X |Y ) = H(X ).
Andernfalls gilt immer (sowohl im kontinuierlichen als auch im diskreten
Fall)
H(X |Y ) + H(Y ) = H(X , Y ).
H(X , Y ) ist die gemeinsame Entropie von X und Y , also die Entropie der
gemeinsamen Verteilung.
34 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Die Kullback-Leibler-Divergenz
Notes
Zwischen zwei Verteilungen p, q definiert man die
Kullback-Leibler-Divergenz (oder KL-Divergenz) D(p||q):
Im diskreten Fall
D(p||q) = Ep log
p X
p(a)
=
p(a) log
q
q(a)
a∈A
und im kontinuierlichen Fall entsprechend:
Z
p
p(x)
D(p||q) = Ep log =
p(x) log
dx
q
q(x)
x∈R
35 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Die Kullback-Leibler-Divergenz
Notes
Die KL-Divergenz: zentrales Maß bei der Quellentrennung.
• Die KL-Divergenz ist nicht symmetrisch.
• Trotzdem ist D(p||q) ≥ 0 mit Gleichheit genau dann, wenn p = q I
Maß für die Ähnlichkeit zweier Verteilungen.
• Unsere Anwendung: Maß für die Ähnlichkeit zwischen einer
angenommenen Verteilung und einer Beobachtung.
• Additivitätseigenschaft: Wenn p(x) = p1 (x) · p2 (x) und
q(x) = q1 (x) · q2 (x), dann gilt D(p||q) = D(p1 ||q1 ) + D(p2 ||q2 ).
• Die Eigenschaften der KL-Divergenz sind im kontinuierlichen und im
diskreten Fall gleich.
36 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
KL-Divergenz: Beispiel
Notes
Wir betrachten zwei diskrete Zufallsvariablen mit Zähldichten p, q auf 0, 1:
p(0) = 1 − r ,
p(1) = r
q(0) = 1 − s,
q(1) = s.
Dann ist
r
1−r
+ r log
1−s
s
1−s
s
D(q||p) = (1 − s) log
+ s log
1−r
r
D(p||q) = (1 − r ) log
37 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
KL-Divergenz: Beispiel
Notes
Wenn r = s, gilt D(p||q) = D(q||p) = 0, denn die Zähldichten sind
identisch. Sind aber z.B. r = 1/2 und s = 1/4, können wir ausrechnen:
D(p||q) = 0.2075 bits,
D(q||p) = 0.1887 bits
(in dieser Vorlesung bedeutet log immer den Logarithmus zur Basis 2).
Quelle des Beispiels: [Cover and Thomas(1991)].
38 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Mutual Information
Notes
Die Mutual Information (MI) (deutsch auch Transinformation) zwischen
zwei Zufallsvariablen X , Y :
p(X , Y )
I (X ; Y ) = E(X ,Y ) log
.
p(X )p(Y )
Ausgeschrieben ist das im diskreten Fall:
X
p(X = x, Y = y )
I (X ; Y ) =
p(X = x, Y = y ) log
.
p(X = x)p(Y = y )
x,y
Im kontinuierlichen Fall gilt entsprechend:
Z
p(x, y )
I (X ; Y ) =
p(x, y ) log
d(x, y ).
p(x)p(y )
R×R
39 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Mutual Information
Notes
Die Mutual Information: natürliches Maß für die statistische Abhängigkeit
zweier Zufallsvariablen. Es gilt
I (X ; Y ) = D(pX ,Y ||pX pY )
Die MI ist also die “Distanz” zwischen der gemeinsamen Verteilung
der ZV X und Y und den (Rand-)Verteilungen der einzelnen ZVen
X und Y .
Je mehr die gemeinsame Verteilung von X und Y von dem Produkt der
Randverteilungen abweicht, desto größer wird I (X ; Y ).
40 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Mutual Information
Notes
Es gilt die Formel
I (X ; Y ) = H(X )+H(Y )−H(X , Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ) :
Die MI ist die Differenz zwischen den Einzelinformationen (oder
-entropien) der ZVen und ihrer gemeinsamen Entropie.
Weitere Eigenschaften der Mutual Information:
• Die MI ist symmetrisch.
• Die MI ist immer nichtnegativ.
• Wenn und nur wenn X und Y stochastisch unabhängig sind, ist
I (X ; Y ) = 0.
41 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Eigenschaften der Mutual Information
Notes
Den Zusammenhang zwischen Entropie und
Mutual Information kann man gut graphisch
darstellen. Übungsfragen:
• Was
passiert, wenn X und Y unabhängig sind?
• Was passiert, wenn sie
deterministisch voneinander abhängen?
42 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Mutual Information: Beispiel
Notes
Betrachte folgende gemeinsame Verteilung von X und Y :
X ↓, Y →
1
2
3
4
1
1
8
1
16
1
16
1
4
1
16
1
8
1
16
1
32
1
32
1
16
1
32
1
32
1
16
0
0
0
2
3
4
Übungsaufgaben:
1. Berechne die Randverteilungen von X und Y .
2. Berechne die Entropie von X und die Entropie von Y (Ansatz reicht).
3. Berechne die bedingte Entropie H(X |Y ).
4. Berechne die MI I (X ; Y ).
43 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Mutual Information: Beispiel
Notes
Lösungen:
Die Verteilung
von X ist 41 , 14 , 14 , 14 , und die Verteilung von Y ist
1 1 1 1
,
,
,
.
2 4 8 8
Es ist H(X ) = 2bits und H(Y ) = 7/4bits. Weiter ist
H(Y |X ) =
4
X
P(X = i)H(Y |X = i)
i=1
1
1 1 1 1
1
1 1 1 1
H
, , ,
+ H
, , ,
4
2 4 8 8
4
4 2 8 8
1
1 1 1 1
1
+ H
, , ,
+ H (1, 0, 0, 0)
4
4 4 4 4
4
1 7 1 7 1
1
11
= · + · + ·2+ ·0=
bits.
4 4 4 4 4
4
8
=
Die MI I (X ; Y ) ergibt sich zu I (X ; Y ) = H(X ) − H(X |Y ).
44 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Zusammenfassung des Abschnitts
Notes
Was haben wir in diesem Abschnitt gelernt?
• Wie misst man Information? Der Begriff der Entropie
• Diskreter und kontinuierlicher Fall
• Transinformation
• Kullback-Leibler-Divergenz
45 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
46 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Motivation
Notes
Blind Source Separation (BSS) bezeichnet die Trennung eines Signals, das
sich aus der Überlagerung mehrerer Quellen zusammensetzt, in seine
Bestandteile.
• Messung des Signals: mehrere Sensoren (Elektroden, Mikrofonarray)
• Sensoren messen verschiedene Mischungen (Linearkombinationen)
des Signals
Ansätze zur Lösung [Wölfel and McDonough(2009)]:
• die beobachteten Signale sind stochastisch unabhängig
• die Signalquellen sind nicht gaussverteilt
• die Signale sind nichtstationär.
Wir betrachten zunächst Algorithmen, die die ersten beiden Eigenschaften
ausnutzen.
47 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Voraussetzungen für BSS
Notes
Zentrale Annahme: die verschiedenen Quellen sind unabhängig.
Wollen wir beispielsweise Sprache und Hintergrundgeräusche trennen, oder
verschiedene Sprecher unterscheiden, wird das oft der Fall sein.
Wenn wir Sprache und Widerhall trennen wollen, ist diese Annahme aber
schon problematisch!
Einige Beispiele, bei denen ganz klassisch unabhängige Quellen getrennt
werden, betrachten wir jetzt.
48 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Beispiel Sprachsignal
Notes
• Hier ist ein Hörbeispiel für das sogenannte Cocktail Party Problem –
dies bedeutet, dass viele Sprecher durcheinander sprechen.
• Das menschliche Gehör ist besonders gut darin, solche Signale in ihre
Bestandteile zu trennen.
• Der vorliegende “Cocktail Party Processor” versucht diese Fähigkeit
des menschlichen Gehörs nachzuahmen.
• Links ist eine Originalaufnahme, rechts das verarbeitete Signal.
⇒
Quelle: Slatky, Harald
Algorithmen zur richtungsselektiven Verarbeitung von Schallsignalen - die Realisierung eines binauralen
Cocktail-Party-Prozessor-Systems
http://www.cocktail-party-processor.de
49 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Beispiel EEG
Notes
Ein typisches Problem bei
der EEG-Messung: Einfluss
von EOG (Augenaktivität),
z.B. Blinzeln.
EEG-Signal und Blinzeln
sind stochastisch
unabhängig.
Rechts sieht man
das Ergebnis, wenn ICA
auf die EEG-Signale
angewendet wird. Die
Blinzelkomponente ist fast vollständig erkannt und entfernt worden.
Quelle: [Honal(2005)]
50 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Beispiel MEG
Notes
Hier sieht man als Beispiel
eine MEG-Aufnahme
der Gehirnaktivität. Zu
erkennen sind diverse
Artefakte: Blinzeln
und Augenbewegungen,
Beißbewegungen,
Herzrhythmus.
Quelle dieses Beispiels: Zitiert nach [Hyvärinen and Oja(2000)]
51 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Beispiel MEG
Notes
Hier sieht man neun unabhängige
Komponenten, die aus dem
MEG-Signal extrahiert wurden.
Die Kopfmodelle zeigen die
Feldlinien von links/hinten/rechts,
eine durchgezogene Linie steht für
magnetischen Fluss auswärts, eine
gepunktete Linie für magnetischen
Fluss in den Kopf hinein.
52 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
53 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der zentrale Grenzwertsatz
Notes
Der zentrale Grenzwertsatz (central limit theorem) der
Wahrscheinlichkeitstheorie:
Seien X1 , . . . , Xn , . . . eine Summe unabhängiger, identisch verteilter
Zufallsvariablen mit Mittelwert µ und Varianz σ 2 .
Wir definieren neue Zufallsvariablen
Zn =
X1 + . . . + Xn − nµ
√
σ n
Dann gilt Zn → N (0, 1) für n → ∞, d.h. Zn konvergiert gegen die
Normalverteilung.
Die Voraussetzung, dass die Zufallsvariablen alle identisch verteilt sein
müssen, kann man (stark) abschwächen.
54 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Gaussianity
Notes
Folgerungen:
• Die Verteilung einer Summe unabhängiger ZV geht gegen die
Gaussverteilung, wenn mehr und mehr Komponenten dazuaddiert
werden.
• Die Summe mehrerer Zufallsvariablen wird also “gaussförmiger” sein
als die ursprünglichen Variablen.
• Wenn man also die ursprünglichen ZV extrahieren will, sollte man
nach Komponenten suchen, die so wenig gaussförmig wie möglich
sind.
Ein großer Teil der BSS-Algorithmen basiert auf der Voraussetzung, dass
alle “interessanten” Signale nicht gaussverteilt sind. Der zentrale
Grenzwertsatz unterstützt diese Annahme (auch wenn sie keineswegs
immer stimmt)!
55 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Gaussianity
Notes
Es gibt noch weitere Gründe für die Annahme, interessante Signale seien
nicht gaussverteilt.
• Eine gaussverteilte ZV mit Varianz σ 2 hat die höchste Entropie von
allen ZVen mit der Varianz σ 2 hat.
• Eine gaussverteilte ZV ist also in gewissem Sinne am wenigsten
vorhersagbar/hat am wenigsten Struktur.
• Signale, die Information enthalten, haben Struktur, die sie
vorhersagbarer macht als ein gaussverteiltes Signal.
• Wenn also informationstragende Signale gesucht sind, sollte man
nach Signalen suchen, die nicht gaussverteilt sind.
56 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Gaussianity
Notes
Eine unimodale Verteilung ist
eine (kontinuierliche) Verteilung,
deren Dichtefunktion genau
ein Maximum hat.
Betrachte symmetrische unimodale
Verteilungen: Supergaussförmige
oder steilgipflige Verteilungen
haben eine ausgeprägte Spitze
und massenreiche Enden (engl.
heavy tails). Subgaussförmige oder
flachgipflige Verteilungen haben eine flachere Spitze als Gaussverteilungen
und auch flachere Enden.
Das Bild zeigt die Gaussverteilung (mit Pfeil), supergaussförmige und
subgaussförmige Verteilungen.
57 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Empirische Verteilung von Sprachsignalen
Notes
Die Klassifikation von unimodalen
Verteilungen als supergaussförmig
oder subgaussförmig bietet
uns also eine Möglichkeit,
die Abweichung von der
Gaussverteilung zu quantifizieren.
Man kann empirisch zeigen,
dass die Spektralkoeffizienten eines
Sprachsignals supergaussförmig
verteilt sind (rechts).
58 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
59 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Mathematische Formulierung der Quellenseparation
• Maximum-Likelihood-BSS
• ICA (Independent Component Analysis)
• Algorithmische Lösung des Separationsproblems
60 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Mathematische Formulierung von BSS
Notes
Das einfachste BSS-Modell: N Quellen (sources) s1 , . . . , sN , werden von N
Sensoren gemessen I N Beobachtungen x1 , . . . , xN .
Die Beobachtungen sollen lineare und verzögerungsfreie Mischungen der
Quellsignale sein:
x(t) = As(t)
mit x(t) = [x1 (t), . . . , xN (t)]T und einer N × N-Matrix A.
61 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Mathematische Formulierung von BSS
Notes
Das BSS-Problem: gewinne die ursprünglichen Quellen s(t) aus den
Beobachtungen zurück. Hierzu suchen wir eine “unmixing matrix” B, so
dass
y(t) = Bx(t)
eine möglichst sinnvolle Abschätzung der Quellen ist.
Schematisch:
s(t)
A
→
x(t)
B
→
y(t)
62 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Mathematische Formulierung von BSS
Notes
• Die mixing matrix A: Der eigentlich interessante Parameter.Wir
gehen davon aus, dass sie invertierbar ist.
• Die Wahrscheinlichkeitsverteilungen der Quellen si : eigentlich
unwichtig.
• Ganz wichtige Annahme über die gemeinsame Verteilung der Quellen
si : sie sind stochastisch unabhängig! Wenn q(s) die gemeinsame
Verteilung der Quellen ist, gilt also:
q(s) = q1 (s1 ) · q2 (s2 ) · . . . · qN (sN ).
63 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Identifizierbarkeit
Notes
Wissen wir, dass wir die Matrix A irgendwie abschätzen können?
Gibt es prinzipielle Grenzen unseres Wissens?
• Wenn unsere einzige Annahme die Unabhängigkeit der Quellen si ist,
können wir auf keinen Fall die Reihenfolge der Quellen erkennen. (I
EEG-Beispiel)
• Andererseits lässt sich zeigen: Wenn s ein Vektor mit unabhängigen
Zufallsvariablen ist, von denen maximal eine gaussverteilt ist, und
wenn C eine (N × N-)Matrix ist, so dass die Komponenten von
y = C s unabhängig sind, dann ist y eine Permutation
(Vertauschung) von s.
64 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Identifizierbarkeit
Notes
Also:
Wenn eine lineare Abbildung nicht nur einfach eine Permutation ist,
dann transformiert sie einen Vektor mit unabhängigen Einträgen in
einen Vektor mit nicht unabhängigen Einträgen.
(Außer wenn im Vektor von Zufallsvariablen mehr als eine gaussverteilt ist.)
Eine rein gaussbasierte Modellierung reicht also nicht aus!
65 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Unabhängigkeit und Dekorrelation
Notes
• Erinnerung: stochastische Unabhängigkeit und Unkorreliertheit sind
nicht dasselbe: Unabhängigkeit ist der viel stärkere Begriff.
• Ausgenommen davon sind mal wieder multivariate Gaussverteilungen:
Wenn (X , Y ) gemeinsam gaussverteilt sind, dann sind X und Y
genau dann unabhängig, wenn sie nicht korreliert sind.
• X und Y sind dann auch jeweils für sich gaussverteilt.
66 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Unabhängigkeit und Dekorrelation
Notes
Man kann das Quellenseparation mit einem Dekorrelationsschritt beginnen.
Suche zunächst eine Matrix W , so dass für z = Wx folgendes gilt (wobei
x Mittelwert 0 habe):
E(zz T ) = I
Die Kovarianzmatrix von z ist die Einheitsmatrix; die Einträge von z sind
unkorreliert und haben jeweils Varianz 1. Daten bzw. Zufallsvariablen mit
dieser Eigenschaft nennt man räumlich weiß (spatially white).
67 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Unabhängigkeit und Dekorrelation
Notes
Wir zerlegen also die gesuchte unmixing matrix B in B = UW mit der
Forderung: Für z = Wx möge
E(zz T ) = I
gelten.
Die Methode kennen wir bereits: Zunächst
wird die Kovarianzmatrix durch eine
Hauptkomponentenanalyse (PCA) diagonalisiert,
danach wird noch mit einer Diagonalmatrix
multipliziert, die die einzelnen Varianzen der
Komponenten auf 1 setzt.
68 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Unabhängigkeit und Dekorrelation
Notes
Wir zerlegen die gesuchte unmixing matrix B in B = UW mit einer
whitening matrix W .
Man kann zeigen, dass U dann eine Rotationsmatrix sein muss.
Alternative Formulierung: suche direkt nach B mit einer
whiteness-Bedingung E(yy T ) = I oder
EHw (y ) = 0 mit Hw (y ) = yy T − I .
69 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
BSS: Beispiele für Transformationen
Notes
Beispiel: Einfluss von linearen Transformationen auf Verteilungen. Die
Verteilungen sind eine “komplex strukturierte” Verteilung, eine
Gleichverteilung und eine Gaussverteilung.
komplexe Verteilung
I Transformation gut
erkennbar
bei Gaussverteilungen
(unten) hat eine
Rotation keine sichtbaren
Auswirkungen!
Quelle: [Cardoso(1998)]
70 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Kontrastfunktionen
Notes
Sei X ein Vektor von Zufallsvariablen. Eine Kontrastfunktion (nach
[Comon(1994)]) ist eine Funktion Ψ von der Menge {pX |p Vert. von X }
aller möglichen gemeinsamen Verteilungen für X in die reellen (positiven)
Zahlen, so dass gilt:
• Ψ(pX ) ändert sich nicht, wenn die Komponenten von X vertauscht
werden
• Ψ(pX ) ist invariant, wenn Komponenten von X ihre Skala ändern
(also mit Skalaren multipliziert werden)
• Wenn X unabhängige Einträge hat, dann gilt Ψ(pX ) ≤ Ψ(pAX ) für
jede invertierbare lineare Transformation A.
Wir werden bald verschiedene Kontrastfunktionen kennenlernen.
71 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Mathematische Formulierung der Quellenseparation
• Maximum-Likelihood-BSS
• ICA (Independent Component Analysis)
• Algorithmische Lösung des Separationsproblems
72 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Maximum-Likelihood-BSS: Einstieg
Notes
Maximum-Likelihood-BSS ist eine einfache Form der BSS. Annahme: wir
haben eine gewisse Vorstellung (“Modell”) über die
Wahrscheinlichkeitsverteilung der Quellen.
Was wir machen, ist dann folgendes: Wir vergleichen unsere beobachtete
Verteilung mit der Modellverteilung der Quellen und versuchen, unsere
Beobachtung x(t) zu transformieren:
y(t) = Bx(t)
. . . und zwar so, dass y (das Modell der Quellen) und die Beobachtung
“möglichst gut zusammenpassen”.
73 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum-Likelihood-BSS: Einstieg
Notes
Beispiel: Das Modell der Quellenverteilung
besteht aus vier Gaussglocken
(Gauss-Mischverteilung). Wir beobachten eine
Gleichverteilung auf einer gewissen Teilmenge des
R2 .
• Wie muss die Beobachtung gedreht werden, um eine möglichst gute
Übereinstimmung zwischen Beobachtung und Modell zu erreichen?
• Wie können wir das messen?
• Und wie können wir’s am Ende praktisch ausrechnen?!
74 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum-Likelihood-BSS: KLD als Kontrastfunktion
Notes
Frage: Wie messen wir die Übereinstimmung zwischen beobachteter
Verteilung und Modellverteilung?
I Bestimme die Kullback-Leibler-Divergenz zwischen den beiden
Verteilungen!
Wir haben
• Beobachtungsvektor X
• unmixing matrix B (gesucht!)
• Transformierte Beobachtung Y = B · X , Y ∼ y .
• Zufallsvariable für die Quellenverteilung S: S ∼ s.
75 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum-Likelihood-BSS: KLD als Kontrastfunktion
Notes
• Wir bestimmen B so, dass D(y ||s) minimiert wird.
• Ψ(y ) = D(y ||s) ist nach Definition eine Kontrastfunktion:
• die Komponenten von S sind unabhängig
• I Ψ(y ) = D(y ||s) erreicht ein Minimum, wenn y ≡ s, also die
Komponenten von Y unabhängig sind.
76 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
KLD und Maximum Likelihood
Notes
Jetzt haben wir aber ein Problem. Welches?
Wir haben gar keinen formelmäßigen Ausdruck für die Verteilung unserer
Beobachtungen!
(Wohl aber einen für das Modell der Quellenverteilung.)
Die Kullback-Leibler-Divergenz ist aber ein Ausdruck, der zwei
Dichtefunktionen braucht:
Z
f (x)
dx
D(f ||g ) = f (x) log
g (x)
77 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
KLD und Maximum Likelihood
Notes
Annahme:
• X sei eine ZV mit (wahrer) Dichte f (x).
• g soll eine ganz beliebige Dichtefunktion sein.
Dann ist
f (x)
dx
g (x)
f (X )
= EX log
= EX log f (X ) − EX log g (X )
g (X )
= H(X ) − EX log g (X )
Z
D(f , g ) =
f (x) log
I Minimierung von D(f , g ) über g entspricht Maximierung von
EX log g (X ) über g .
78 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
KLD und Maximum Likelihood
Notes
Anwendung:
• Betrachte die Beobachtung x(1), . . . , x(t) als Realisierungen einer
ZV X .
• Sei pB die Dichte von BX für eine Transformationsmatrix B, sei q
unser Modell der Quellenverteilung.
• Suche B, so dass D(pB ||q) über alle möglichen Transformationen B
minimiert wird!
Um dies zu erreichen, brauchen wir EBX log q = EX log q(BX ). Man kann
ausrechnen:
D(pB ||q) = −EX log q(BX ) + log(det B) + const.
79 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
KLD und Maximum Likelihood
Notes
Den Erwartungswert −EX log q(BX ) können wir anhand unserer
beobachteten Samples x(t) abschätzen:
E(log q(BX )) ≈
T
1 X
log q(Bx(t))
T
t=1
Damit ist unser Ziel erreicht.
Detaillierte Rechnungen überspringen
80 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
KLD und Maximum Likelihood - Rechnungen
Notes
Auf diesen Frames gehen wir im Detail durch die Herleitung der Formel auf der
letzten Seite.
Ohne Beweis die Dichtetransformationsformel aus der Stochastik: Sei X ∼ p.
Dann hat für eine invertierbare Matrix B die Zufallsvariable BX die Dichte pB
mit
pB (ξ) = | det B|−1 p(B −1 ξ)
Merkregel:
pB (ξ) = Normierung · p(ξ mit B −1 rücktransformiert).
Was passiert mit der Entropie?
• Bei diskreten Variablen passiert gar nichts: H(BX ) = H(X ).
• Bei kontinuierlichen Variablen gilt H(BX ) = H(X ) + log(det B).
81 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
KLD und Maximum Likelihood - Rechnungen
Notes
Seien nun X ∼ p, BX ∼ pB mit
pB (x) = | det B|−1 p(B −1 x)
und q eine beliebige Verteilung (die angenommene Verteilung der Quellen). Es
gilt
Z
pB (ξ)
D(pB ||q) = pB (ξ) log
q(ξ)
= EBX log BX − EBX log q(BX ) = H(BX ) − EBX log q
= H(X ) + log(det B) − EBX log q.
82 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
KLD und Maximum Likelihood - Rechnungen
Notes
Den letzten Term (EBX log q) rechnen wir auch noch aus: Es gilt
Z
Z
EBX log q(BX ) = pB (ξ) log q(ξ) = | det B|−1 p(B −1 ξ) log q(ξ)
Z
>
= p(ξ) log q(Bξ) = EX log q(BX ).
Die Gleichheit > ergibt sich durch Variablensubstitution.
Es folgt die Formel von vorhin (dabei ist S ∼ q):
D(BX ||S) = D(pB ||q) = H(X ) + log(det B) − EX log q(BX ).
83 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum Likelihood BSS: Zusammenfassung
Notes
• Bei einer festen Hypothese q über die Verteilung der Quellen ist eine
informationstheoretische Kontrastfunktion möglich:
φML (y ) = D(y ||q)
• φML : Maximierung der Wahrscheinlichkeit der Beobachtungen unter
der angenommenen Quellendistribution q. Für die optimale unmixing
matrix B̂ gilt
B̂ = argmin φML (B −1 X ) = argmax
B
B
T
1 X
q(Bxt ) − log(det B).
T
t=1
• Später schauen wir uns noch an, wie man diese Maximierung
algorithmisch durchführt.
84 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Maximum Likelihood BSS: Beispiele
Notes
Wie und wann funktioniert die Maximum-Likelihood-BSS? Die folgenden
Folien zeigen drei Beispiele (aus [Cardoso(1998)]).
Alle Beispiele zeigen Likelihood-Funktionen zweidimensionaler
Verteilungen bei verschiedenen Transformationen:
• die unabhängigen Achsen entsprechen der Transformation M
• die abhängige Achse (senkrecht) zeigt die Likelihood
(“Wahrscheinlichkeit”) p der Beobachtungen unter der
angenommenen Quellenverteilung.
85 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum Likelihood BSS: Beispiele
Notes
Die Transformation M ist eine 2 × 2-Matrix, d.h. sie hat 4 Freiheitsgrade.
Um die Grafik zeichnen zu können, parametrisiere M:
cosh u sinh u
cos v − sin v
M(u, v ) =
·
sinh u cosh u
sin v cos v
Der vordere Faktor ist eine Verzerrung des Raumes, der hintere Faktor
entspricht einer Drehung. Darum heißt der Parameter v
schiefsymmetrischer Parameter, der Parameter u heißt symmetrischer
Parameter. Für kleine u, v ist
1 0
0 1
0 1
M(u, v ) ≈
+u
+v
0 1
1 0
−1 0
86 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum Likelihood BSS: Beispiel 1
Notes
Hier ist ein Beispiel, wo der
Algorithmus funktioniert.
Modell für die
Quellenverteilung:
Gauss-Mischverteilung.
Wahre beobachtete
Verteilung: Gleichverteilung
auf einem Quadrat im R2 .
87 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum Likelihood BSS: Beispiel 1
Notes
Wir sehen einen Graph einer Funktion
p : R2 → R.
• Die beiden Achsen in der
Ebene zeigen die Werte des symmetrischen
und des schiefsymmetrischen Parameters.
• Die vertikale Achse zeigt die log-Likelihood
der Beobachtung (links oben) gegeben dem Modell (rechts oben).
Modell und Beobachtung passen am besten zusammen, wenn keine
Drehung oder Verzerrung dazukommt (also M = I , d.h. u = v = 0).
Daher sollte die Likelihood kleiner werden, wenn u oder v variieren, und
genau dies sieht man auch am Graph der Funktion.
88 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Maximum Likelihood BSS: Beispiel 1
Notes
Mit diesem Modell bekommt man also
korrekterweise M = I heraus!
Wichtig: die Modellierung der Quellen stimmt
nicht exakt! Das muss sie auch nicht: Wichtig
ist nur, dass sie ungefähr stimmt.
Die genaue Likelihood und die genaue Verteilung
der Quellen sind nicht interessant, wichtig ist nur die optimale
Transformation, um die ungemischten Quellen zu erhalten.
89 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum Likelihood BSS: Beispiel 2
Notes
Ein Beispiel mit
Gauss-Modellierung.
Modelldistribution
rechts oben:
rotationssymmetrisch!
I kein Kontrast bei
Rotationen, Likelihood ist
konstant bei Änderungen
des Parameters v
(schiefsymmetrischer
Parameter).
90 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Maximum Likelihood BSS: Beispiel 3
Notes
Hier geht der Algorithmus
schief.
Die wahre Verteilung
der Beobachtung
und das Modell der
Quellenverteilung sind
völlig unterschiedlich.
Maximum der
Likelihood-Funktion ist
nicht bei u = v = 0
erreicht, sondern bei
einer Drehung um 45°.
91 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zusammenfassung des Abschnitts
Notes
Hier endet (vorerst) das Thema “Maximum-Likelihood-BSS”.
• Bei einer festen Hypothese q über die Verteilung der Quellen ist eine
informationstheoretische Kontrastfunktion φML möglich.
• φML ist die Kullback-Leibler-Divergenz zwischen der transformierten
Beobachtung und der hypothetisierten Quellenverteilung.
• Das entspricht einer Maximierung der Wahrscheinlichkeit der
Beobachtungen unter allen möglichen Transformationen I effiziente
Abschätzung möglich.
• Beispiele zeigen: die Idee funktioniert, solange die wahre und die
angenommene Verteilung der Quellen nicht zu sehr voneinander
abweichen.
92 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Mathematische Formulierung der Quellenseparation
• Maximum-Likelihood-BSS
• ICA (Independent Component Analysis)
• Algorithmische Lösung des Separationsproblems
93 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Definition und Motivation
Notes
Unsere Methode ist noch nicht ganz zufriedenstellend:
• Wir sind davon ausgegangen, dass die Wahrscheinlichkeitsverteilung
der Quellen zumindest grob bekannt ist.
• Dann kann man BSS durch Maximierung der Likelihood
(Beobachtungswahrscheinlichkeit) der transformierten Beobachtung
durchführen.
• Wenn man aber bei der Modellierung der Quellen einen größeren
Fehler macht, liefert die BSS durch Likelihood völlig falsche
Ergebnisse.
94 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Definition und Motivation
Notes
Idee: maximiere Kontrastfunktion
nicht nur über alle möglichen linearen
Transformationen der Beobachtung,
sondern auch über alle möglichen
Verteilungen der Quellen!
Unabhängige Komponenten von Aufnahmen
von Wildtieren.
Quelle: Oben - Wikipedia (deutsch), “Löwe”, unten: Interview mit Aapo Hyvärinen, http://sciencewatch.com/inter/aut/
2009/09-sep/09sepHyva/
95 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Definition und Motivation
Notes
Betrachten KL-Divergenz zwischen
• der transformierten Verteilung y = Bx
• der unbekannten Verteilung der Quellen s.
Sei ~
y ein Vektor von Zufallsvariablen mit der Eigenschaft, dass
• seine Komponenten unabhängig sind
• jede Komponente von ~
y die gleiche Verteilung wie die entsprechende
Komponente von y hat.
Das heißt, wenn y die Randverteilungen p1 , . . . , pN hat, soll ~
y dieselbe
Randverteilung haben, und wegen der Unabhängigkeit der Komponenten
die gemeinsame Verteilung
p~y = p1 (y1 ) · p2 (y2 ) · . . . · pN (yN ).
96 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
ICA: Definition und Motivation
Notes
Seien y, ~
y und s definiert wie auf der letzten Folie. Dann gilt
D(y||s) = D(y||~
y) + D(~
y||s)
(für Details siehe [Cover and Thomas(1991)]).
Minimierung über s entspricht Minimierung des zweiten Terms:
argmin D(~
y||s) = ~
y
s
denn die Kullback-Leibler-Divergenz ist genau dann Null, wenn die beiden
Verteilungen gleich sind.
97 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Definition und Motivation
Notes
Somit bleibt von der Minimierungsaufgabe über Transformation y = Bx
und Quellenverteilung s nur noch ein Term übrig!
argmin D(y||s) = argmin D(y||~
y)
B,s
B
Nach der Definition der Kullback-Leibler-Divergenz ist diese Bedingung
genau dann erfüllt, wenn y unabhängige Komponenten hat.
Die Größe
D(y||~
y)
ist die Mutual Information oder Transinformation der Komponenten des
Zufallsvektors y.
98 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Definition und Motivation
Notes
• Aus unserer ursprünglichen Optimierungsformel, die von einer
bestimmten Quellenverteilung ausging, haben wir also ein neues
Kritierium hergeleitet.
• Dieses Kriterium kann einfach auf Basis der Mutual Information
hingeschrieben werden.
• Das Ziel dieser Form der BSS ist es, eine Transformation zu finden,
die die Unabhängigkeit der Komponenten des Vektors y = Bx
maximiert.
• Darum nennt man diesen Ansatz auch ICA (Independent Component
Analysis).
• Gegenüber der Maximum-Likelihood-BSS optimieren wir also nicht
mehr im Hinblick auf eine bestimmte angenommene
Quellenverteilung, sondern im Hinblick auf die Unabhängigkeit der
Komponenten des Beobachtungsvektors.
99 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Ansatz
Notes
Wir können die ICA wieder als Minimierung einer Kontrastfunktion
beschreiben. Wenn
y = Bx
die Komponenten (y1 , . . . , yN ) hat, dann minimieren wir
φMI (y ) = D(y||~
y) = Ey log
p(y1 , . . . , yN )
p(y1 )p(y2 ) · · · p(yN )
Nach Definition ist dieses Minimum genau dann erreicht, wenn die
Komponenten von y unabhängig sind.
100 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
ICA: Entropische Form
Notes
Es gibt noch eine interessante Beobachtung:
Wenn wir das ICA-Kriterium auf räumlich weiße (spatially white) Daten
anwenden, lässt sich zeigen, dass die Mutual Information zwischen den
Komponenten von y bis auf eine Konstante der Summe der Entropien der
Komponenten entspricht:
X
φMI (y ) =
H(yi ) + const.
i
Hier macht es also Sinn, ein “pre-whitening” der Daten durchzuführen
(PCA), ehe man mit dem “eigentlichen” Algorithmus beginnt.
101 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Entropische Form
Notes
• Das Kriterium ist es also, die Entropie der Komponenten zu
minimieren.
• Nun hat unter allen räumlich weißen Verteilungen (dann ist ja die
Kovarianzmatrix gleich der Einheitsmatrix) die Gaussverteilung die
höchste Entropie!
• Die transformierten Verteilungen sollen so wenig gaussförmig wie
nötig sein!
102 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
ICA: Negentropy
Notes
Aus dieser Beobachtung ergibt sich als weiterer typischer Kontrast für die
ICA die Negentropy
J(y) = H(yGauss ) − H(y).
yGauss ist eine Zufallsvariable, die gaussverteilt ist mit derselben
Kovarianzmatrix wie y.
Unter allen Zufallsvariablen mit gleicher Kovarianzmatrix hat die
gaussverteilte die höchste Entropie hat:
• ist J(y) stets nichtnegativ
• und erreicht ein Maximum, wenn die transformierte Beobachtung y
möglichst wenig gaussverteilt ist.
(In dieser Formulierung hätten wir also eine Kontrastfunktion, die
maximiert werden muss anstatt minimiert.)
103 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Approximation durch Kumulanten
Notes
Diese Kontrastfunktionen können durch einfachere Maße approximiert
werden. Ein Beispiel: Sei y = (y1 , . . . , yN ) ein Zufallsvektor mit Mittelwert
0. Dann sind die Kumulanten 2. bzw. 4. Ordnung
Cij (y) = Cum(yi , yj ) = E(yi yj ) = Cov (yi , yj )
Cijkl (y) = Cum(yi , yj , yk , yl ) = E(yi yj yk yl )
− E(yi yj )E(yk yl ) − E(yi yk )E(yj yl ) − E(yi yl )E(yj yk )
Für Cijkl gilt: Wenn sich die Komponenten yi , yj , yk , yl in zwei voneinander
unabhängige Gruppen aufteilen lassen, dann ist Cijkl = 0 I auch ein Maß
für die Unabhängigkeit von ZVen!
104 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Approximation durch Kumulanten
Notes
Bei einem Zufallsvektor mit unabhängigen Einträgen (z.B. s)
verschwinden alle Kreuzkumulanten:
Cijkl (s) = ki (s)δijkl
mit
δijkl =
(
1 wenn i = j = k = l
0 sonst
kurt(si ) := Ciiii (si ) heißt Kurtosis (Wölbung) der Zufallsvariable si .
Die Kurtosis (Wölbung) einer Zufallsvariablen X ist also die 4.
“Autokumulante”
2
kurt(X ) = E(X 4 ) − 3 E(X 2 ) .
105 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Kurtosis (Wölbung)
Notes
Die Kurtosis hatten wir schon mal:
• Bei steilgipfligen
Verteilungen ist kurt(X ) > 0
• Bei flachgipfligen
Verteilungen ist kurt(X ) < 0
• Bei der Gaussverteilung ist kurt(X ) = 0.
Eine nicht gaussverteilte Variable kann
Kurtosis 0 haben, das ist aber eher selten
I wieder ein Maß für Übereinstimmung
mit der Gaussverteilung!
Quelle: Wikipedia (deutsch), Kurtosis
106 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Approximation durch Kumulanten
Notes
Kullback-Leibler-Divergenz D(y, s): Maß für Übereinstimmung zweier
Verteilungen.
Ein ungenaueres Maß wäre der quadratische Fehler bei den Kumulanten:
X
X
2
φ2 (y ) =
(Cij (y ) − Cij (s))2
φ4 (y ) =
Cijkl (y ) − Cijkl (s)
ij
ijkl
• φ2 ist keine echte Kontrastfunktion, sie erzwingt nur die
Dekorreliertheit der transformierten Beobachtung.
• Im Gegensatz dazu ist φ4 eine Kontrastfunktion, falls alle ki bekannt
und ungleich Null sind.
Es lässt sich auch zeigen, dass gilt:
D(y, s) ≈ φ24 (y) =
1
[12φ2 (y) + φ4 (y)]
48
107 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Approximation durch Kumulanten
Notes
• Die Kontrastfunktion φ24 (y): Abschätzung des grundlegenden Maßes
φMI (y) für die Unabhängigkeit der Komponenten unserer
Beobachtungsvektoren.
• Nimmt man zusätzlich an, das die Beobachtungsdaten wieder durch
eine vorherige Transformation räumlich weiß sind, so ist φ2 (y) = 0
(nach Definition), und es bleibt
X
φ4 (y) = Ef4 (y) mit f4 (y) := −2
kurt(yi )(yi4 − 3).
i
• Die Kontrastfunktion φ4 lässt sich sehr gut als Erwartungswert einer
Funktion abschätzen.
108 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Approximation durch Kumulanten
Notes
• Maximum-Likelihood-BSS: Benötige Hypothese über die Verteilung
der Quellen.
• Um die Kontrastfunktionen φ2 , φ4 oder φ24 anwenden zu können,
muss man ebenfalls eine Hypothese über die Kurtosis der
Quellenverteilung haben, was eine sehr viel schwächere
Voraussetzung ist.
• Dies ist keine unrealisitische Voraussetzung (Sprache!)
109 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Weitere Kontrastfunktionen für die ICA
Notes
Kontrastfunktion ohne weitere Voraussetzungen: Die Transinformation
φMI (y ) = D(y||~
y).
Weitere Approximationen von φMI sind z.B.
X
2
φICA (y) =
Cijkl
(y)
ijkl6=iiii
X
φJADE (y) =
2
Cijkl
(y)
ijkl6=ijkk
Die JADE-Funktion ist möglicherweise vorteilhafter, weil die Summe über
weniger Summanden genommen wird und weil die Optimierung über einen
Joint Diagonalization-Algorithmus erfolgen kann.
110 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Kontrastfunktionen für die ICA
Notes
Wenn man die Negentropy als Maß für die stochastische Unabhängigkeit
verwendet, kann man auch diese durch einfachere Formeln approximieren,
etwa
1
1
kurt(y ).
J(y ) = H(yGauss ) − H(y ) ≈ E(y 3 )2 +
12
48
Die Kurtosis ist allerdings gegenüber Ausreißern sehr empfindlich.
([Hyvärinen and Oja(2000)]) schlagen eine Approximation der folgenden
Art vor:
J(y ) ≈ [E(G (y )) − E(G (yGauss ))]2
mit einer nichtquadratischen Funktion G . Dabei wird verlangt, dass die
Beobachtung y räumlich weiß ist.
111 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zusammenfassung des Abschnitts
Notes
In diesem Abschnitt haben wir folgende Themen besprochen:
• Übergang zwischen einem bestimmten und einem unbestimmten
Modell für die Quellenverteilung
• Die Kontrastfunktion φMI als grundlegendes Maß für die Zielfunktion
der ICA – Ziel ist die Messung der statistischen Unabhängigkeit der
Komponenten des Beobachtungsvektors unter geeigneten linearen
Transformationen.
• Approximationen der Kontrastfunktion φMI auf Basis von Kumulanten
• Entropiebasierte Formulierungen
• Auswirkungen von pre-whitening
112 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
113 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Einstieg in diesen Abschnitt
Notes
• Bisher haben wir eine Reihe Formulierungen für das BSS-Problem
kennengelernt.
• Insbesondere haben wir eine Reihe von Kontrastfunktionen
kennengelernt, die es zu optimieren gilt.
• Der große Unterschied war dabei die Voraussetzung an unser Wissen
über die Quellenverteilungen – abgesehen davon sind theoretisch alle
Kontrastfunktionen “gleich gut”, das heißt, sie liefern das gleiche
Ergebnis.
Aber wie berechnet man das Ergebnis denn konkret? Hier kommen die
Unterschiede deutlich zum Tragen!
114 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• In diesem Abschnitt: praktische Algorithmen für die Ansätze aus dem
vorherigen Kapitel
• Diese Umsetzung erfordert einige Vereinfachungen.
• Wir lernen zwei Methoden kennen, die praktische verwenden werden,
nämlich den klassischen Gradientenabstieg und den
FastICA-Algorithmus.
115 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
• Gradientenbasierte Methoden
• Der FastICA-Algorithmus
116 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Gradienten von Kontrastfunktionen
Notes
Naheliegende Methode: Gradientenabstieg
zur Minimierung der Kontrastfunktion.
Wir definieren einen Gradienten
relativ zur Transformationsmatrix B,
die wir ja optimieren wollen. Die folgende
Darstellung stammt aus [Cardoso(1998)].
Gradientenabstieg: Der Graph zeigt die Höhenlinien einer Funktion f . Gesucht ist das
Minimum. Man beginnt bei einem beliebig geratenen Punkt x0 und nähert sich dem Minimum mit der Regel xn+1 = xn − γf 0 (xn ); γ
ist die Lernrate.
117 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der relative Gradient
Notes
Sei φ(y) eine Kontrastfunktion. Eine Infinitesimaltransformation von y ist
y → (I + E)y = y + Ey
mit der Einheitsmatrix I und einer “kleinen” Matrix E.
Wir können dann eine Art Entwicklung durchführen:
φ(y + Ey) = φ(y) +
n
X
Gij Eij + o(||E||).
i,j=1
Dabei ist Gij die partielle Ableitung von φ(y + Ey) nach Eij an der Stelle
E = 0. Die Koeffizienten Gij bilden eine n × n-Matrix, genannt der relative
Gradient ∇φ(y) von φ(y) an der Stelle y.
118 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der relative Gradient
Notes
Welche Bedeutung hat der relative Gradient?
• gewöhnlicher Gradient: Grenzübergang bei der Funktion φ(B + E)
• relativer Gradient: Grenzübergang bei der Funktion
φ(B + EB) = φ((I + E)B).
Es ist
∂φ T
B .
∂B
Der relative Gradient ist aber algorithmisch nützlicher.
∇φ =
Eine ganz vernünftige Erklärung findet sich in: Cardoso und Laheld, Equivariant adaptive source separation, IEEE
Transactions on Signal Processing, 1994.
119 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Gradient der Kontrast-Funktion
Notes
Wir wollen einen Gradientenabstieg durchführen und müssen dazu den
relativen Gradienten ausrechnen. Relativ einfach ist das für die
Maximum-Likelihood-Kontrastfunktion φML (y) = D(y||s) von vorhin: Es
ergibt sich
∇φML (y) = EHφ (y)
wobei Hφ : Rn → Rn×n gegeben ist durch
Hφ (y) := φ(y)yT − I
und φ die Ableitungen der Logarithmen der Quellenverteilungen enthält:
φ(y) := [φ1 (y1 ), φ2 (y2 ), . . . , φN (yN )] T
mit
φi := −(log qi )0 = −
qi0
qi
120 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Gradient der Kontrast-Funktion: Interpretation
Notes
Wie können wir die Funktion
Hφ (y) = φ(y)yT − I
interpretieren?
Wir suchen Punkte, wo der relative Gradient Null ist, diese Punkte sind
Minima (oder Maxima!) der Kontrastfunktion:
!
0 = EHφ (y) = E φ(y)yT − I .
Die n × n Komponenten betrachten wir einzeln!
121 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Gradient der Kontrast-Funktion: Interpretation
Notes
Aus
T
EHφ (y) = E φ(y)y − I
=0
folgt für die Diagonalelemente der Bildmatrix:
E(φi (yi )yi ) = 1
woraus sich nur die Skalierung der yi ergibt. An Positionen (i, j) mit i 6= j
(also außerhalb der Diagonalen) gilt aber
E(φi (yi )yj ) = 0,
das heißt, φi (yi ) und yj sollen dekorreliert sein! Der Unterschied zur
Dekorrelationsbedingung (PCA): φi ist normalerweise eine nichtlineare
Funktion.
122 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Score Functions
Notes
Die Funktion φ := −(log q)0 , q eine Dichtefunktion, heißt score function.
Die Grafik zeigt einige
Beispiele von Dichten (oben) und
ihren zugehörigen Scores (unten).
• Gaussverteilungen haben
lineare Scorefunktionen!
• Wir müssen nicht lineare
Scorefunktionen verwenden
(keine Gaussmodellierung).
Quelle: [Cardoso(1998)]
123 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Estimating functions
Notes
Gradientenabstieg: Transformationsmatrix B wird in Richtung des
relativen Gradienten angepasst.
B ← B + ∇φML (y) = B + EHφ (y)
Den Erwartungswert aus dem letzten Term kann man mittels der Samples
abschätzen:
T
1 X
EHφ (y) ∼
Hφ (y(t))
=
T
t=1
womit wir alle Bestandteile des BSS-Algorithmus zusammenhaben.
124 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Estimating functions
Notes
• Die Funktion Hφ heißt estimating function (Schätzfunktion).
• Verschiedene Schätzfunktionen gehören zu verschiedenen
BSS-Kriterien.
• Hier noch die Schätzfunktion für die ICA: Aus den
Kontrastfunktionen φICA und φJADE ergibt sich (siehe
[Cardoso(1997)]) H(y) mit
H(y)ij = yi yj − δij − ki yi3 yj + kj yi yj3 .
125 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Offline-Algorithmus zum Gradientenabstieg
Notes
Wir gehen davon aus, dass sämtliche Samples x1 , . . . , xT vorliegen. Zu
suchen ist eine Transformation y = Bx, so dass φ(y), φ eine
Kontrastfunktion, minimal wird.
Hierfür haben wir die Bedingung
∇φ(y) ∼
=
T
1 X
Hφ (y(t)) = 0.
T
t=1
Der iterative Algorithmus zur Lösung dieses Problems ist folgendermaßen
gegeben:
Initialisiere y(t) = x(t) (also B = I ) für alle t. Dann führe die
folgenden Schritte bis zu einem Abbruchkriterium durch:
P
1. Ĥ ← T1 T
t=1 H(y(t))
2. y(t) ← y(t) − µĤ(y(t)), t = 1, . . . , T . Dabei ist µ eine
Lernrate.
126 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zusammenfassung des Abschnitts
Notes
In diesem Abschnitt haben wir damit begonnen, uns mit der
algorithmischen Umsetzung der Konzepte aus den vorigen Teilen der
Vorlesung zu beschäftigen.
Die wichtigsten Stichpunkte:
• Der erste Ansatz: Gradientenabstieg.
• Der relative Gradient und seine Interpretation im Falle der
Maximum-Likelihood-BSS.
• Durchführung des Gradientenabstiegs: Der Algorithmus.
127 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Übersicht
Notes
• Grundlagen der Stochastik und Informationstheorie
• Blind Source Separation: Motivation und Beispiele
• Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen
• Ansätze zur Quellenseparation
• Algorithmische Lösung des Separationsproblems
• Gradientenbasierte Methoden
• Der FastICA-Algorithmus
128 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Der FastICA-Algorithmus
Notes
Wir lernen zum Schluss noch einen weiteren Algorithmus kennen, um das
ICA-Problem zu lösen: Den FastICA-Algorithmus
[Hyvärinen and Oja(2000)].
Dieser basiert auf einer Newton-Approximation zur Maximierung der
Negentropy, die wir vorhin folgendermaßen approximiert hatten:
J(y ) ≈ [E(G (y )) − E(G (yGauss ))]2
mit einer nichtquadratischen Funktion G , z.B.
G (u) = a−1 log cosh(au)
oder
G (u) = − exp(−u 2 /2).
Wir setzen hier immer voraus, dass unsere Beobachtung x räumlich weiß
ist!
129 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der FastICA-Algorithmus für eine Komponente
Notes
Beschränken wir uns zunächst darauf, nur eine Komponente mit
maximaler Negentropy zu finden (also eine, die so wenig gaussförmig wie
möglich sein soll).
Das heißt, wir haben eine Transformation y = w T x mit einem
Gewichtsvektor w . Aus Skalierungsgründen fordern wir die
Nebenbedingung E(w T x)2 = 1 (das hat genau die selben Gründe wie bei
der PCA). Wir wollen ein Maximum von
J(w T x) = [E(G (y )) − E(G (yGauss ))]2
finden, was äquivalent ist zur Optimierung der Funktion E(G (w T x)) (weil
die Daten räumlich weiß sind!). Die Nebenbedingung ist äquivalent zu
E(w T x)2 = ||w ||2 = 1.
G ist wieder eine geeignete Funktion [Hyvärinen and Oja(2000)], sei
g = G 0 die Ableitung von G .
130 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der FastICA-Algorithmus für eine Komponente
Notes
Unsere Aufgabe: Optimiere E(G (w T x)) unter der Nebenbedingung
||w ||2 = 1. Die Beobachtung x ist dabei bereits räumlich weiß.
Wir machen einen Ansatz mit einem Lagrange-Multiplikator:
β
!
∇F (w , β) = ∇ E(G (w T x)) − ||w ||2 = 0
2
und bekommen die Bedingung
f (w , β) = E(xg (w T x)) − βw = 0
(※)
Diese Gleichung wollen wir mit der Newton-Methode lösen!
131 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Newton-Methode zur Lösung von Gleichungen
Notes
Zur Erinnerung: Die Newton-Methode
findet eine Nullstelle einer Funktion
durch Linearisierung mittels der Ableitung:
Im eindimensionalen Fall (siehe Bild)
lösen wir die Gleichung f (x) = 0 mittels
der Iteration x0 = geratener Wert,
xn+1 = xn −
f (xn )
.
f 0 (xn )
Im mehrdimensionalen Fall geht das auch:
Ist F : Rn → Rn , dann lautet die Iterationsvorschrift für die Gleichung
F (x) = 0
xn+1 = xn − (f 0 (xn ))−1 f (xn ),
wobei f 0 (xn ) eine n × n-Matrix ist, die alle partiellen Ableitungen von f
enthält, die sogenannte Jacobi-Matrix.
132 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Der FastICA-Algorithmus für eine Komponente
Notes
Um die Gleichung ※ mit der Newton-Methode lösen zu können, müssen
wir die Funktion f : R → R nach w ableiten. Die Jacobi-Matrix ist dann
h
i
f 0 (w , β) = E xx T g 0 (w T x) − βI ,
die nun invertiert werden muss. Die Approximation
h
i
E xx T g 0 (w T x) ≈ E(xx T )Eg 0 (w T x) = Eg 0 (w T x)
vereinfacht dies sehr, denn E(g 0 (w T x) − β)I ist eine Diagonalmatrix, und
man erhält als Iterationsschritt
h
i−1 h
i
w ? := w − Eg 0 (w T x) − βI
· E(xg (w T x)) − βw
(z)
133 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der FastICA-Algorithmus für eine Komponente
Notes
Die Gleichung z lässt sich nun so umformen (für Profis: mit
βI − E(g 0 (w T x)) multiplizieren und Skalarfaktor von w unter den Tisch
fallen lassen), dass man die folgende Iteration erhält:
FastICA-Algorithmus
1. Wähle einen Anfangsgewichtsvektor w zufällig.
2. Setze w ? := E(xg (w T x)) − E(g 0 (w T x))w
3. Normalisiere: w := w ? /||w ? ||
4. Wenn noch keine Konvergenz erreicht, gehe zu 2.
134 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der FastICA-Algorithmus für mehrere Komponenten
Notes
Das schwierigste haben wir jetzt geschafft! Wir haben mit dem
Gewichtsvektor w eine Zeile der Transformationsmatrix B gefunden.
Als letzte Frage bleibt nun: Wenn man die gesamte Matrix B bestimmen
will, muss man wohl den Algorithmus mehrfach ausführen. Wie verhindert
man, dass man mehrfach denselben Gewichtsvektor bekommt?
135 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Der FastICA-Algorithmus für mehrere Komponenten
Notes
Eine Möglichkeit ist es, die Gewichtsvektoren zu dekorrelieren. Das
Verfahren ähnelt der Gram-Schmidt-Methode zur Gewinnung einer
Orthogonalbasis:
• Jeder Gewichtsvektor wird separat bestimmt
• Beim ersten ändert sich nichts
• Sind w1 , . . . , wn schon bestimmt, so wird der Algorithmus für wn+1
wir gewohnt durchgeführt, aber in jedem Schritt werden die
Projektionen der w1 , . . . , wn von wn+1 abgezogen:
wn+1 ← wn+1 −
n
X
(wn+1 T wν )wν
ν=1
Das funktioniert, ist allerdings ein asymmetrisches Verfahren, was
darüberhinaus keine Parallelisierung zulässt. Wie üblich gibt es auch eine
Reihe Alternativvorschläge.
136 / 140
+.1cm
Methoden der Biosignalverarbeitung - Quellenseparation
Zusammenfassung des Abschnitts
Notes
In diesem Abschnitt haben wir
• den FastICA-Algorithmus (nach A. Hyvärinen) kennengelernt
• und ihn auch aus einer Negentropy-basierten Approximation der ICA
hergeleitet.
137 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Zusammenfassung dieses Vorlesungsblocks
Notes
In dieser Vorlesung ging es um ein zentrales Werkzeug, mit wirklichen
Signalen umzugehen: Der Quellenseparation (BSS). Insbesondere haben
wir behandelt:
• stochastische und informationstheoretische Grundlagen
• die mathematische Formulierung des Separationsproblems
• zwei (von mehreren) Ansätzen zur Quellenseparation: Maximum
Likelihood BSS und Independent Component Analysis (ICA)
• algorithmische Ansätze zur praktischen Lösung des Problems:
Gradientenabstieg und FastICA. (Gerade hier gibt es natürlich noch
viele weitere Methoden.)
138 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Ausblick
Notes
Was haben wir nicht behandelt? Was könnte noch verbessert werden?
• Wir haben uns in dieser Vorlesung ausschließlich auf die Trennung
instantan gemischter Signale konzentriert (also von Signalen, die sich
ohne Zeitverzug überlagern). Die Trennung von evtl. konvolutiv
gemischten Signalen ist deutlich komplizierter und ein sehr aktuelles
Forschungsgebiet.
• Ebenso haben wir darauf verzichtet, Autokorrelationseigenschaften
von Signalen zu verwenden. Wenn ein Signal nicht stationär ist, kann
man diese Eigenschaften verwenden, um eine bessere
Quellentrennung zu erreichen.
• Dies ist auch eine Möglichkeit, eventuell doch mit gaussverteilten
Signalen etwas zu erreichen.
• Was passiert, wenn man mehr Quellen hat als Signale? Hier sind
auch noch weitere Ansätze nötig.
139 / 140
Methoden der Biosignalverarbeitung - Quellenseparation
+.1cm
Referenzen
Notes
Cardoso, J.-F., 1997. Estimating Equations For Source Separation. In: Proc.
ICASSP.
Cardoso, J.-F., 1998. Blind signal separation: Statistical Principles. Proc.
IEEE 9 (10), 2009 – 2025.
Comon, P., 1994. Independent Component Analysis, a New Concept? IEEE
Transactions on Signal Processing 36, 287 – 314.
Cover, T. M., Thomas, J. A., 1991. Elements of Inf. Theory. J. Wiley.
Honal, M., 2005. Determining User State and Mental Task Demand from
Electroencephalographic Data. Master’s thesis, Universität Karlsruhe (TH),
Germany.
Hyvärinen, A., Oja, E., 2000. Independent Component Analysis: Algorithms
and Applications. Neural Networks 13, 411 – 430.
Wölfel, M., McDonough, J., 2009. Distant Speech Recognition. Wiley.
140 / 140
+.1cm
Herunterladen