Methoden der Biosignalverarbeitung - Quellenseparation Notes Vorlesung SS 2012 Methoden der Biosignalverarbeitung Quellenseparation Dipl. Math. Michael Wand Prof. Dr. Tanja Schultz 1 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Quellenseparierung Notes • Blind Source Separation (BSS): eine Methode, Signale von mehreren Sensoren zu verarbeiten • Annahme: jeder Sensor misst eine Überlagerung von Signalen aus mehreren Quellen • Die Sensoren (z.B. Mikrophone, Elektroden, ...) sind dabei typischerweise an etwas unterschiedlichen Positionen angebracht I die Messsignale unterscheiden sich leicht • Wie können wir hieraus die ungemischten Signale zurückgewinnen? 2 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht der Vorlesung Notes • Statistische Grundlagen • Motivation für Quellenseparation • Wie können wir eine gelungene Trennung erkennen? ? Hier gibt es eine sehr interessante Beobachtung, die (mal wieder) auf der Gaussverteilung beruht! • Algorithmische Lösungen des Separierungsproblems, mit Beispielen 3 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Literatur Notes Die Vorlesung basiert im wesentlichen auf: Cardoso: Blind signal separation: statistical principles. Proc. IEEE, vol. 9, no. 10, pg. 2009–2025, 1998 Hyvärinen/Oja: Independent Component Analysis: Algorithms and Applications. Neural Networks, vol. 13, pg. 411–430, 2000 Zur Ergänzung könnte man noch lesen: Wölfel/McDonough: Distant Speech Recognition. 1. Auflage, Wiley, 2009 Ein kleiner Überblick über BSS für die Spracherkennung Cover/Thomas: Elements of Information Theory. Wiley, 1991 Sehr gute Einführung in die Informationstheorie 4 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems 5 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Zufallsvariablen, elementare Definitionen • Informationstheoretische Grundlagen • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems 6 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zufallsexperimente Notes Ein Zufallsexperiment: Wurf einer Münze. Wahrscheinlichkeitsraum der möglichen Ausgänge dieses Experiments: Ω = {Kopf, Zahl}. Auf Ω existiert eine Wahrscheinlichkeitsverteilung, etwa P(∅) = 0 P({Kopf}) = P({Zahl}) = 1/2 P(Ω) = 1. Eine Wahrscheinlichkeitsverteilung ordnet jeder Teilmenge des Wahrscheinlichkeitsraumes eine Wahrscheinlichkeit zwischen 0 und 1 zu. 7 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zufallsvariablen Notes Eine Zufallsvariable (ZV) X ordnet den Ausgängen eines Zufallsexperiments, also den Elementen von Ω, reelle Zahlen (oder Vektoren des Rn ) zu. Beispiel: Jemand wettet um einen Euro, dass eine geworfene Münze “Kopf” zeigt. Dann wäre eine nützliche Zufallsvariable X :Ω→R Kopf 7→ 1 Zahl 7→ −1, der Gewinn in Euro bei dem entsprechenden Ereignis. Die Verteilung auf Ω überträgt sich auf R. 8 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Zufallsvariablen Notes Ein weiteres Beispiel: Jemand wirft mit zwei (fairen) Würfeln, einem roten und einem weißen, und es interessiert uns nur die Summe des Wurfes. Wahrscheinlichkeitsraum: Ω = {(1, 1), (1, 2), (1, 3), . . . , (2, 1), . . . , (6, 5), (6, 6)} = {1, 2, 3, 4, 5, 6}2 Zufallsvariable: X : Ω → {2, . . . , 12} (a, b) 7→ a + b Zufallsvariable ist jetzt die Summe der Würfe. Sie ist natürlich nicht mehr gleichverteilt. Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zufallsvariablen Notes Ein letztes Beispiel: Jemand wirft nur einen Würfel. Dann wäre Ω = {1, . . . , 6}, und wir können definieren: X : {1, . . . , 6} → {1, . . . , 6} a 7→ a X ist also die identische Abbildung. Oft ist die Gestalt des Raums Ω sehr kompliziert, oder nicht vollständig bekannt, oder irrelevant I verwende die Bildmenge der betrachteten Zufallsvariablen als Ω und setze X = id . 10 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Diskrete und kontinuierliche Zufallsvariablen Notes Die Verteilung einer ZV X kann • diskret sein: Wahrscheinlichkeitsmasse ist auf höchstens abzählbar unendlich viele Punkte x1 , x2 , . . . des Rn verteilt I Verteilung kann durch die Wahrscheinlichkeiten der einzelnen Punkte charakterisiert werden, also P(xi ) = pi • kontinuierlich sein: Wahrscheinlichkeitsmasse ist auf ein ganzes Intervall verteilt I man kann (oft) eine Dichtefunktion p angeben, dann gilt für A ⊂ R: Z P(A) = p(x)dx A Bei kontinuierlichen Variablen schreibt man auch A ∼ p. 11 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Stochastische Unabhängigkeit Notes Zwei Zufallsvariablen X , Y sind unabhängig, wenn folgendes gilt: Im diskreten Fall: P(X = a, Y = b) = P(X = a) · P(Y = b) Im kontinuierlichen Fall für A, B ⊆ R: P(X ∈ A, Y ∈ B) = P(X ∈ A) · P(Y ∈ B) oder mit Dichtefunktionen ausgedrückt: pX ,Y (x, y ) = pX (x) · pY (y ) wobei pX ,pY die Dichte von X bzw. Y bedeuten. 12 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Bedingte Wahrscheinlichkeit Notes Bedingte Wahrscheinlichkeiten kennen wir z.B. vom Theorem von Bayes: Für diskrete Zufallsvariablen X , Y definieren wir P(X = a|Y = b) = P(X = a, Y = b) P(Y = b) bzw. im kontinuierlichen Fall für A, B ⊆ R: P(X ∈ A|Y ∈ B) = P(X ∈ A, Y ∈ B) P(Y ∈ B) Falls X und Y unabhängig sind, gilt offensichtlich P(X |Y ) = P(X ) (nachrechnen!). 13 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Randverteilungen Notes Annahme: X und Y seien diskrete Zufallsvariablen mit gemeinsamer Verteilung p(X ,Y ) , also P(X = a, Y = b) = p(X ,Y ) (a, b). Was ist die Verteilung von X oder Y ? I summiere über alle möglichen Werte der jeweils anderen Zufallsvariablen auf: X X P(X = a) = P(X = a, Y = b) = p(X ,Y ) (a, b) b P(Y = b) = b X P(X = a, Y = b) = a X p(X ,Y ) (a, b) a 14 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Randverteilungen Notes • Bei kontinuierlichen Variablen ganz entsprechend • Summen werden durch Integrale ersetzt Wenn (X , Y ) ∼ p, dann gilt X ∼ pA und Y ∼ pB mit Z pA (a) = p(a, b)db ZR pB (b) = p(a, b)da R 15 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Randverteilungen Notes Die Verteilungen von X und Y heißen auch Randverteilungen der gemeinsamen Verteilung (nachher kommt ein grafisches Beispiel). Wenn X und Y unabhängig sind, so gilt nach Definition P(X = a, Y = b) = P(X = a) · P(Y = b) bzw. pA,B (x, y ) = pA (x) · pB (y ). I die gemeinsame Verteilung ist das Produkt der Randverteilungen. 16 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Erwartungswert Notes Der Erwartungswert ist folgendermaßen definiert: • Im diskreten Fall mit P(X = Xi ) = pi : X X µ = E(X ) = xi pi = xi P(X = xi ) i i • Im kontinuierlichen Fall mit Dichte p: Z µ = E(X ) = x · p(x)dx. R Ist X = P i Xi , so ist auch E (X ) = P i E (Xi ). 17 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Erwartungswert: Beispiele Notes Betrachte den Wurf eines fairen Würfels: P(X = 1) = . . . = P(X = 6) = 1 6 Der Erwartungswert berechnet sich zu 1 1 1 21 E(X ) = 1· +2· +. . .+6· = = 3.5 6 6 6 6 18 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Erwartungswert: Beispiele Notes Gegeben sei eine kontinuierliche Zufallsvariable mit der Dichtefunktion ( 1 3 ≤ x ≤ 3e f (x) = x 0 sonst Dann ist ihr Erwartungswert: Z ∞ E(X ) = x · f (x) dx −∞ 3 Z = x · 0 dx + −∞ =0+ Z x· 3 3e Z 3 3e 1 dx + x Z ∞ x · 0 dx 3e 1 dx + 0 = [x]3e 3 = 3e − 3. Quelle des Beispiels: Wikipedia (deutsch), Erwartungswert 19 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Unkorreliertheit und Unabhängigkeit Notes Der Erwartungswert ist (wie gesagt) linear: E(X + Y ) = E(X ) + E(Y ). Zwei Zufallsvariablen X , Y sind unkorreliert, wenn sich ihre Erwartungswerte auch multiplikativ verhalten: E(X · Y ) = EX · EY Wenn X und Y unabhängige (kontinuierliche) Zufallsvariablen sind, so gilt für beliebige Funktionen h1 , h2 Eh1 (X ) · h2 (Y ) = Eh1 (X ) · Eh2 (Y ) Mit h1 = h2 = Identität folgt: zwei unabhängige Variablen sind auch unkorreliert. Das Gegenteil gilt aber nicht! 20 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Varianz Notes Ist µ = E(X ) der Erwartungswert einer reellen Zufallsvariablen, so ist die Varianz durch σ 2 = Var(X ) = E((X − µ)2 ) definiert. Es gilt im kontinuierlichen Fall: σ 2 = Var(X ) = X (xi − µ)2 pi bzw. i im diskreten Fall: σ 2 = Var(X ) = Z (x − µ)2 p(x)dx. R Die Quadratwurzel der Varianz heißt Standardabweichung: p σX = Var(X ) 21 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Varianz: Beispiele Notes Merke: Die Varianz ist der Erwartungswert der quadratischen Abweichung der Zufallsvariablen von ihrem Mittelwert. Die Varianz gibt die “Streuung” oder “Ausbreitung” einer Zufallsvariablen an. Als Beispiel betrachten wir zwei Gaussglocken: Die grüne Glocke ist viel “breiter” I diese Verteilung hat eine höhere Varianz. 22 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Kovarianz Notes Die Kovarianz ist ein Maß für den linearen Zusammenhang zweier Zufallsvariablen. Definiert ist sie für zwei ZV X , Y mit Mittelwerten µX , µY als Cov (X , Y ) = E((X − µX )(Y − µY )) = E(XY ) − E(X )E(Y ) Die Varianz ist ein Spezialfall der Kovarianz: Var(X ) = Cov (X , X ) Zwei Variablen sind unkorreliert, wenn ihre Kovarianz Null ist. 23 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Eigenschaften der Kovarianz Notes Die Kovarianz ist • positiv, wenn X und Y einen “gleichsinnigen” linearen Zusammenhang haben • negativ, wenn X und Y einen “gegensinnigen” linearen Zusammenhang haben • Null, wenn kein linearer Zusammenhang existiert. Ein nichtlinearer Zusammenhang ist aber möglich! Sei X gleichverteilt auf dem Intervall [−1, 1]. Sei Y = X 2 . Dann ist E(X ) = 0 sowie R1 . . . E(Y ) = −1 x 2 · 21 dx = 13 . Es gilt E(XY ) = E(X 3 ) = Z 1 −1 1 x 3 · dx = 0 2 und damit E(XY ) = E(X ) · E(Y ), obwohl Y sogar deterministisch, aber nichtlinear, von X abhängt! 24 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Die Kovarianzmatrix Notes FAQ: Was genau ist die Kovarianzmatrix? • Haben wir viele Zufallsvariablen X1 , . . . , XN , so fassen wir sie einfach in einem Vektor zusammen: X = [X1 , . . . , XN ]T . • Die Kovarianzmatrix ΣX enthält die Kovarianzen zwischen den einzelnen Komponenten dieses Vektors: Cov (X1 , X1 ) B Cov (X2 , X1 ) B ΣX = B .. @ . Cov (XN , X1 ) 0 Cov (X1 , X2 ) Cov (X2 , X2 ) .. . Cov (XN , X2 ) ··· ··· .. . ··· 1 Cov (X1 , XN ) Cov (X2 , XN ) C C C .. A . Cov (XN , XN ) In der Diagonale stehen die Varianzen der einzelnen Komponenten. Die Kovarianzmatrix ergibt sich übrigens, falls E(X ) = 0, durch ΣX = E(XX T ) (nachrechnen!) 25 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zusammenfassung des Abschnitts Notes In diesem Abschnitt haben wir ein paar zentrale Begriffe der Wahrscheinlichkeitstheorie wiederholt: • Die Definition einer Zufallsvariablen • Der Begriff des Erwartungswerts • Varianz und Kovarianz • Ganz wichtig: Die stochastische Unabhängigkeit und der Zusammenhang zwischen Unabhängigkeit und Unkorreliertheit. 26 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Zufallsvariablen, elementare Definitionen • Informationstheoretische Grundlagen • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems 27 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Grundlagen der Informationstheorie Notes Jetzt werden wir die zentralen Grundbegriffe der Informationstheorie kennenlernen (soweit wir sie benötigen). Die Informationstheorie (Claude Shannon, 1948): • Was ist Information? Theoretisches Gerüst • Wie kann man Information messen? Wir lernen folgende Begriffe kennen: • Entropie (und bedingte Entropie) • Mutual Information als weiteres Maß für den Zusammenhang zweier Zufallsvariablen • Distributionstheoretische Maße (speziell die Kullback-Leibler-Divergenz) 28 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Entropie Notes Das Maß für pure Information: Entropie. Für eine diskrete Zufallsvariable X , die Werte xi annimmt, ist die Entropie X H(X ) = −EX (log P(X )) = − P(X = xi ) log P(X = xi ). i Für eine kontinuierliche Zufallsvariable entsprechend: Z H(X ) = −EX (log pX (x)) = − pX (x) log pX (x)dx. Achtung: Diskrete und kontinuierliche Entropie (oder Differentialentropie) haben etwas unterschiedliche Eigenschaften! Das ist für uns aber nicht weiter wichtig. 29 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Entropie - Beispiel Was ist denn nun Information? Notes Beispiel: Entropie einer diskreten Variable. Betrachte den Wurf einer Münze, die evtl. unfair ist (der Rand ist angefeilt). Es erscheint Kopf mit Wahrscheinlichkeit p und Zahl mit Wahrscheinlichkeit 1 − p. Die Entropie dieser Zufallsvariable (nennen wir sie X ) ist H(X ) = −[p log p + (1 − p)log (1 − p)]. Der Graph dieser Funktion ist links abgebildet. Was sehen wir? Quelle des Beispiels: Wikipedia, Entropy 30 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Entropie - Beispiel Notes Die Entropie dieser binär verteilten ZV hat die folgenden Eigenschaften: • Sie ist symmetrisch • Sie erreicht ihr Maximum (nämlich 1) bei p = 1/2. • Minimal (nämlich 0) wird sie bei einer Münze, die immer nur auf eine Seite fällt. FAQ: Wie misst man Entropie? Oft verwendet man in der Definition den Logarithmus zur Basis 2, dann ist die Einheit das “Bit”. 31 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Entropie - Eigenschaften Notes • Die Entropie ist ein Maß für die Ungewissheit über den Ausgang eines Experiments. • Beispiel: Der Münzwurf ist maximal ungewiss, wenn die Münze fair ist. Es gibt gar keine Ungewissheit, wenn die Münze immer gleich fällt. • Die diskrete Entropie ist immer größer oder gleich Null. • Wichtiges Theorem: unter allen kontinuierlichen ZV gleicher Varianz hat die Gaussverteilung die höchste Entropie. 32 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Bedingte Entropie Notes Die bedingte Entropie einer ZV X gegeben Y ist definiert als: H(X |Y ) = −E(X ,Y ) (log P(X |Y )) X P(X = xi , Y = yj ) log P(X = xi |Y = yj ), =− i,j wenn X die Werte xi , Y die Werte yj annimmt. Im kontinuierlichen Fall haben wir Z H(X |Y ) = −E(X ,Y ) (log p(X |Y )) = − p(x, y ) log p(x|y )d(x, y ), R×R wobei p(x, y ) die gemeinsame Dichte von X und Y ist. 33 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Bedingte Entropie Notes Die bedingte Entropie gibt an, wieviel Information X noch enthält, sobald Y bekannt ist. Wenn X und Y unabhängig sind, ist p(X |Y ) ≡ p(X ), und damit H(X |Y ) = H(X ). Andernfalls gilt immer (sowohl im kontinuierlichen als auch im diskreten Fall) H(X |Y ) + H(Y ) = H(X , Y ). H(X , Y ) ist die gemeinsame Entropie von X und Y , also die Entropie der gemeinsamen Verteilung. 34 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Die Kullback-Leibler-Divergenz Notes Zwischen zwei Verteilungen p, q definiert man die Kullback-Leibler-Divergenz (oder KL-Divergenz) D(p||q): Im diskreten Fall D(p||q) = Ep log p X p(a) = p(a) log q q(a) a∈A und im kontinuierlichen Fall entsprechend: Z p p(x) D(p||q) = Ep log = p(x) log dx q q(x) x∈R 35 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Die Kullback-Leibler-Divergenz Notes Die KL-Divergenz: zentrales Maß bei der Quellentrennung. • Die KL-Divergenz ist nicht symmetrisch. • Trotzdem ist D(p||q) ≥ 0 mit Gleichheit genau dann, wenn p = q I Maß für die Ähnlichkeit zweier Verteilungen. • Unsere Anwendung: Maß für die Ähnlichkeit zwischen einer angenommenen Verteilung und einer Beobachtung. • Additivitätseigenschaft: Wenn p(x) = p1 (x) · p2 (x) und q(x) = q1 (x) · q2 (x), dann gilt D(p||q) = D(p1 ||q1 ) + D(p2 ||q2 ). • Die Eigenschaften der KL-Divergenz sind im kontinuierlichen und im diskreten Fall gleich. 36 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation KL-Divergenz: Beispiel Notes Wir betrachten zwei diskrete Zufallsvariablen mit Zähldichten p, q auf 0, 1: p(0) = 1 − r , p(1) = r q(0) = 1 − s, q(1) = s. Dann ist r 1−r + r log 1−s s 1−s s D(q||p) = (1 − s) log + s log 1−r r D(p||q) = (1 − r ) log 37 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm KL-Divergenz: Beispiel Notes Wenn r = s, gilt D(p||q) = D(q||p) = 0, denn die Zähldichten sind identisch. Sind aber z.B. r = 1/2 und s = 1/4, können wir ausrechnen: D(p||q) = 0.2075 bits, D(q||p) = 0.1887 bits (in dieser Vorlesung bedeutet log immer den Logarithmus zur Basis 2). Quelle des Beispiels: [Cover and Thomas(1991)]. 38 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Mutual Information Notes Die Mutual Information (MI) (deutsch auch Transinformation) zwischen zwei Zufallsvariablen X , Y : p(X , Y ) I (X ; Y ) = E(X ,Y ) log . p(X )p(Y ) Ausgeschrieben ist das im diskreten Fall: X p(X = x, Y = y ) I (X ; Y ) = p(X = x, Y = y ) log . p(X = x)p(Y = y ) x,y Im kontinuierlichen Fall gilt entsprechend: Z p(x, y ) I (X ; Y ) = p(x, y ) log d(x, y ). p(x)p(y ) R×R 39 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Mutual Information Notes Die Mutual Information: natürliches Maß für die statistische Abhängigkeit zweier Zufallsvariablen. Es gilt I (X ; Y ) = D(pX ,Y ||pX pY ) Die MI ist also die “Distanz” zwischen der gemeinsamen Verteilung der ZV X und Y und den (Rand-)Verteilungen der einzelnen ZVen X und Y . Je mehr die gemeinsame Verteilung von X und Y von dem Produkt der Randverteilungen abweicht, desto größer wird I (X ; Y ). 40 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Mutual Information Notes Es gilt die Formel I (X ; Y ) = H(X )+H(Y )−H(X , Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ) : Die MI ist die Differenz zwischen den Einzelinformationen (oder -entropien) der ZVen und ihrer gemeinsamen Entropie. Weitere Eigenschaften der Mutual Information: • Die MI ist symmetrisch. • Die MI ist immer nichtnegativ. • Wenn und nur wenn X und Y stochastisch unabhängig sind, ist I (X ; Y ) = 0. 41 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Eigenschaften der Mutual Information Notes Den Zusammenhang zwischen Entropie und Mutual Information kann man gut graphisch darstellen. Übungsfragen: • Was passiert, wenn X und Y unabhängig sind? • Was passiert, wenn sie deterministisch voneinander abhängen? 42 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Mutual Information: Beispiel Notes Betrachte folgende gemeinsame Verteilung von X und Y : X ↓, Y → 1 2 3 4 1 1 8 1 16 1 16 1 4 1 16 1 8 1 16 1 32 1 32 1 16 1 32 1 32 1 16 0 0 0 2 3 4 Übungsaufgaben: 1. Berechne die Randverteilungen von X und Y . 2. Berechne die Entropie von X und die Entropie von Y (Ansatz reicht). 3. Berechne die bedingte Entropie H(X |Y ). 4. Berechne die MI I (X ; Y ). 43 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Mutual Information: Beispiel Notes Lösungen: Die Verteilung von X ist 41 , 14 , 14 , 14 , und die Verteilung von Y ist 1 1 1 1 , , , . 2 4 8 8 Es ist H(X ) = 2bits und H(Y ) = 7/4bits. Weiter ist H(Y |X ) = 4 X P(X = i)H(Y |X = i) i=1 1 1 1 1 1 1 1 1 1 1 H , , , + H , , , 4 2 4 8 8 4 4 2 8 8 1 1 1 1 1 1 + H , , , + H (1, 0, 0, 0) 4 4 4 4 4 4 1 7 1 7 1 1 11 = · + · + ·2+ ·0= bits. 4 4 4 4 4 4 8 = Die MI I (X ; Y ) ergibt sich zu I (X ; Y ) = H(X ) − H(X |Y ). 44 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Zusammenfassung des Abschnitts Notes Was haben wir in diesem Abschnitt gelernt? • Wie misst man Information? Der Begriff der Entropie • Diskreter und kontinuierlicher Fall • Transinformation • Kullback-Leibler-Divergenz 45 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems 46 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Motivation Notes Blind Source Separation (BSS) bezeichnet die Trennung eines Signals, das sich aus der Überlagerung mehrerer Quellen zusammensetzt, in seine Bestandteile. • Messung des Signals: mehrere Sensoren (Elektroden, Mikrofonarray) • Sensoren messen verschiedene Mischungen (Linearkombinationen) des Signals Ansätze zur Lösung [Wölfel and McDonough(2009)]: • die beobachteten Signale sind stochastisch unabhängig • die Signalquellen sind nicht gaussverteilt • die Signale sind nichtstationär. Wir betrachten zunächst Algorithmen, die die ersten beiden Eigenschaften ausnutzen. 47 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Voraussetzungen für BSS Notes Zentrale Annahme: die verschiedenen Quellen sind unabhängig. Wollen wir beispielsweise Sprache und Hintergrundgeräusche trennen, oder verschiedene Sprecher unterscheiden, wird das oft der Fall sein. Wenn wir Sprache und Widerhall trennen wollen, ist diese Annahme aber schon problematisch! Einige Beispiele, bei denen ganz klassisch unabhängige Quellen getrennt werden, betrachten wir jetzt. 48 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Beispiel Sprachsignal Notes • Hier ist ein Hörbeispiel für das sogenannte Cocktail Party Problem – dies bedeutet, dass viele Sprecher durcheinander sprechen. • Das menschliche Gehör ist besonders gut darin, solche Signale in ihre Bestandteile zu trennen. • Der vorliegende “Cocktail Party Processor” versucht diese Fähigkeit des menschlichen Gehörs nachzuahmen. • Links ist eine Originalaufnahme, rechts das verarbeitete Signal. ⇒ Quelle: Slatky, Harald Algorithmen zur richtungsselektiven Verarbeitung von Schallsignalen - die Realisierung eines binauralen Cocktail-Party-Prozessor-Systems http://www.cocktail-party-processor.de 49 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Beispiel EEG Notes Ein typisches Problem bei der EEG-Messung: Einfluss von EOG (Augenaktivität), z.B. Blinzeln. EEG-Signal und Blinzeln sind stochastisch unabhängig. Rechts sieht man das Ergebnis, wenn ICA auf die EEG-Signale angewendet wird. Die Blinzelkomponente ist fast vollständig erkannt und entfernt worden. Quelle: [Honal(2005)] 50 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Beispiel MEG Notes Hier sieht man als Beispiel eine MEG-Aufnahme der Gehirnaktivität. Zu erkennen sind diverse Artefakte: Blinzeln und Augenbewegungen, Beißbewegungen, Herzrhythmus. Quelle dieses Beispiels: Zitiert nach [Hyvärinen and Oja(2000)] 51 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Beispiel MEG Notes Hier sieht man neun unabhängige Komponenten, die aus dem MEG-Signal extrahiert wurden. Die Kopfmodelle zeigen die Feldlinien von links/hinten/rechts, eine durchgezogene Linie steht für magnetischen Fluss auswärts, eine gepunktete Linie für magnetischen Fluss in den Kopf hinein. 52 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems 53 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der zentrale Grenzwertsatz Notes Der zentrale Grenzwertsatz (central limit theorem) der Wahrscheinlichkeitstheorie: Seien X1 , . . . , Xn , . . . eine Summe unabhängiger, identisch verteilter Zufallsvariablen mit Mittelwert µ und Varianz σ 2 . Wir definieren neue Zufallsvariablen Zn = X1 + . . . + Xn − nµ √ σ n Dann gilt Zn → N (0, 1) für n → ∞, d.h. Zn konvergiert gegen die Normalverteilung. Die Voraussetzung, dass die Zufallsvariablen alle identisch verteilt sein müssen, kann man (stark) abschwächen. 54 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Gaussianity Notes Folgerungen: • Die Verteilung einer Summe unabhängiger ZV geht gegen die Gaussverteilung, wenn mehr und mehr Komponenten dazuaddiert werden. • Die Summe mehrerer Zufallsvariablen wird also “gaussförmiger” sein als die ursprünglichen Variablen. • Wenn man also die ursprünglichen ZV extrahieren will, sollte man nach Komponenten suchen, die so wenig gaussförmig wie möglich sind. Ein großer Teil der BSS-Algorithmen basiert auf der Voraussetzung, dass alle “interessanten” Signale nicht gaussverteilt sind. Der zentrale Grenzwertsatz unterstützt diese Annahme (auch wenn sie keineswegs immer stimmt)! 55 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Gaussianity Notes Es gibt noch weitere Gründe für die Annahme, interessante Signale seien nicht gaussverteilt. • Eine gaussverteilte ZV mit Varianz σ 2 hat die höchste Entropie von allen ZVen mit der Varianz σ 2 hat. • Eine gaussverteilte ZV ist also in gewissem Sinne am wenigsten vorhersagbar/hat am wenigsten Struktur. • Signale, die Information enthalten, haben Struktur, die sie vorhersagbarer macht als ein gaussverteiltes Signal. • Wenn also informationstragende Signale gesucht sind, sollte man nach Signalen suchen, die nicht gaussverteilt sind. 56 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Gaussianity Notes Eine unimodale Verteilung ist eine (kontinuierliche) Verteilung, deren Dichtefunktion genau ein Maximum hat. Betrachte symmetrische unimodale Verteilungen: Supergaussförmige oder steilgipflige Verteilungen haben eine ausgeprägte Spitze und massenreiche Enden (engl. heavy tails). Subgaussförmige oder flachgipflige Verteilungen haben eine flachere Spitze als Gaussverteilungen und auch flachere Enden. Das Bild zeigt die Gaussverteilung (mit Pfeil), supergaussförmige und subgaussförmige Verteilungen. 57 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Empirische Verteilung von Sprachsignalen Notes Die Klassifikation von unimodalen Verteilungen als supergaussförmig oder subgaussförmig bietet uns also eine Möglichkeit, die Abweichung von der Gaussverteilung zu quantifizieren. Man kann empirisch zeigen, dass die Spektralkoeffizienten eines Sprachsignals supergaussförmig verteilt sind (rechts). 58 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems 59 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Mathematische Formulierung der Quellenseparation • Maximum-Likelihood-BSS • ICA (Independent Component Analysis) • Algorithmische Lösung des Separationsproblems 60 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Mathematische Formulierung von BSS Notes Das einfachste BSS-Modell: N Quellen (sources) s1 , . . . , sN , werden von N Sensoren gemessen I N Beobachtungen x1 , . . . , xN . Die Beobachtungen sollen lineare und verzögerungsfreie Mischungen der Quellsignale sein: x(t) = As(t) mit x(t) = [x1 (t), . . . , xN (t)]T und einer N × N-Matrix A. 61 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Mathematische Formulierung von BSS Notes Das BSS-Problem: gewinne die ursprünglichen Quellen s(t) aus den Beobachtungen zurück. Hierzu suchen wir eine “unmixing matrix” B, so dass y(t) = Bx(t) eine möglichst sinnvolle Abschätzung der Quellen ist. Schematisch: s(t) A → x(t) B → y(t) 62 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Mathematische Formulierung von BSS Notes • Die mixing matrix A: Der eigentlich interessante Parameter.Wir gehen davon aus, dass sie invertierbar ist. • Die Wahrscheinlichkeitsverteilungen der Quellen si : eigentlich unwichtig. • Ganz wichtige Annahme über die gemeinsame Verteilung der Quellen si : sie sind stochastisch unabhängig! Wenn q(s) die gemeinsame Verteilung der Quellen ist, gilt also: q(s) = q1 (s1 ) · q2 (s2 ) · . . . · qN (sN ). 63 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Identifizierbarkeit Notes Wissen wir, dass wir die Matrix A irgendwie abschätzen können? Gibt es prinzipielle Grenzen unseres Wissens? • Wenn unsere einzige Annahme die Unabhängigkeit der Quellen si ist, können wir auf keinen Fall die Reihenfolge der Quellen erkennen. (I EEG-Beispiel) • Andererseits lässt sich zeigen: Wenn s ein Vektor mit unabhängigen Zufallsvariablen ist, von denen maximal eine gaussverteilt ist, und wenn C eine (N × N-)Matrix ist, so dass die Komponenten von y = C s unabhängig sind, dann ist y eine Permutation (Vertauschung) von s. 64 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Identifizierbarkeit Notes Also: Wenn eine lineare Abbildung nicht nur einfach eine Permutation ist, dann transformiert sie einen Vektor mit unabhängigen Einträgen in einen Vektor mit nicht unabhängigen Einträgen. (Außer wenn im Vektor von Zufallsvariablen mehr als eine gaussverteilt ist.) Eine rein gaussbasierte Modellierung reicht also nicht aus! 65 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Unabhängigkeit und Dekorrelation Notes • Erinnerung: stochastische Unabhängigkeit und Unkorreliertheit sind nicht dasselbe: Unabhängigkeit ist der viel stärkere Begriff. • Ausgenommen davon sind mal wieder multivariate Gaussverteilungen: Wenn (X , Y ) gemeinsam gaussverteilt sind, dann sind X und Y genau dann unabhängig, wenn sie nicht korreliert sind. • X und Y sind dann auch jeweils für sich gaussverteilt. 66 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Unabhängigkeit und Dekorrelation Notes Man kann das Quellenseparation mit einem Dekorrelationsschritt beginnen. Suche zunächst eine Matrix W , so dass für z = Wx folgendes gilt (wobei x Mittelwert 0 habe): E(zz T ) = I Die Kovarianzmatrix von z ist die Einheitsmatrix; die Einträge von z sind unkorreliert und haben jeweils Varianz 1. Daten bzw. Zufallsvariablen mit dieser Eigenschaft nennt man räumlich weiß (spatially white). 67 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Unabhängigkeit und Dekorrelation Notes Wir zerlegen also die gesuchte unmixing matrix B in B = UW mit der Forderung: Für z = Wx möge E(zz T ) = I gelten. Die Methode kennen wir bereits: Zunächst wird die Kovarianzmatrix durch eine Hauptkomponentenanalyse (PCA) diagonalisiert, danach wird noch mit einer Diagonalmatrix multipliziert, die die einzelnen Varianzen der Komponenten auf 1 setzt. 68 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Unabhängigkeit und Dekorrelation Notes Wir zerlegen die gesuchte unmixing matrix B in B = UW mit einer whitening matrix W . Man kann zeigen, dass U dann eine Rotationsmatrix sein muss. Alternative Formulierung: suche direkt nach B mit einer whiteness-Bedingung E(yy T ) = I oder EHw (y ) = 0 mit Hw (y ) = yy T − I . 69 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm BSS: Beispiele für Transformationen Notes Beispiel: Einfluss von linearen Transformationen auf Verteilungen. Die Verteilungen sind eine “komplex strukturierte” Verteilung, eine Gleichverteilung und eine Gaussverteilung. komplexe Verteilung I Transformation gut erkennbar bei Gaussverteilungen (unten) hat eine Rotation keine sichtbaren Auswirkungen! Quelle: [Cardoso(1998)] 70 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Kontrastfunktionen Notes Sei X ein Vektor von Zufallsvariablen. Eine Kontrastfunktion (nach [Comon(1994)]) ist eine Funktion Ψ von der Menge {pX |p Vert. von X } aller möglichen gemeinsamen Verteilungen für X in die reellen (positiven) Zahlen, so dass gilt: • Ψ(pX ) ändert sich nicht, wenn die Komponenten von X vertauscht werden • Ψ(pX ) ist invariant, wenn Komponenten von X ihre Skala ändern (also mit Skalaren multipliziert werden) • Wenn X unabhängige Einträge hat, dann gilt Ψ(pX ) ≤ Ψ(pAX ) für jede invertierbare lineare Transformation A. Wir werden bald verschiedene Kontrastfunktionen kennenlernen. 71 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Mathematische Formulierung der Quellenseparation • Maximum-Likelihood-BSS • ICA (Independent Component Analysis) • Algorithmische Lösung des Separationsproblems 72 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Maximum-Likelihood-BSS: Einstieg Notes Maximum-Likelihood-BSS ist eine einfache Form der BSS. Annahme: wir haben eine gewisse Vorstellung (“Modell”) über die Wahrscheinlichkeitsverteilung der Quellen. Was wir machen, ist dann folgendes: Wir vergleichen unsere beobachtete Verteilung mit der Modellverteilung der Quellen und versuchen, unsere Beobachtung x(t) zu transformieren: y(t) = Bx(t) . . . und zwar so, dass y (das Modell der Quellen) und die Beobachtung “möglichst gut zusammenpassen”. 73 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum-Likelihood-BSS: Einstieg Notes Beispiel: Das Modell der Quellenverteilung besteht aus vier Gaussglocken (Gauss-Mischverteilung). Wir beobachten eine Gleichverteilung auf einer gewissen Teilmenge des R2 . • Wie muss die Beobachtung gedreht werden, um eine möglichst gute Übereinstimmung zwischen Beobachtung und Modell zu erreichen? • Wie können wir das messen? • Und wie können wir’s am Ende praktisch ausrechnen?! 74 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum-Likelihood-BSS: KLD als Kontrastfunktion Notes Frage: Wie messen wir die Übereinstimmung zwischen beobachteter Verteilung und Modellverteilung? I Bestimme die Kullback-Leibler-Divergenz zwischen den beiden Verteilungen! Wir haben • Beobachtungsvektor X • unmixing matrix B (gesucht!) • Transformierte Beobachtung Y = B · X , Y ∼ y . • Zufallsvariable für die Quellenverteilung S: S ∼ s. 75 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum-Likelihood-BSS: KLD als Kontrastfunktion Notes • Wir bestimmen B so, dass D(y ||s) minimiert wird. • Ψ(y ) = D(y ||s) ist nach Definition eine Kontrastfunktion: • die Komponenten von S sind unabhängig • I Ψ(y ) = D(y ||s) erreicht ein Minimum, wenn y ≡ s, also die Komponenten von Y unabhängig sind. 76 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation KLD und Maximum Likelihood Notes Jetzt haben wir aber ein Problem. Welches? Wir haben gar keinen formelmäßigen Ausdruck für die Verteilung unserer Beobachtungen! (Wohl aber einen für das Modell der Quellenverteilung.) Die Kullback-Leibler-Divergenz ist aber ein Ausdruck, der zwei Dichtefunktionen braucht: Z f (x) dx D(f ||g ) = f (x) log g (x) 77 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm KLD und Maximum Likelihood Notes Annahme: • X sei eine ZV mit (wahrer) Dichte f (x). • g soll eine ganz beliebige Dichtefunktion sein. Dann ist f (x) dx g (x) f (X ) = EX log = EX log f (X ) − EX log g (X ) g (X ) = H(X ) − EX log g (X ) Z D(f , g ) = f (x) log I Minimierung von D(f , g ) über g entspricht Maximierung von EX log g (X ) über g . 78 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm KLD und Maximum Likelihood Notes Anwendung: • Betrachte die Beobachtung x(1), . . . , x(t) als Realisierungen einer ZV X . • Sei pB die Dichte von BX für eine Transformationsmatrix B, sei q unser Modell der Quellenverteilung. • Suche B, so dass D(pB ||q) über alle möglichen Transformationen B minimiert wird! Um dies zu erreichen, brauchen wir EBX log q = EX log q(BX ). Man kann ausrechnen: D(pB ||q) = −EX log q(BX ) + log(det B) + const. 79 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm KLD und Maximum Likelihood Notes Den Erwartungswert −EX log q(BX ) können wir anhand unserer beobachteten Samples x(t) abschätzen: E(log q(BX )) ≈ T 1 X log q(Bx(t)) T t=1 Damit ist unser Ziel erreicht. Detaillierte Rechnungen überspringen 80 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation KLD und Maximum Likelihood - Rechnungen Notes Auf diesen Frames gehen wir im Detail durch die Herleitung der Formel auf der letzten Seite. Ohne Beweis die Dichtetransformationsformel aus der Stochastik: Sei X ∼ p. Dann hat für eine invertierbare Matrix B die Zufallsvariable BX die Dichte pB mit pB (ξ) = | det B|−1 p(B −1 ξ) Merkregel: pB (ξ) = Normierung · p(ξ mit B −1 rücktransformiert). Was passiert mit der Entropie? • Bei diskreten Variablen passiert gar nichts: H(BX ) = H(X ). • Bei kontinuierlichen Variablen gilt H(BX ) = H(X ) + log(det B). 81 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm KLD und Maximum Likelihood - Rechnungen Notes Seien nun X ∼ p, BX ∼ pB mit pB (x) = | det B|−1 p(B −1 x) und q eine beliebige Verteilung (die angenommene Verteilung der Quellen). Es gilt Z pB (ξ) D(pB ||q) = pB (ξ) log q(ξ) = EBX log BX − EBX log q(BX ) = H(BX ) − EBX log q = H(X ) + log(det B) − EBX log q. 82 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm KLD und Maximum Likelihood - Rechnungen Notes Den letzten Term (EBX log q) rechnen wir auch noch aus: Es gilt Z Z EBX log q(BX ) = pB (ξ) log q(ξ) = | det B|−1 p(B −1 ξ) log q(ξ) Z > = p(ξ) log q(Bξ) = EX log q(BX ). Die Gleichheit > ergibt sich durch Variablensubstitution. Es folgt die Formel von vorhin (dabei ist S ∼ q): D(BX ||S) = D(pB ||q) = H(X ) + log(det B) − EX log q(BX ). 83 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum Likelihood BSS: Zusammenfassung Notes • Bei einer festen Hypothese q über die Verteilung der Quellen ist eine informationstheoretische Kontrastfunktion möglich: φML (y ) = D(y ||q) • φML : Maximierung der Wahrscheinlichkeit der Beobachtungen unter der angenommenen Quellendistribution q. Für die optimale unmixing matrix B̂ gilt B̂ = argmin φML (B −1 X ) = argmax B B T 1 X q(Bxt ) − log(det B). T t=1 • Später schauen wir uns noch an, wie man diese Maximierung algorithmisch durchführt. 84 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Maximum Likelihood BSS: Beispiele Notes Wie und wann funktioniert die Maximum-Likelihood-BSS? Die folgenden Folien zeigen drei Beispiele (aus [Cardoso(1998)]). Alle Beispiele zeigen Likelihood-Funktionen zweidimensionaler Verteilungen bei verschiedenen Transformationen: • die unabhängigen Achsen entsprechen der Transformation M • die abhängige Achse (senkrecht) zeigt die Likelihood (“Wahrscheinlichkeit”) p der Beobachtungen unter der angenommenen Quellenverteilung. 85 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum Likelihood BSS: Beispiele Notes Die Transformation M ist eine 2 × 2-Matrix, d.h. sie hat 4 Freiheitsgrade. Um die Grafik zeichnen zu können, parametrisiere M: cosh u sinh u cos v − sin v M(u, v ) = · sinh u cosh u sin v cos v Der vordere Faktor ist eine Verzerrung des Raumes, der hintere Faktor entspricht einer Drehung. Darum heißt der Parameter v schiefsymmetrischer Parameter, der Parameter u heißt symmetrischer Parameter. Für kleine u, v ist 1 0 0 1 0 1 M(u, v ) ≈ +u +v 0 1 1 0 −1 0 86 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum Likelihood BSS: Beispiel 1 Notes Hier ist ein Beispiel, wo der Algorithmus funktioniert. Modell für die Quellenverteilung: Gauss-Mischverteilung. Wahre beobachtete Verteilung: Gleichverteilung auf einem Quadrat im R2 . 87 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum Likelihood BSS: Beispiel 1 Notes Wir sehen einen Graph einer Funktion p : R2 → R. • Die beiden Achsen in der Ebene zeigen die Werte des symmetrischen und des schiefsymmetrischen Parameters. • Die vertikale Achse zeigt die log-Likelihood der Beobachtung (links oben) gegeben dem Modell (rechts oben). Modell und Beobachtung passen am besten zusammen, wenn keine Drehung oder Verzerrung dazukommt (also M = I , d.h. u = v = 0). Daher sollte die Likelihood kleiner werden, wenn u oder v variieren, und genau dies sieht man auch am Graph der Funktion. 88 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Maximum Likelihood BSS: Beispiel 1 Notes Mit diesem Modell bekommt man also korrekterweise M = I heraus! Wichtig: die Modellierung der Quellen stimmt nicht exakt! Das muss sie auch nicht: Wichtig ist nur, dass sie ungefähr stimmt. Die genaue Likelihood und die genaue Verteilung der Quellen sind nicht interessant, wichtig ist nur die optimale Transformation, um die ungemischten Quellen zu erhalten. 89 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum Likelihood BSS: Beispiel 2 Notes Ein Beispiel mit Gauss-Modellierung. Modelldistribution rechts oben: rotationssymmetrisch! I kein Kontrast bei Rotationen, Likelihood ist konstant bei Änderungen des Parameters v (schiefsymmetrischer Parameter). 90 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Maximum Likelihood BSS: Beispiel 3 Notes Hier geht der Algorithmus schief. Die wahre Verteilung der Beobachtung und das Modell der Quellenverteilung sind völlig unterschiedlich. Maximum der Likelihood-Funktion ist nicht bei u = v = 0 erreicht, sondern bei einer Drehung um 45°. 91 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zusammenfassung des Abschnitts Notes Hier endet (vorerst) das Thema “Maximum-Likelihood-BSS”. • Bei einer festen Hypothese q über die Verteilung der Quellen ist eine informationstheoretische Kontrastfunktion φML möglich. • φML ist die Kullback-Leibler-Divergenz zwischen der transformierten Beobachtung und der hypothetisierten Quellenverteilung. • Das entspricht einer Maximierung der Wahrscheinlichkeit der Beobachtungen unter allen möglichen Transformationen I effiziente Abschätzung möglich. • Beispiele zeigen: die Idee funktioniert, solange die wahre und die angenommene Verteilung der Quellen nicht zu sehr voneinander abweichen. 92 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Mathematische Formulierung der Quellenseparation • Maximum-Likelihood-BSS • ICA (Independent Component Analysis) • Algorithmische Lösung des Separationsproblems 93 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Definition und Motivation Notes Unsere Methode ist noch nicht ganz zufriedenstellend: • Wir sind davon ausgegangen, dass die Wahrscheinlichkeitsverteilung der Quellen zumindest grob bekannt ist. • Dann kann man BSS durch Maximierung der Likelihood (Beobachtungswahrscheinlichkeit) der transformierten Beobachtung durchführen. • Wenn man aber bei der Modellierung der Quellen einen größeren Fehler macht, liefert die BSS durch Likelihood völlig falsche Ergebnisse. 94 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Definition und Motivation Notes Idee: maximiere Kontrastfunktion nicht nur über alle möglichen linearen Transformationen der Beobachtung, sondern auch über alle möglichen Verteilungen der Quellen! Unabhängige Komponenten von Aufnahmen von Wildtieren. Quelle: Oben - Wikipedia (deutsch), “Löwe”, unten: Interview mit Aapo Hyvärinen, http://sciencewatch.com/inter/aut/ 2009/09-sep/09sepHyva/ 95 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Definition und Motivation Notes Betrachten KL-Divergenz zwischen • der transformierten Verteilung y = Bx • der unbekannten Verteilung der Quellen s. Sei ~ y ein Vektor von Zufallsvariablen mit der Eigenschaft, dass • seine Komponenten unabhängig sind • jede Komponente von ~ y die gleiche Verteilung wie die entsprechende Komponente von y hat. Das heißt, wenn y die Randverteilungen p1 , . . . , pN hat, soll ~ y dieselbe Randverteilung haben, und wegen der Unabhängigkeit der Komponenten die gemeinsame Verteilung p~y = p1 (y1 ) · p2 (y2 ) · . . . · pN (yN ). 96 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation ICA: Definition und Motivation Notes Seien y, ~ y und s definiert wie auf der letzten Folie. Dann gilt D(y||s) = D(y||~ y) + D(~ y||s) (für Details siehe [Cover and Thomas(1991)]). Minimierung über s entspricht Minimierung des zweiten Terms: argmin D(~ y||s) = ~ y s denn die Kullback-Leibler-Divergenz ist genau dann Null, wenn die beiden Verteilungen gleich sind. 97 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Definition und Motivation Notes Somit bleibt von der Minimierungsaufgabe über Transformation y = Bx und Quellenverteilung s nur noch ein Term übrig! argmin D(y||s) = argmin D(y||~ y) B,s B Nach der Definition der Kullback-Leibler-Divergenz ist diese Bedingung genau dann erfüllt, wenn y unabhängige Komponenten hat. Die Größe D(y||~ y) ist die Mutual Information oder Transinformation der Komponenten des Zufallsvektors y. 98 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Definition und Motivation Notes • Aus unserer ursprünglichen Optimierungsformel, die von einer bestimmten Quellenverteilung ausging, haben wir also ein neues Kritierium hergeleitet. • Dieses Kriterium kann einfach auf Basis der Mutual Information hingeschrieben werden. • Das Ziel dieser Form der BSS ist es, eine Transformation zu finden, die die Unabhängigkeit der Komponenten des Vektors y = Bx maximiert. • Darum nennt man diesen Ansatz auch ICA (Independent Component Analysis). • Gegenüber der Maximum-Likelihood-BSS optimieren wir also nicht mehr im Hinblick auf eine bestimmte angenommene Quellenverteilung, sondern im Hinblick auf die Unabhängigkeit der Komponenten des Beobachtungsvektors. 99 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Ansatz Notes Wir können die ICA wieder als Minimierung einer Kontrastfunktion beschreiben. Wenn y = Bx die Komponenten (y1 , . . . , yN ) hat, dann minimieren wir φMI (y ) = D(y||~ y) = Ey log p(y1 , . . . , yN ) p(y1 )p(y2 ) · · · p(yN ) Nach Definition ist dieses Minimum genau dann erreicht, wenn die Komponenten von y unabhängig sind. 100 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation ICA: Entropische Form Notes Es gibt noch eine interessante Beobachtung: Wenn wir das ICA-Kriterium auf räumlich weiße (spatially white) Daten anwenden, lässt sich zeigen, dass die Mutual Information zwischen den Komponenten von y bis auf eine Konstante der Summe der Entropien der Komponenten entspricht: X φMI (y ) = H(yi ) + const. i Hier macht es also Sinn, ein “pre-whitening” der Daten durchzuführen (PCA), ehe man mit dem “eigentlichen” Algorithmus beginnt. 101 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Entropische Form Notes • Das Kriterium ist es also, die Entropie der Komponenten zu minimieren. • Nun hat unter allen räumlich weißen Verteilungen (dann ist ja die Kovarianzmatrix gleich der Einheitsmatrix) die Gaussverteilung die höchste Entropie! • Die transformierten Verteilungen sollen so wenig gaussförmig wie nötig sein! 102 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm ICA: Negentropy Notes Aus dieser Beobachtung ergibt sich als weiterer typischer Kontrast für die ICA die Negentropy J(y) = H(yGauss ) − H(y). yGauss ist eine Zufallsvariable, die gaussverteilt ist mit derselben Kovarianzmatrix wie y. Unter allen Zufallsvariablen mit gleicher Kovarianzmatrix hat die gaussverteilte die höchste Entropie hat: • ist J(y) stets nichtnegativ • und erreicht ein Maximum, wenn die transformierte Beobachtung y möglichst wenig gaussverteilt ist. (In dieser Formulierung hätten wir also eine Kontrastfunktion, die maximiert werden muss anstatt minimiert.) 103 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Approximation durch Kumulanten Notes Diese Kontrastfunktionen können durch einfachere Maße approximiert werden. Ein Beispiel: Sei y = (y1 , . . . , yN ) ein Zufallsvektor mit Mittelwert 0. Dann sind die Kumulanten 2. bzw. 4. Ordnung Cij (y) = Cum(yi , yj ) = E(yi yj ) = Cov (yi , yj ) Cijkl (y) = Cum(yi , yj , yk , yl ) = E(yi yj yk yl ) − E(yi yj )E(yk yl ) − E(yi yk )E(yj yl ) − E(yi yl )E(yj yk ) Für Cijkl gilt: Wenn sich die Komponenten yi , yj , yk , yl in zwei voneinander unabhängige Gruppen aufteilen lassen, dann ist Cijkl = 0 I auch ein Maß für die Unabhängigkeit von ZVen! 104 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Approximation durch Kumulanten Notes Bei einem Zufallsvektor mit unabhängigen Einträgen (z.B. s) verschwinden alle Kreuzkumulanten: Cijkl (s) = ki (s)δijkl mit δijkl = ( 1 wenn i = j = k = l 0 sonst kurt(si ) := Ciiii (si ) heißt Kurtosis (Wölbung) der Zufallsvariable si . Die Kurtosis (Wölbung) einer Zufallsvariablen X ist also die 4. “Autokumulante” 2 kurt(X ) = E(X 4 ) − 3 E(X 2 ) . 105 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Kurtosis (Wölbung) Notes Die Kurtosis hatten wir schon mal: • Bei steilgipfligen Verteilungen ist kurt(X ) > 0 • Bei flachgipfligen Verteilungen ist kurt(X ) < 0 • Bei der Gaussverteilung ist kurt(X ) = 0. Eine nicht gaussverteilte Variable kann Kurtosis 0 haben, das ist aber eher selten I wieder ein Maß für Übereinstimmung mit der Gaussverteilung! Quelle: Wikipedia (deutsch), Kurtosis 106 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Approximation durch Kumulanten Notes Kullback-Leibler-Divergenz D(y, s): Maß für Übereinstimmung zweier Verteilungen. Ein ungenaueres Maß wäre der quadratische Fehler bei den Kumulanten: X X 2 φ2 (y ) = (Cij (y ) − Cij (s))2 φ4 (y ) = Cijkl (y ) − Cijkl (s) ij ijkl • φ2 ist keine echte Kontrastfunktion, sie erzwingt nur die Dekorreliertheit der transformierten Beobachtung. • Im Gegensatz dazu ist φ4 eine Kontrastfunktion, falls alle ki bekannt und ungleich Null sind. Es lässt sich auch zeigen, dass gilt: D(y, s) ≈ φ24 (y) = 1 [12φ2 (y) + φ4 (y)] 48 107 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Approximation durch Kumulanten Notes • Die Kontrastfunktion φ24 (y): Abschätzung des grundlegenden Maßes φMI (y) für die Unabhängigkeit der Komponenten unserer Beobachtungsvektoren. • Nimmt man zusätzlich an, das die Beobachtungsdaten wieder durch eine vorherige Transformation räumlich weiß sind, so ist φ2 (y) = 0 (nach Definition), und es bleibt X φ4 (y) = Ef4 (y) mit f4 (y) := −2 kurt(yi )(yi4 − 3). i • Die Kontrastfunktion φ4 lässt sich sehr gut als Erwartungswert einer Funktion abschätzen. 108 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Approximation durch Kumulanten Notes • Maximum-Likelihood-BSS: Benötige Hypothese über die Verteilung der Quellen. • Um die Kontrastfunktionen φ2 , φ4 oder φ24 anwenden zu können, muss man ebenfalls eine Hypothese über die Kurtosis der Quellenverteilung haben, was eine sehr viel schwächere Voraussetzung ist. • Dies ist keine unrealisitische Voraussetzung (Sprache!) 109 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Weitere Kontrastfunktionen für die ICA Notes Kontrastfunktion ohne weitere Voraussetzungen: Die Transinformation φMI (y ) = D(y||~ y). Weitere Approximationen von φMI sind z.B. X 2 φICA (y) = Cijkl (y) ijkl6=iiii X φJADE (y) = 2 Cijkl (y) ijkl6=ijkk Die JADE-Funktion ist möglicherweise vorteilhafter, weil die Summe über weniger Summanden genommen wird und weil die Optimierung über einen Joint Diagonalization-Algorithmus erfolgen kann. 110 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Kontrastfunktionen für die ICA Notes Wenn man die Negentropy als Maß für die stochastische Unabhängigkeit verwendet, kann man auch diese durch einfachere Formeln approximieren, etwa 1 1 kurt(y ). J(y ) = H(yGauss ) − H(y ) ≈ E(y 3 )2 + 12 48 Die Kurtosis ist allerdings gegenüber Ausreißern sehr empfindlich. ([Hyvärinen and Oja(2000)]) schlagen eine Approximation der folgenden Art vor: J(y ) ≈ [E(G (y )) − E(G (yGauss ))]2 mit einer nichtquadratischen Funktion G . Dabei wird verlangt, dass die Beobachtung y räumlich weiß ist. 111 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zusammenfassung des Abschnitts Notes In diesem Abschnitt haben wir folgende Themen besprochen: • Übergang zwischen einem bestimmten und einem unbestimmten Modell für die Quellenverteilung • Die Kontrastfunktion φMI als grundlegendes Maß für die Zielfunktion der ICA – Ziel ist die Messung der statistischen Unabhängigkeit der Komponenten des Beobachtungsvektors unter geeigneten linearen Transformationen. • Approximationen der Kontrastfunktion φMI auf Basis von Kumulanten • Entropiebasierte Formulierungen • Auswirkungen von pre-whitening 112 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems 113 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Einstieg in diesen Abschnitt Notes • Bisher haben wir eine Reihe Formulierungen für das BSS-Problem kennengelernt. • Insbesondere haben wir eine Reihe von Kontrastfunktionen kennengelernt, die es zu optimieren gilt. • Der große Unterschied war dabei die Voraussetzung an unser Wissen über die Quellenverteilungen – abgesehen davon sind theoretisch alle Kontrastfunktionen “gleich gut”, das heißt, sie liefern das gleiche Ergebnis. Aber wie berechnet man das Ergebnis denn konkret? Hier kommen die Unterschiede deutlich zum Tragen! 114 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • In diesem Abschnitt: praktische Algorithmen für die Ansätze aus dem vorherigen Kapitel • Diese Umsetzung erfordert einige Vereinfachungen. • Wir lernen zwei Methoden kennen, die praktische verwenden werden, nämlich den klassischen Gradientenabstieg und den FastICA-Algorithmus. 115 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems • Gradientenbasierte Methoden • Der FastICA-Algorithmus 116 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Gradienten von Kontrastfunktionen Notes Naheliegende Methode: Gradientenabstieg zur Minimierung der Kontrastfunktion. Wir definieren einen Gradienten relativ zur Transformationsmatrix B, die wir ja optimieren wollen. Die folgende Darstellung stammt aus [Cardoso(1998)]. Gradientenabstieg: Der Graph zeigt die Höhenlinien einer Funktion f . Gesucht ist das Minimum. Man beginnt bei einem beliebig geratenen Punkt x0 und nähert sich dem Minimum mit der Regel xn+1 = xn − γf 0 (xn ); γ ist die Lernrate. 117 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der relative Gradient Notes Sei φ(y) eine Kontrastfunktion. Eine Infinitesimaltransformation von y ist y → (I + E)y = y + Ey mit der Einheitsmatrix I und einer “kleinen” Matrix E. Wir können dann eine Art Entwicklung durchführen: φ(y + Ey) = φ(y) + n X Gij Eij + o(||E||). i,j=1 Dabei ist Gij die partielle Ableitung von φ(y + Ey) nach Eij an der Stelle E = 0. Die Koeffizienten Gij bilden eine n × n-Matrix, genannt der relative Gradient ∇φ(y) von φ(y) an der Stelle y. 118 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der relative Gradient Notes Welche Bedeutung hat der relative Gradient? • gewöhnlicher Gradient: Grenzübergang bei der Funktion φ(B + E) • relativer Gradient: Grenzübergang bei der Funktion φ(B + EB) = φ((I + E)B). Es ist ∂φ T B . ∂B Der relative Gradient ist aber algorithmisch nützlicher. ∇φ = Eine ganz vernünftige Erklärung findet sich in: Cardoso und Laheld, Equivariant adaptive source separation, IEEE Transactions on Signal Processing, 1994. 119 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Gradient der Kontrast-Funktion Notes Wir wollen einen Gradientenabstieg durchführen und müssen dazu den relativen Gradienten ausrechnen. Relativ einfach ist das für die Maximum-Likelihood-Kontrastfunktion φML (y) = D(y||s) von vorhin: Es ergibt sich ∇φML (y) = EHφ (y) wobei Hφ : Rn → Rn×n gegeben ist durch Hφ (y) := φ(y)yT − I und φ die Ableitungen der Logarithmen der Quellenverteilungen enthält: φ(y) := [φ1 (y1 ), φ2 (y2 ), . . . , φN (yN )] T mit φi := −(log qi )0 = − qi0 qi 120 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Gradient der Kontrast-Funktion: Interpretation Notes Wie können wir die Funktion Hφ (y) = φ(y)yT − I interpretieren? Wir suchen Punkte, wo der relative Gradient Null ist, diese Punkte sind Minima (oder Maxima!) der Kontrastfunktion: ! 0 = EHφ (y) = E φ(y)yT − I . Die n × n Komponenten betrachten wir einzeln! 121 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Gradient der Kontrast-Funktion: Interpretation Notes Aus T EHφ (y) = E φ(y)y − I =0 folgt für die Diagonalelemente der Bildmatrix: E(φi (yi )yi ) = 1 woraus sich nur die Skalierung der yi ergibt. An Positionen (i, j) mit i 6= j (also außerhalb der Diagonalen) gilt aber E(φi (yi )yj ) = 0, das heißt, φi (yi ) und yj sollen dekorreliert sein! Der Unterschied zur Dekorrelationsbedingung (PCA): φi ist normalerweise eine nichtlineare Funktion. 122 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Score Functions Notes Die Funktion φ := −(log q)0 , q eine Dichtefunktion, heißt score function. Die Grafik zeigt einige Beispiele von Dichten (oben) und ihren zugehörigen Scores (unten). • Gaussverteilungen haben lineare Scorefunktionen! • Wir müssen nicht lineare Scorefunktionen verwenden (keine Gaussmodellierung). Quelle: [Cardoso(1998)] 123 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Estimating functions Notes Gradientenabstieg: Transformationsmatrix B wird in Richtung des relativen Gradienten angepasst. B ← B + ∇φML (y) = B + EHφ (y) Den Erwartungswert aus dem letzten Term kann man mittels der Samples abschätzen: T 1 X EHφ (y) ∼ Hφ (y(t)) = T t=1 womit wir alle Bestandteile des BSS-Algorithmus zusammenhaben. 124 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Estimating functions Notes • Die Funktion Hφ heißt estimating function (Schätzfunktion). • Verschiedene Schätzfunktionen gehören zu verschiedenen BSS-Kriterien. • Hier noch die Schätzfunktion für die ICA: Aus den Kontrastfunktionen φICA und φJADE ergibt sich (siehe [Cardoso(1997)]) H(y) mit H(y)ij = yi yj − δij − ki yi3 yj + kj yi yj3 . 125 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Offline-Algorithmus zum Gradientenabstieg Notes Wir gehen davon aus, dass sämtliche Samples x1 , . . . , xT vorliegen. Zu suchen ist eine Transformation y = Bx, so dass φ(y), φ eine Kontrastfunktion, minimal wird. Hierfür haben wir die Bedingung ∇φ(y) ∼ = T 1 X Hφ (y(t)) = 0. T t=1 Der iterative Algorithmus zur Lösung dieses Problems ist folgendermaßen gegeben: Initialisiere y(t) = x(t) (also B = I ) für alle t. Dann führe die folgenden Schritte bis zu einem Abbruchkriterium durch: P 1. Ĥ ← T1 T t=1 H(y(t)) 2. y(t) ← y(t) − µĤ(y(t)), t = 1, . . . , T . Dabei ist µ eine Lernrate. 126 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zusammenfassung des Abschnitts Notes In diesem Abschnitt haben wir damit begonnen, uns mit der algorithmischen Umsetzung der Konzepte aus den vorigen Teilen der Vorlesung zu beschäftigen. Die wichtigsten Stichpunkte: • Der erste Ansatz: Gradientenabstieg. • Der relative Gradient und seine Interpretation im Falle der Maximum-Likelihood-BSS. • Durchführung des Gradientenabstiegs: Der Algorithmus. 127 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Übersicht Notes • Grundlagen der Stochastik und Informationstheorie • Blind Source Separation: Motivation und Beispiele • Empirische Eigenschaften von Wahrscheinlichkeitsverteilungen • Ansätze zur Quellenseparation • Algorithmische Lösung des Separationsproblems • Gradientenbasierte Methoden • Der FastICA-Algorithmus 128 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Der FastICA-Algorithmus Notes Wir lernen zum Schluss noch einen weiteren Algorithmus kennen, um das ICA-Problem zu lösen: Den FastICA-Algorithmus [Hyvärinen and Oja(2000)]. Dieser basiert auf einer Newton-Approximation zur Maximierung der Negentropy, die wir vorhin folgendermaßen approximiert hatten: J(y ) ≈ [E(G (y )) − E(G (yGauss ))]2 mit einer nichtquadratischen Funktion G , z.B. G (u) = a−1 log cosh(au) oder G (u) = − exp(−u 2 /2). Wir setzen hier immer voraus, dass unsere Beobachtung x räumlich weiß ist! 129 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der FastICA-Algorithmus für eine Komponente Notes Beschränken wir uns zunächst darauf, nur eine Komponente mit maximaler Negentropy zu finden (also eine, die so wenig gaussförmig wie möglich sein soll). Das heißt, wir haben eine Transformation y = w T x mit einem Gewichtsvektor w . Aus Skalierungsgründen fordern wir die Nebenbedingung E(w T x)2 = 1 (das hat genau die selben Gründe wie bei der PCA). Wir wollen ein Maximum von J(w T x) = [E(G (y )) − E(G (yGauss ))]2 finden, was äquivalent ist zur Optimierung der Funktion E(G (w T x)) (weil die Daten räumlich weiß sind!). Die Nebenbedingung ist äquivalent zu E(w T x)2 = ||w ||2 = 1. G ist wieder eine geeignete Funktion [Hyvärinen and Oja(2000)], sei g = G 0 die Ableitung von G . 130 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der FastICA-Algorithmus für eine Komponente Notes Unsere Aufgabe: Optimiere E(G (w T x)) unter der Nebenbedingung ||w ||2 = 1. Die Beobachtung x ist dabei bereits räumlich weiß. Wir machen einen Ansatz mit einem Lagrange-Multiplikator: β ! ∇F (w , β) = ∇ E(G (w T x)) − ||w ||2 = 0 2 und bekommen die Bedingung f (w , β) = E(xg (w T x)) − βw = 0 (※) Diese Gleichung wollen wir mit der Newton-Methode lösen! 131 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Newton-Methode zur Lösung von Gleichungen Notes Zur Erinnerung: Die Newton-Methode findet eine Nullstelle einer Funktion durch Linearisierung mittels der Ableitung: Im eindimensionalen Fall (siehe Bild) lösen wir die Gleichung f (x) = 0 mittels der Iteration x0 = geratener Wert, xn+1 = xn − f (xn ) . f 0 (xn ) Im mehrdimensionalen Fall geht das auch: Ist F : Rn → Rn , dann lautet die Iterationsvorschrift für die Gleichung F (x) = 0 xn+1 = xn − (f 0 (xn ))−1 f (xn ), wobei f 0 (xn ) eine n × n-Matrix ist, die alle partiellen Ableitungen von f enthält, die sogenannte Jacobi-Matrix. 132 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Der FastICA-Algorithmus für eine Komponente Notes Um die Gleichung ※ mit der Newton-Methode lösen zu können, müssen wir die Funktion f : R → R nach w ableiten. Die Jacobi-Matrix ist dann h i f 0 (w , β) = E xx T g 0 (w T x) − βI , die nun invertiert werden muss. Die Approximation h i E xx T g 0 (w T x) ≈ E(xx T )Eg 0 (w T x) = Eg 0 (w T x) vereinfacht dies sehr, denn E(g 0 (w T x) − β)I ist eine Diagonalmatrix, und man erhält als Iterationsschritt h i−1 h i w ? := w − Eg 0 (w T x) − βI · E(xg (w T x)) − βw (z) 133 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der FastICA-Algorithmus für eine Komponente Notes Die Gleichung z lässt sich nun so umformen (für Profis: mit βI − E(g 0 (w T x)) multiplizieren und Skalarfaktor von w unter den Tisch fallen lassen), dass man die folgende Iteration erhält: FastICA-Algorithmus 1. Wähle einen Anfangsgewichtsvektor w zufällig. 2. Setze w ? := E(xg (w T x)) − E(g 0 (w T x))w 3. Normalisiere: w := w ? /||w ? || 4. Wenn noch keine Konvergenz erreicht, gehe zu 2. 134 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der FastICA-Algorithmus für mehrere Komponenten Notes Das schwierigste haben wir jetzt geschafft! Wir haben mit dem Gewichtsvektor w eine Zeile der Transformationsmatrix B gefunden. Als letzte Frage bleibt nun: Wenn man die gesamte Matrix B bestimmen will, muss man wohl den Algorithmus mehrfach ausführen. Wie verhindert man, dass man mehrfach denselben Gewichtsvektor bekommt? 135 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Der FastICA-Algorithmus für mehrere Komponenten Notes Eine Möglichkeit ist es, die Gewichtsvektoren zu dekorrelieren. Das Verfahren ähnelt der Gram-Schmidt-Methode zur Gewinnung einer Orthogonalbasis: • Jeder Gewichtsvektor wird separat bestimmt • Beim ersten ändert sich nichts • Sind w1 , . . . , wn schon bestimmt, so wird der Algorithmus für wn+1 wir gewohnt durchgeführt, aber in jedem Schritt werden die Projektionen der w1 , . . . , wn von wn+1 abgezogen: wn+1 ← wn+1 − n X (wn+1 T wν )wν ν=1 Das funktioniert, ist allerdings ein asymmetrisches Verfahren, was darüberhinaus keine Parallelisierung zulässt. Wie üblich gibt es auch eine Reihe Alternativvorschläge. 136 / 140 +.1cm Methoden der Biosignalverarbeitung - Quellenseparation Zusammenfassung des Abschnitts Notes In diesem Abschnitt haben wir • den FastICA-Algorithmus (nach A. Hyvärinen) kennengelernt • und ihn auch aus einer Negentropy-basierten Approximation der ICA hergeleitet. 137 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Zusammenfassung dieses Vorlesungsblocks Notes In dieser Vorlesung ging es um ein zentrales Werkzeug, mit wirklichen Signalen umzugehen: Der Quellenseparation (BSS). Insbesondere haben wir behandelt: • stochastische und informationstheoretische Grundlagen • die mathematische Formulierung des Separationsproblems • zwei (von mehreren) Ansätzen zur Quellenseparation: Maximum Likelihood BSS und Independent Component Analysis (ICA) • algorithmische Ansätze zur praktischen Lösung des Problems: Gradientenabstieg und FastICA. (Gerade hier gibt es natürlich noch viele weitere Methoden.) 138 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Ausblick Notes Was haben wir nicht behandelt? Was könnte noch verbessert werden? • Wir haben uns in dieser Vorlesung ausschließlich auf die Trennung instantan gemischter Signale konzentriert (also von Signalen, die sich ohne Zeitverzug überlagern). Die Trennung von evtl. konvolutiv gemischten Signalen ist deutlich komplizierter und ein sehr aktuelles Forschungsgebiet. • Ebenso haben wir darauf verzichtet, Autokorrelationseigenschaften von Signalen zu verwenden. Wenn ein Signal nicht stationär ist, kann man diese Eigenschaften verwenden, um eine bessere Quellentrennung zu erreichen. • Dies ist auch eine Möglichkeit, eventuell doch mit gaussverteilten Signalen etwas zu erreichen. • Was passiert, wenn man mehr Quellen hat als Signale? Hier sind auch noch weitere Ansätze nötig. 139 / 140 Methoden der Biosignalverarbeitung - Quellenseparation +.1cm Referenzen Notes Cardoso, J.-F., 1997. Estimating Equations For Source Separation. In: Proc. ICASSP. Cardoso, J.-F., 1998. Blind signal separation: Statistical Principles. Proc. IEEE 9 (10), 2009 – 2025. Comon, P., 1994. Independent Component Analysis, a New Concept? IEEE Transactions on Signal Processing 36, 287 – 314. Cover, T. M., Thomas, J. A., 1991. Elements of Inf. Theory. J. Wiley. Honal, M., 2005. Determining User State and Mental Task Demand from Electroencephalographic Data. Master’s thesis, Universität Karlsruhe (TH), Germany. Hyvärinen, A., Oja, E., 2000. Independent Component Analysis: Algorithms and Applications. Neural Networks 13, 411 – 430. Wölfel, M., McDonough, J., 2009. Distant Speech Recognition. Wiley. 140 / 140 +.1cm