Kapitel III

Werbung
Kapitel III
Inhalt
3
Merkmalsextraktion und Klassifikation ............................................................................. 2
3.1
Visuelle Merkmale ...................................................................................................... 2
3.1.1
Hochpassfilterung................................................................................................. 2
3.1.2
Visuelle Merkmale ............................................................................................... 4
3.2
Akustische Merkmale .................................................................................................. 7
3.2.1
Merkmale zur maschinellen Spracherkennung .................................................... 7
3.2.2
perzeptive Merkmale ............................................................................................ 8
3.3
Klassifikation ............................................................................................................. 10
3.3.1
Klassifikation bildlicher Objekte ....................................................................... 10
3.3.2
Spracherkennung ................................................................................................ 13
1
3 Merkmalsextraktion und Klassifikation
In diesem Kapitel werden die Merkmale, wie sie in technischen Systemen und bei der
Perzeption benutzt werden, betrachtet (Abschnitt 3.1 und 3.2). Mit diesen wird dann eine
Klassifikation durchgeführt (Abschnitt 3.3).
3.1 Visuelle Merkmale
Die visuellen Merkmale der menschlichen Perzeption sind vorwiegend Kanten und Konturen
von Objekten. Im technischen Bereich werden anwendungsspezifische Merkmale genutzt, die
zur Erkennung für spezielle Klassen geeignet sind. Der erste Schritt bei der Extraktion von
visuellen Merkmale ist die die Bildverbesserung, wobei Lichtverhältnisse normalisiert und
Konturen hervorgehoben werden. Für die Bildverbesserung werden spezielle Hochpassfilter
eingesetzt, die in Abschnitt 3.1.1. beschrieben werden. Abschnitt 3.1.2 befaßt sich dann mit
den primären visuellen Merkmalen.
3.1.1 Hochpassfilterung
Wesentliche Merkmale in der Bilderkennung sind Kanten und Konturen. Diese werden durch
Filter mit speziellen Punktantwortsfunktion h(
(siehe Kapitel II) realisiert.
Durch die Faltung eines Objekts mit h ergeben sich Bilder, in denen Kanten und Konturen
hervorgehoben sind. Die Faltung
ist durch die Operation
defininiert. Die Impulsantworten werden durch Matrizen H mit Elementen hik beschrieben. In
Bild 3.1 ist als Matrix der Laplace-Operator
:
Bild 3.1: Hochpaßfilterung des Objekts links mit Laplace Operator ergibt das Bild rechts
Bei dieser Filterung wird die Leuchtdichte jeder Pixel des Objekts mit -8 multipliziert und
seine Nachbarpunkte mit 1 multipliziert. Danach werden alle so bewerteten Leuchtdichten
aufaddiert.
Die Realisierung solcher Operatoren kann durch Ganglienzelle erfolgen. Schon erste
Verarbeitungsschritte werden direkt an der Retina durchgeführt (siehe Bild 3.2).
Die Ganglienzellen an der Retina führen eine Hochpaßfilterung durch. Zur
Veranschaulichung solcher Operatoren ist in Bild 3.3 eine Filterung einer Kante in x-Richtung
mit dem Operator hi=(-1/2 1 -1/2) durchgeführt.
2
Bild 3.2: verschaltete Ganglienzellen bei der Retina und ein lineares Modell der
Signalverarbeitung der Ganglien
Bild 3.3: Einfaches eindimensionales Modell der Retina. Die Kopplung ist in
Vorwärtsrichtung mit den Gewichtsfaktoren +1 für das erregende Zentrum und -1/2 für die
hemmende Peripherie
Die Ganglienzellen an der Retina (siehe Bild3.2) führen eine wesentlich kompliziertere
Filterung durch. Jede retinale Ganglienzelle wird von einem kreisförmigen Gebiet der
Rezeptorschicht erregt (rezeptives Feldzentrum) und von einem konzentrischen, größeren
kreisförmigen Gebiet gehemmt (rezeptive Feldperipherie). Die Größe des rezeptiven Feldes
einer Ganglienzelle variiert von wenigen Minuten im fovealen Bereich bis zu mehr als 10° am
Rande des Gesichtsfeldes. Die rezeptiven Felder benachbarter Ganglienzellen überlappen sich
stark, so daß ein Lichtpunkt auf der Retina gleichzeitig viele Ganglienzellen erregen bzw.
hemmen kann.
Die neurophysiologischen Befunde der Ganglienzellen ergeben, daß die retinale
Filterfunktion in guter Näherung durch die Überlagerung zweier Gauß-Funktionen
beschrieben werden kann:
Für das rezeptive Feld wird Rotationssymmetrie angenommen (siehe Bild 3.4). Im einzelnen
bedeuten:
 E0: die Empfindlichkeit der Erregung
 I0: die Empfindlichkeit der Hemmung
 R1: ein Maß für den Durchmesser des rezeptiven Feldzentrums
 R1: ein Maß für den Durchmesser des rezeptiven Feldperipherie
 Die obigen 4 Parameter können entsprechend den Daten, die durch
neurophysiologische Experimente zu bestimmen sind, festgelegt werden. Die Reaktion
3
in der Ganglienzellenebene, d.h. das Ausgangssignal der Retina läßt sich dann für
verschiedene Eingangsreize rechnerisch bestimmen.

Bild 3.4: links: Morphologie der dendritischen Verzweigungen verschiedener retinaler
Ganglienzellen eines Kaninchens; rechts: Verlauf der Funktion H(x,y)=H(r)
.
3.1.2 Visuelle Merkmale
Zur Gewinnung primärer Merkmale werden im technischen Bereich spezielle Filter
eingesetzt. Ein solches ist das Garbor -Filter. Die Punktantwortfunktion (Realteil)
des Garborfilters ist
Das Garborfilter ist das Produkt einer 2-dimensionalen Cosinusfunktion mit einer 2dimensionale Gaussverteilung, die die Cosinusfunktion örtlich begrenzt Die Gaussverteilung
wird mit der Varianz und mit dem räumlichen Aspekts parametrisiert (siehe Bild 3.5) .
Bild 3.5: oben: Gaussverteilung des Gaborfilters in den Koordinaten x',y';
unten: Einfluß der Parameter
Der Parameter bedeutet den Winkel der Richtung der Filterung, ,
die Phase des Cosinus Terms.
4
die Wellenlänge und
Bild 3.6: Garborfilter mit
Den Einfluß der Wellenlänge
ist in Bild 3.7 zu sehen.
Bild 3.7: rechts: Originalbild
links: Linke Spalte: Garborfilter mit verschiedenen Wellenlängen;
Rechte Spalte: Gabor-gefilterte Bilder
Die Filterfunktionen des Gaborfilters - entsprechend parametrisiert - werden auch im
visuellen primären Kortex durchgeführt (siehe Bild 3.8).
Bild 3.8: Lage des Visueller Cortex
Die erste Verarbeitung befindet sich im primären Kortex (primäre visuelle Sehrinde).
Aufgrund ihrer Ergebnisse bei Einzelzellableitungen klassifizieren die Nobelpreisträger
5
(1981) Hubel und Wiesel die Neuronen des primären Kortex in einfache Zellen (simple cells),
komplexe Zellen (complex cells) und hyperkomplexe Zellen(hyper-complex cells), die in
Form von Säulen organisiert sind (siehe Bild 3.9).
Bild 3.9: Aufbau einer Hypersäule
Ein wesentliches Ergebnis ihrer Messungen war, daß alle Neuronen innerhalb einer Säule
maximal auf eine bestimmte Orientierung eines Spaltes, einer Linie, oder Kante reagieren
(siehe Bild 3.10).
Bild 3.10: Rezeptive Felder und optimale Reize für eine Säule
Aufgrund der Reaktion von Neuronen bei unterschiedlichen, stationären Reizmustern werden
entsprechend den optimalen Reizen folgende Klassen unterschieden: Kantendetektoren,
Spaltendetektoren und Liniendetektoren. Die Orientierung der Grenze zwischen erregendem
und hemmenden Bereich bestimmt die Vorzugsorientierung des Neuron, d.h. die Orientierung
des optimalen Reizes. Durch die Flächengröße des hemmenden und erregenden Bereiches
wird die optimale Reizstruktur festgelegt, d.h. die Breite eines optimalen Spaltes, einer Linie
oder des rampenförmigen Helligkeitsübergangs bei einer Kante.
6
Bild 3.11: Die hier gezeigte Zelle antwortet nur auf vertikal orientierte Balken im Bereich von
0-20°, nicht aber au horizontale Balken
Die Kantendetektoren approximieren die 1. Ableitung der Leuchtdichteverteilung
(Gradientenbildung), die Spalt- und Liniendetektoren approximieren die 2. Ableitung. Die
Ausgangserregung der 'einfachen Zellen' wird als Meßwert innerhalb des Eingangsbildes
aufgefaßt, welcher in einer späteren Stufe interpretiert werden muß, d.h. die 'einfachen Zellen'
sind an sich noch keine Merkmalsdetektoren. Der Grund ist, daß die Reaktion eines Neurons
nicht eindeutig einem bestimmten Reizmuster zugeordnet werden kann. Zum Beispiel kann
ein sogenanntes Kantendetektor - Neuron mit vertikaler Vorzugsrichtung bei einer vertikalen
Kante mit schwachem Kontrast genauso reagieren, wie eine um 45° geneigte Kante mit
hohem Kontrast. Auch auf eine dünne schwarze Linie als Eingangsreiz werden beispielsweise
alle sogenannten Detektor-Neurone mehr oder weniger stark ansprechen. Eine eindeutige
Interpretation wird durch Bewertung der Reaktion vieler funktionell unterschiedliche Neurone
angestrebt.
Vergleicht man die Ausgangserregung vieler Kantendetektoren mit unterschiedlichen
Vorzugsrichtungen für den Fall einer vertikalen Kante als Eingangsreiz, dann erhält man im
allgemeinen ein eindeutiges Maximum für das vertikal orientierte Neuron unabhängig vom
Kontrast des Eingangsreizes. Merkmale werden durch Vergleich der Reaktionen
unterschiedlicher Detektor-Neurone gewonnen. Was am Beispiel des Merkmals 'Orientierung'
gezeigt wurde, gilt auch für andere Merkmale, wie z.B. die Spalt- oder Linienbreite und die
Breite des Leuchtdichteübergangs (Rampe) bei Kanten.
3.2 Akustische Merkmale
Akustische Merkmale, die für die Spracherkennung genutzt werden, sind spektrale Merkmale.
Bei der menschlichen Perzeption wird der Modulationsgrad der Signale von verschiedenen
Frequenzgruppen genutzt. In der Technik werden statt des Modulationsgrad das
Kurzzeitleistungsspektren für verschiedene Frequenzbänder eingesetzt. In Abschnitt 3.2.1
werden die perzeptiven Merkmale und in Abschnitt 3.2.2 die technischen Merkmale
betrachtet.
3.2.1 Merkmale zur maschinellen Spracherkennung
Die Merkmale werden über die Fouriertransformation eines Zeitausschnittes eines
Sprachsignals bestimmt (siehe Bild 3.12).
Bild 3.11: Sprachausschnitte definiert über Fenster (windows) w(t)
7
Der Zeitausschnitt ist durch Fenster (windows w(t)) definiert, indem jeder Signalabschnitte w
mit einer 'window-funktion' w(t) multipliziert wird. Hieraus ergibt sich die
Fouriertransformierte
Mit
ergibt sich das Leistungsspektrum
Aus dem Leistungsspektrum wird für Frequenzbänder mit Bandgrenzen fi, fi+1 die mittlere
Energie bestimmt :
Die Energiewerte
bilden die Merkmale. Die Breite der Frequenzbänder sind etwa
1 Bark (siehe Bild 1.19 (Kapitel I)). Bänder mit der Breite 1 Bark werden als
Frequenzgruppen bezeichnet. Damit ergeben sich N=24 Bänder, deren Bandbreite mit der
Frequenz steigt. Wie im folgenden Abschnitt gezeigt wird, werden im auditorischen System
Merkmale aus Frequenzgruppen bestimmt.
3.2.2 perzeptive Merkmale
Die Information der Haarzellen im Cortischen Organ an der Cochlea wird über den Inferior
collicus (IC) und dem Corpus geniculatum mediale (CGM) (siehe Bild 3.12). Auf diesem
Weg findet eine Weiterverarbeitung statt. Im IC wird die eindimensionale Erregung auf der
Cochlea in eine 3-dimensionale Information umgewandelt, wobei in jeder Schicht des
zwiebelartig aufgebauten IC ein Frequenzbereich bearbeitet wird.
Bild 3.12: Leitung und Weiterverarbeitung der Information des Hörnervs über den Collicus
Inferior (CI) und dem Corpus geniculatum mediale (CGM) zum auditiver Cortex (Area
41,42)
3.2.2.1 Collicus Inferior (CI) und Corpus geniculatum mediale (CGM)
Im IC wird die eindimensionale Tonotopie der Cochlea in eine dreidimensionale übertragen,
wobei jede Schicht (Schale) von Prinzipalzellen einer Isofrequenzfläche entspricht, da alle
Neuronen in dieser Schicht sehr ähnliche charakteristische Frequenzen besitzen. Durch
erregende und hemmende Interaktionen zwischen den Isofrequenzflächen wird das
8
Frequenzauflösungsvermögen des Gehörs, die Fähigkeit gleichzeitig vorhandene
Frequenzkomponenten, z. B. Formanten in einem Schallsignal zu trennen und einzeln zu
identifizieren, bestimmt. Spektrale Auflösung eines komplexen Schallsignals beginnt in der
Cochlea und erreicht in der Anatomie („Hardware“) des CI die für die Wahrnehmung
relevanten Eigenschaften.
Bild 3.13: Schnitt durch den Collicus Inferior; Verarbeitung in Frequenzgruppen
Auf den Isofrequenzflächen besitzen die Neuronen im Zentrum die niedrigsten
Erregungsschwellen (höchste Empfindlichkeit) und die schärfste Frequenzabstimmung
(schmale Tuning-Kurven). Konzentrisch zu den Flächenrändern hin werden die
Erregungsschwellen höher und die Tuning-Kurven breiter. Diese beiden Karten eröffnen die
Möglichkeit einer räumlichen Kodierung von Schallintensität auf den Isofrequenzflächen.
Schallintensität ist im CI nicht durch die mittlere Entladungsrate der Neuronen kodiert. Die
meisten Neuronen im CI antworten auf niederfrequente reine Töne oder
Amplitudenmodulationen von Schallsignalen durch Ankoppeln der Entladung an die Ton(Modulations-) Frequenz. Oft besitzen Neurone sogenannte beste Modulationsfrequenzen, auf
die sie mit einer maximalen Entladungsrate (im Vergleich zu anderen Modulationsfrequenzen
antworten. Auf den Isofrequenzflächen besitzen caudal gelegene Neurone höhere
Modulationsfrequenzen
als
weiter
rostral
gelegene.
Die
Karte
der
Modulationsfrequenzrepräsentation bietet die Grundlage für eine räumliche Repräsentation
der Tonhöhenwahrnehmung. Tonhöhe ist im Hörnerven im Zeitbereich kodiert. Im CI wird
der Zeitkode in einen Ortskode umgewandelt. Auf den Isofrequenzflächen besitzen lateral
gelegene Neurone eine kurze (5 – 7 ms), medial gelegene Neurone eine lange (18 – 20 ms)
Antwortlatenz auf Tonpulse. Die langen Antwortlatenzen können nicht durch synaptische
Verzögerungen in der aufsteigenen Hörbahn erklärt werden. Der Bezug der Latenzkarte zur
Schallwahrnehmung ist unkar.
Das Corpus geniculatum mediale (CGM) im Zwischenhirn (Thalamus) besitzt eine
Aufmerksamsteuerung 'Pförtnerfunktion' und leitet die Information bei je nach
Aufmerksampotential die Information des IC an den akustischen Cortex
3.2.2.2 akustischer Cortex
Die örtliche Information des IC werden im akustischen cortex in ähnlichen Strukturen weiter
verarbeitet. Das primäre (A1, BA 41), das sekundäre (A2, BA 42) und das tertiäre auditive
Gebiet umgeben einander konzentrisch. Ähnlich wie alle primären rezeptiven Felder zeigt das
primäre Hörfeld eine räumliche Organisation: in diesem Fall sind es die Frequenzen, die einen
kontinuierlichen Verlauf, die sogenannte Tonotopie, aufweisen. Man kann also eine Karte der
repräsentierten Frequenzen auf der Hirnoberfläche zeichnen. Niedrige Frequenzen werden
anterolateral (nach vorne und zur Seite hin), hohe posteriomedial (nach hinten und zur Mitte
hin) zugeleitet (siehe Bild 3.14).
9
Bild 3.14: topographische Karte area 41
Parallel zur Frequenzrepräsentationsachse im AI existieren Streifen von Neuronen, die von
beiden Ohren entweder erregende Eingänge oder vom kontralateralen Ohr erregende und vom
ipsilateralan Ohr hemmende Eingänge erhalten. Ebenso gibt es Streifen von Neuronen, die
eher kurze oder eher lange Schallsignale bevorzugen
Die sekundären und tertiären Felder sind assoziativ, d. h. sie dienen vorwiegend dazu, aktuelle
Höreindrücke mit Bekanntem zu vergleichen, einzuordnen und zu bewerten. Dies geschieht
überwiegend unbewusst. Ins Bewusstsein dringen hingegen Hörreize, die unbekannt oder
nicht einordbar sind oder potentiell auf Bedrohliches hinweisen („Warnreize“) sowie alles,
worauf man sich konzentriert.
Der Beitrag dieser räumlichen Repräsentationen (Karten) neuronaler Antworteigenschaften
für die Schallwahrnehmung ist unklar. Denkbar ist, daß ein bestimmtes Schallmuster in ein
räumliches Verteilungsmuster von stark und schwach erregten Stellen auf den Karten im AI
umgesetzt wird. Eine synchrone oder koinzidente und zeitkoordinierte Antwort von Neuronen
in einem bestimmten räumlichen Aktivitätsmuster würde ein Schallmuster hinreichend
charakterisieren. Die Karten der neuronalen Antworteigenschaften sind plastisch, d. h., sie
können durch Lernen bestimmter Schallmuster und durch spezifische Aufmerksamkeit für
bestimmte Schallmuster verändert werden.
Ergebnisse von Fledermäusen und Hausmäusen deuten an, daß das primäre auditorische Feld
Bedeutung in der Schallwahrnehmung, Felder höherer Ordnung dagegen in der
Schallmusterkennung haben. Die Erkennung der biologischen Bedeutung von Schallsignalen
läuft bei Mäusen und Affen ähnlich wie die Erkennung des semantischen Gehalts der Sprache
beim Menschen bevorzugt über die linke Großhirnhemisphäre ab (Hemisphärendominanz).
3.3 Klassifikation
Bei der Klassifikation (Erkennung) handelt es sich um die Zuordnung von Merkmale zu
Klassen. Im folgenden werden als Klassen im visuellem Bereich starre Objekte und im
akustischen Bereich Laute (Vokale, Konsonanten) betrachtet. Als Gütemaß der Erkennung
wird der Prozentsatz der richtig erkannten Objekte definiert. Wie der Mensch im Cortex die
Klassifikation durchführt, ist im wesentlichen unbekannt. Fest steht, daß er i.a. wesentlich
geringere Fehlerraten als technische Erkennungssysteme erreicht. Dabei ist unklar, ob hier die
Wahl der Merkmale oder die Art der Klassifikation oder beides beim Menschen zu höheren
Erkennung führt.
3.3.1 Klassifikation bildlicher Objekte
In natürlichen Bildern müssen erst die zu klassifizierenden Objekte eingegrenzt werden.
Diesen Vorgang nennt man 'Segmentierung'. Im Abschnit 3.3.1.1 wird an Hand von
Texturerkennung ein Verfahren zur Segmentierung vorgestellt. Zur Klassifikation der Objekte
wird das Template Matching vorgestellt.
10
3.3.1.1 Texturen
Texturen sind Gebiete mit ähnlicher Struktur. In Bild 3.15 sind 4 Texturen gezeigt.
Bild 3.15: Texturen
Texturen bilden oft Begrenzungen von Objekten. Merkmale zur Bestimmung der Texturen
sind in Bild 3.16 gezeigt:
Bild 3.16: Berechnung von Merkmalen zur Texturbestimmung (Gabor-Richtungsfilter)
In vielen Bildern sind die zu klassifizierenden Objekte eingebettet in eine Umgebung. Es
werden zunächst die Bilder segmentiert, um die Objekte zu lokalisieren. Vielfach gelingt es,
einem Objekt eine typische Texturen zuzuweisen und diese zu Lokalisierung (siehe Bild
3.11). In Bild 3.11 ist links als Objekt ein Gebüsch und rechts ein Gelenk zu sehen. Die
Textur der Umgebung ist ein dunkles Gebiet, die Textur des Objekts ist ein helles Gebiet.
Bild 3.17: Ablösung eines Objekts von der Umgebung durch zwei Texturen - helles Gebiet
und dunkles Gebiet
11
Die Lage der Texturen wird an Hand der Stärke der Leuchtdichte durchgeführt; d.h. die
Leuchtdichte jedes Pixels ist ein Merkmal zur Klassifikation der Texturen. Eine einfache
Klassifikation stellt eine
Schwellwertoperationen dar. In Bild 3.15 ist eine
Leuchtdichteverteilung eines Bildes gezeigt. Diese setzt sich aus 2 Leuchtdichteverteilungen
(Ld) zusammen: der Verteilung der Leuchtdichte
der Umgebung (Textur T1)
klassifizierenden Objekts (Textur T2) und.
Bild 3.18: Verteilung der Leuchtdichte im Linken Teil des Bildes 3.17
Eine Klassifikationsmethode stellt die Schwellwertoperation dar, wo anhand der Leuchtdichte
Ld jedem Pixels o(x,y) eine Textur T durch die Operation
zugeordnet wird. Hier kann es zu Fehlentscheidungen kommen. Um diese zu minimieren
kann die maximum likelihood Methode eingesetzt werden. Hierzu müssen die Verteilungen
der zwei Texturen bekannt sein. In Bild 3.13 ist ein Beispiel solcher Verteilungen gezeigt. Bei
einer gemessenen Leuchdichte Ld eines Pixels o(x,y) wird je nach einer Schwelle dem Pixel
die Textur T1 oder T2 zugeordnet. Je nach Schwelle (siehe gestrichelte Linien in Bild 3.13)
ergeben sich Fehlentscheidungen. Die Fehler sind am geringsten falls man sich immer für die
wahrscheinlichste Textur entscheidet (linke gestrichelte Linie):
Bild 3.19: Fehlerflächen der Verteilungen
mit 2 Entscheidungsschwellen
(gestrichelte Linien); Die Flächen sind für die linke Schelle minimal.
In Bild 3.19 sind die Fehlerflächen eingezeichnet; die Größe der Flächen geben die
Wahrscheinlichkeit der Fehlentscheidungen an.
12
3.3.1.2 Template Matching
Bei diesem Ansatz wird ein Objekt mit den Pixeln
mit einem Bild
(Template) mit den Pixeln
verglichen. b kann ein bestimmtes Objekt,
eine Kante oder ein homogenes Gebiet sein. Sucht man b in einem beliebigen Objekt o, so
wird i.a. b nur in ähnlicher Form in o zu finden sein. Wir nehmen an, daß o aus M x M Pixel b
und b aus K * K Pixels mit M>>K besteht (siehe Bild 3.20).
Bild 3.20: Template Matching: Suche eines Buchstabens (Template) in einem Buchstabenfeld
Als Ähnlichkeitsmaßkann der Abstand
gewählt werden, der bei guter Übereinstimmung kleine Werte annimmt. Der Ausdruck wird
um so kleiner, je größer der Ausdruck
wird, der als Korrelation zwischen o und dem Template b bezeichnet wird. Wird R' alleine als
Güte des Matches gewählt, so wird R' auch groß falls o oder b große Werte annimmt.
Günstiger ist es dann, die normierte Kreuzkorrelationsfunktion.
als Ähnlichkeitsmaß zu wählen.
3.3.2 Spracherkennung
Unter Spracherkennung versteht man die Erkennung einer Folge von Wörtern, die einer
Äußerung zugrunde liegen. Jedes gesprochene Wort besteht aus einer Folge von Lauten, den
Phonen. In geschriebenen Wörtern entsprechen den Phonen den Phonemen eines Alphabets.
Sprache entsteht durch die Bewegung der Artikulationsorgane, die eine Folge von Phonen
produzieren (siehe Kapitel II). In Bild 3.21 ist die Segmentierung einer Äußerung in
stimmhafte, stimmlose und Pause - Bereiche gezeigt.
Da die Artikulation ein kontinuierlicher Prozess ist, gibt es kontinuierliche Übergänge von
Laut zu Laut, was eine automatische Segmentierung der Sprache in Phone sehr fehleranfällig
macht. Deshalb wird heute ein anderer Weg eingeschlagen, der dem Template matching
ähnelt. Es werden alle möglichen Positionen der Phone untersucht, um diejenige Phonfolge zu
finden, die die wahrscheinlichste ist. Dieser Prozess wird Suche genannt. Diese sehr
algorithmische sehr aufwendige Operation wird hier nicht behandelt.
13
Bild 3.21: Segmentiertes Sprachsignal in stimmhaften (v), stimmlosen (u) und Pause (p) Bereiche
Im folgenden wird davon ausgegangen, daß eine Segmentierung des Sprachsignals in Phone
vorliegt. Es gilt dann, Sprachsignalabschnitten Phoneme zuzuordnen, d.h. eine
Phonemklassifikation durchzuführen. Beispielhaft wird im folgenden die Klassifikation von
Vokalen beschrieben
Wie in Abschnitt 3.2.2 dargestellt ist, werden die Merkmale zur Klassifikation aus dem
Kurzzeitleistungsspektrum gewonnen. In Bild 3.22 ist der Sprachsignalausschnitt eines
'kurzen' /a/ und sein dazugehöriges Kurzzeitleistungsspektrum gezeigt.
Bild 3.22: Signalabschnitt und dazugehöriges Kurzzeitleistungsspektrum eines kurzen /a/, der
aus dem gesprochenen Wort /hatte/ gewonnen wurde
Wie aus der Phonetik bekannt ist, lassen sich Vokale lassen sich durch Maxima (Formanten)
im geglätteten Kurzzeitleistungsspektrum charakterisieren ( Bild 3.23).
Bild 3.23: geglättetes Kurzzeitleistungsspektrum |FT(f)| eines Vokals mit Formanten F1, F2, F3
14
. In Bild 3.24 sind die ersten beiden Formanten einiger Vokale in einer Formantkarte gezeigt.
Die Zuordnung der Formanten zu den Vokalen ist nicht eindeutig, da sich die Vokalklassen
überlappen.
Bild 3.24: Formantkarte ausgewählter Vokale
Diese Überlappung liegt zum einen an der unterschiedlichen Vokaltraktstruktur (z.B.
unterschiedliche Vokaltraktlänge von Männern und Frauen) zum anderen an der
Zentralisierung, wobei sich bei schneller Sprechweise die Vokale zu dem 'schwa'-Laut /ɚ/,
wie er als Ende des Wortes /hatte/ artikuliert wird, verschieben.
Ein weiteres Problem bei der Vokalklassifikation mit Hilfe der Formanten liegt darin, daß die
Bestimmung der Formanten sehr fehlerhaft ist. Deshalb wird nach dem Stand der Technik die
Abschnitt 3.2.2 beschriebenen Merkmale
genutzt. Verglichen mit den Formanten
ist die Anzahl dieser Merkmale wesentlich höher (z. B. N=16 Werte). Diese Merkmale
werden für einen Signalausschnitt von T=10-20 ms gewonnen und führen zu einem
Merkmalsvektor
, der zu den Zeitpunkten
berechnet wird (
. Die Dauer eines Vokals liegt in der Größenordnung von
50ms; somit charakterisieren bei
fünf Merkmalsvektoren einen Vokal. Zunächst
wird die Klassifikation der Vokale mit einem Merkmalsvektor betrachtet. Hierbei wird die
maximum likelihood Methode (siehe Abschnitt 3.3.1) angewandt. Die Vokalklassen der NV
Vokale werden mit
bezeichnet. Zur Klassifikation werden die
Wahrscheinlichkeitsverteilungen
benötigt, um dann bei gegeben Merkmalsvektor X den wahrscheinlichsten Vokal
bestimmen:
Der Operator
Argument maximal ist.
Um die Verteilungen
hat als Ausgabegröße diejenige Klasse
zu
, bei der das
zu bestimmen, wird die Beziehung
genutzt, da sich die Verteilung
aus Stichproben von Merkmalsvektoren von gegeben
Vokalen
schätzen lassen. Die Verteilung
ist die Häufigkeit des Auftretens der
Vokale. Die Verteilung
wird, wie unten gezeigt wird, nicht benötigt. Der maximum
likelihood Ansatz stellt sich dann in der Form
15
dar. Ein häufig verwandter Ansatz ist, die Verteilungen
anzunähern:
durch Normalverteilungen
Hierbei bedeutet der Mittelwert des Merkmalvektors und die Kovarianzmatrix des i-ten
Vokals.
werden an Hand von
Stichprobenwerte
der Merkmalsvektoren X,
welche von Sprachsignalen des Vokal gemessen wurden, mit den Beziehungen
geschätzt. In Bild 3.22 ist beispielhaft die Normalverteilung eines 2 dimensionalen
Merkmalvektors und eine Stichprobe gezeigt.
Bild 3.25: Links: 2-dimensionaler Merkmalsvektor; Rechts: Stichproben von 3 Klassen
Im folgenden benutzen wir die Beziehungen
womit sich der maximum likelihood Ansatz in der Form
darstellt.
16
Herunterladen