Kapitel III Inhalt 3 Merkmalsextraktion und Klassifikation ............................................................................. 2 3.1 Visuelle Merkmale ...................................................................................................... 2 3.1.1 Hochpassfilterung................................................................................................. 2 3.1.2 Visuelle Merkmale ............................................................................................... 4 3.2 Akustische Merkmale .................................................................................................. 7 3.2.1 Merkmale zur maschinellen Spracherkennung .................................................... 7 3.2.2 perzeptive Merkmale ............................................................................................ 8 3.3 Klassifikation ............................................................................................................. 10 3.3.1 Klassifikation bildlicher Objekte ....................................................................... 10 3.3.2 Spracherkennung ................................................................................................ 13 1 3 Merkmalsextraktion und Klassifikation In diesem Kapitel werden die Merkmale, wie sie in technischen Systemen und bei der Perzeption benutzt werden, betrachtet (Abschnitt 3.1 und 3.2). Mit diesen wird dann eine Klassifikation durchgeführt (Abschnitt 3.3). 3.1 Visuelle Merkmale Die visuellen Merkmale der menschlichen Perzeption sind vorwiegend Kanten und Konturen von Objekten. Im technischen Bereich werden anwendungsspezifische Merkmale genutzt, die zur Erkennung für spezielle Klassen geeignet sind. Der erste Schritt bei der Extraktion von visuellen Merkmale ist die die Bildverbesserung, wobei Lichtverhältnisse normalisiert und Konturen hervorgehoben werden. Für die Bildverbesserung werden spezielle Hochpassfilter eingesetzt, die in Abschnitt 3.1.1. beschrieben werden. Abschnitt 3.1.2 befaßt sich dann mit den primären visuellen Merkmalen. 3.1.1 Hochpassfilterung Wesentliche Merkmale in der Bilderkennung sind Kanten und Konturen. Diese werden durch Filter mit speziellen Punktantwortsfunktion h( (siehe Kapitel II) realisiert. Durch die Faltung eines Objekts mit h ergeben sich Bilder, in denen Kanten und Konturen hervorgehoben sind. Die Faltung ist durch die Operation defininiert. Die Impulsantworten werden durch Matrizen H mit Elementen hik beschrieben. In Bild 3.1 ist als Matrix der Laplace-Operator : Bild 3.1: Hochpaßfilterung des Objekts links mit Laplace Operator ergibt das Bild rechts Bei dieser Filterung wird die Leuchtdichte jeder Pixel des Objekts mit -8 multipliziert und seine Nachbarpunkte mit 1 multipliziert. Danach werden alle so bewerteten Leuchtdichten aufaddiert. Die Realisierung solcher Operatoren kann durch Ganglienzelle erfolgen. Schon erste Verarbeitungsschritte werden direkt an der Retina durchgeführt (siehe Bild 3.2). Die Ganglienzellen an der Retina führen eine Hochpaßfilterung durch. Zur Veranschaulichung solcher Operatoren ist in Bild 3.3 eine Filterung einer Kante in x-Richtung mit dem Operator hi=(-1/2 1 -1/2) durchgeführt. 2 Bild 3.2: verschaltete Ganglienzellen bei der Retina und ein lineares Modell der Signalverarbeitung der Ganglien Bild 3.3: Einfaches eindimensionales Modell der Retina. Die Kopplung ist in Vorwärtsrichtung mit den Gewichtsfaktoren +1 für das erregende Zentrum und -1/2 für die hemmende Peripherie Die Ganglienzellen an der Retina (siehe Bild3.2) führen eine wesentlich kompliziertere Filterung durch. Jede retinale Ganglienzelle wird von einem kreisförmigen Gebiet der Rezeptorschicht erregt (rezeptives Feldzentrum) und von einem konzentrischen, größeren kreisförmigen Gebiet gehemmt (rezeptive Feldperipherie). Die Größe des rezeptiven Feldes einer Ganglienzelle variiert von wenigen Minuten im fovealen Bereich bis zu mehr als 10° am Rande des Gesichtsfeldes. Die rezeptiven Felder benachbarter Ganglienzellen überlappen sich stark, so daß ein Lichtpunkt auf der Retina gleichzeitig viele Ganglienzellen erregen bzw. hemmen kann. Die neurophysiologischen Befunde der Ganglienzellen ergeben, daß die retinale Filterfunktion in guter Näherung durch die Überlagerung zweier Gauß-Funktionen beschrieben werden kann: Für das rezeptive Feld wird Rotationssymmetrie angenommen (siehe Bild 3.4). Im einzelnen bedeuten: E0: die Empfindlichkeit der Erregung I0: die Empfindlichkeit der Hemmung R1: ein Maß für den Durchmesser des rezeptiven Feldzentrums R1: ein Maß für den Durchmesser des rezeptiven Feldperipherie Die obigen 4 Parameter können entsprechend den Daten, die durch neurophysiologische Experimente zu bestimmen sind, festgelegt werden. Die Reaktion 3 in der Ganglienzellenebene, d.h. das Ausgangssignal der Retina läßt sich dann für verschiedene Eingangsreize rechnerisch bestimmen. Bild 3.4: links: Morphologie der dendritischen Verzweigungen verschiedener retinaler Ganglienzellen eines Kaninchens; rechts: Verlauf der Funktion H(x,y)=H(r) . 3.1.2 Visuelle Merkmale Zur Gewinnung primärer Merkmale werden im technischen Bereich spezielle Filter eingesetzt. Ein solches ist das Garbor -Filter. Die Punktantwortfunktion (Realteil) des Garborfilters ist Das Garborfilter ist das Produkt einer 2-dimensionalen Cosinusfunktion mit einer 2dimensionale Gaussverteilung, die die Cosinusfunktion örtlich begrenzt Die Gaussverteilung wird mit der Varianz und mit dem räumlichen Aspekts parametrisiert (siehe Bild 3.5) . Bild 3.5: oben: Gaussverteilung des Gaborfilters in den Koordinaten x',y'; unten: Einfluß der Parameter Der Parameter bedeutet den Winkel der Richtung der Filterung, , die Phase des Cosinus Terms. 4 die Wellenlänge und Bild 3.6: Garborfilter mit Den Einfluß der Wellenlänge ist in Bild 3.7 zu sehen. Bild 3.7: rechts: Originalbild links: Linke Spalte: Garborfilter mit verschiedenen Wellenlängen; Rechte Spalte: Gabor-gefilterte Bilder Die Filterfunktionen des Gaborfilters - entsprechend parametrisiert - werden auch im visuellen primären Kortex durchgeführt (siehe Bild 3.8). Bild 3.8: Lage des Visueller Cortex Die erste Verarbeitung befindet sich im primären Kortex (primäre visuelle Sehrinde). Aufgrund ihrer Ergebnisse bei Einzelzellableitungen klassifizieren die Nobelpreisträger 5 (1981) Hubel und Wiesel die Neuronen des primären Kortex in einfache Zellen (simple cells), komplexe Zellen (complex cells) und hyperkomplexe Zellen(hyper-complex cells), die in Form von Säulen organisiert sind (siehe Bild 3.9). Bild 3.9: Aufbau einer Hypersäule Ein wesentliches Ergebnis ihrer Messungen war, daß alle Neuronen innerhalb einer Säule maximal auf eine bestimmte Orientierung eines Spaltes, einer Linie, oder Kante reagieren (siehe Bild 3.10). Bild 3.10: Rezeptive Felder und optimale Reize für eine Säule Aufgrund der Reaktion von Neuronen bei unterschiedlichen, stationären Reizmustern werden entsprechend den optimalen Reizen folgende Klassen unterschieden: Kantendetektoren, Spaltendetektoren und Liniendetektoren. Die Orientierung der Grenze zwischen erregendem und hemmenden Bereich bestimmt die Vorzugsorientierung des Neuron, d.h. die Orientierung des optimalen Reizes. Durch die Flächengröße des hemmenden und erregenden Bereiches wird die optimale Reizstruktur festgelegt, d.h. die Breite eines optimalen Spaltes, einer Linie oder des rampenförmigen Helligkeitsübergangs bei einer Kante. 6 Bild 3.11: Die hier gezeigte Zelle antwortet nur auf vertikal orientierte Balken im Bereich von 0-20°, nicht aber au horizontale Balken Die Kantendetektoren approximieren die 1. Ableitung der Leuchtdichteverteilung (Gradientenbildung), die Spalt- und Liniendetektoren approximieren die 2. Ableitung. Die Ausgangserregung der 'einfachen Zellen' wird als Meßwert innerhalb des Eingangsbildes aufgefaßt, welcher in einer späteren Stufe interpretiert werden muß, d.h. die 'einfachen Zellen' sind an sich noch keine Merkmalsdetektoren. Der Grund ist, daß die Reaktion eines Neurons nicht eindeutig einem bestimmten Reizmuster zugeordnet werden kann. Zum Beispiel kann ein sogenanntes Kantendetektor - Neuron mit vertikaler Vorzugsrichtung bei einer vertikalen Kante mit schwachem Kontrast genauso reagieren, wie eine um 45° geneigte Kante mit hohem Kontrast. Auch auf eine dünne schwarze Linie als Eingangsreiz werden beispielsweise alle sogenannten Detektor-Neurone mehr oder weniger stark ansprechen. Eine eindeutige Interpretation wird durch Bewertung der Reaktion vieler funktionell unterschiedliche Neurone angestrebt. Vergleicht man die Ausgangserregung vieler Kantendetektoren mit unterschiedlichen Vorzugsrichtungen für den Fall einer vertikalen Kante als Eingangsreiz, dann erhält man im allgemeinen ein eindeutiges Maximum für das vertikal orientierte Neuron unabhängig vom Kontrast des Eingangsreizes. Merkmale werden durch Vergleich der Reaktionen unterschiedlicher Detektor-Neurone gewonnen. Was am Beispiel des Merkmals 'Orientierung' gezeigt wurde, gilt auch für andere Merkmale, wie z.B. die Spalt- oder Linienbreite und die Breite des Leuchtdichteübergangs (Rampe) bei Kanten. 3.2 Akustische Merkmale Akustische Merkmale, die für die Spracherkennung genutzt werden, sind spektrale Merkmale. Bei der menschlichen Perzeption wird der Modulationsgrad der Signale von verschiedenen Frequenzgruppen genutzt. In der Technik werden statt des Modulationsgrad das Kurzzeitleistungsspektren für verschiedene Frequenzbänder eingesetzt. In Abschnitt 3.2.1 werden die perzeptiven Merkmale und in Abschnitt 3.2.2 die technischen Merkmale betrachtet. 3.2.1 Merkmale zur maschinellen Spracherkennung Die Merkmale werden über die Fouriertransformation eines Zeitausschnittes eines Sprachsignals bestimmt (siehe Bild 3.12). Bild 3.11: Sprachausschnitte definiert über Fenster (windows) w(t) 7 Der Zeitausschnitt ist durch Fenster (windows w(t)) definiert, indem jeder Signalabschnitte w mit einer 'window-funktion' w(t) multipliziert wird. Hieraus ergibt sich die Fouriertransformierte Mit ergibt sich das Leistungsspektrum Aus dem Leistungsspektrum wird für Frequenzbänder mit Bandgrenzen fi, fi+1 die mittlere Energie bestimmt : Die Energiewerte bilden die Merkmale. Die Breite der Frequenzbänder sind etwa 1 Bark (siehe Bild 1.19 (Kapitel I)). Bänder mit der Breite 1 Bark werden als Frequenzgruppen bezeichnet. Damit ergeben sich N=24 Bänder, deren Bandbreite mit der Frequenz steigt. Wie im folgenden Abschnitt gezeigt wird, werden im auditorischen System Merkmale aus Frequenzgruppen bestimmt. 3.2.2 perzeptive Merkmale Die Information der Haarzellen im Cortischen Organ an der Cochlea wird über den Inferior collicus (IC) und dem Corpus geniculatum mediale (CGM) (siehe Bild 3.12). Auf diesem Weg findet eine Weiterverarbeitung statt. Im IC wird die eindimensionale Erregung auf der Cochlea in eine 3-dimensionale Information umgewandelt, wobei in jeder Schicht des zwiebelartig aufgebauten IC ein Frequenzbereich bearbeitet wird. Bild 3.12: Leitung und Weiterverarbeitung der Information des Hörnervs über den Collicus Inferior (CI) und dem Corpus geniculatum mediale (CGM) zum auditiver Cortex (Area 41,42) 3.2.2.1 Collicus Inferior (CI) und Corpus geniculatum mediale (CGM) Im IC wird die eindimensionale Tonotopie der Cochlea in eine dreidimensionale übertragen, wobei jede Schicht (Schale) von Prinzipalzellen einer Isofrequenzfläche entspricht, da alle Neuronen in dieser Schicht sehr ähnliche charakteristische Frequenzen besitzen. Durch erregende und hemmende Interaktionen zwischen den Isofrequenzflächen wird das 8 Frequenzauflösungsvermögen des Gehörs, die Fähigkeit gleichzeitig vorhandene Frequenzkomponenten, z. B. Formanten in einem Schallsignal zu trennen und einzeln zu identifizieren, bestimmt. Spektrale Auflösung eines komplexen Schallsignals beginnt in der Cochlea und erreicht in der Anatomie („Hardware“) des CI die für die Wahrnehmung relevanten Eigenschaften. Bild 3.13: Schnitt durch den Collicus Inferior; Verarbeitung in Frequenzgruppen Auf den Isofrequenzflächen besitzen die Neuronen im Zentrum die niedrigsten Erregungsschwellen (höchste Empfindlichkeit) und die schärfste Frequenzabstimmung (schmale Tuning-Kurven). Konzentrisch zu den Flächenrändern hin werden die Erregungsschwellen höher und die Tuning-Kurven breiter. Diese beiden Karten eröffnen die Möglichkeit einer räumlichen Kodierung von Schallintensität auf den Isofrequenzflächen. Schallintensität ist im CI nicht durch die mittlere Entladungsrate der Neuronen kodiert. Die meisten Neuronen im CI antworten auf niederfrequente reine Töne oder Amplitudenmodulationen von Schallsignalen durch Ankoppeln der Entladung an die Ton(Modulations-) Frequenz. Oft besitzen Neurone sogenannte beste Modulationsfrequenzen, auf die sie mit einer maximalen Entladungsrate (im Vergleich zu anderen Modulationsfrequenzen antworten. Auf den Isofrequenzflächen besitzen caudal gelegene Neurone höhere Modulationsfrequenzen als weiter rostral gelegene. Die Karte der Modulationsfrequenzrepräsentation bietet die Grundlage für eine räumliche Repräsentation der Tonhöhenwahrnehmung. Tonhöhe ist im Hörnerven im Zeitbereich kodiert. Im CI wird der Zeitkode in einen Ortskode umgewandelt. Auf den Isofrequenzflächen besitzen lateral gelegene Neurone eine kurze (5 – 7 ms), medial gelegene Neurone eine lange (18 – 20 ms) Antwortlatenz auf Tonpulse. Die langen Antwortlatenzen können nicht durch synaptische Verzögerungen in der aufsteigenen Hörbahn erklärt werden. Der Bezug der Latenzkarte zur Schallwahrnehmung ist unkar. Das Corpus geniculatum mediale (CGM) im Zwischenhirn (Thalamus) besitzt eine Aufmerksamsteuerung 'Pförtnerfunktion' und leitet die Information bei je nach Aufmerksampotential die Information des IC an den akustischen Cortex 3.2.2.2 akustischer Cortex Die örtliche Information des IC werden im akustischen cortex in ähnlichen Strukturen weiter verarbeitet. Das primäre (A1, BA 41), das sekundäre (A2, BA 42) und das tertiäre auditive Gebiet umgeben einander konzentrisch. Ähnlich wie alle primären rezeptiven Felder zeigt das primäre Hörfeld eine räumliche Organisation: in diesem Fall sind es die Frequenzen, die einen kontinuierlichen Verlauf, die sogenannte Tonotopie, aufweisen. Man kann also eine Karte der repräsentierten Frequenzen auf der Hirnoberfläche zeichnen. Niedrige Frequenzen werden anterolateral (nach vorne und zur Seite hin), hohe posteriomedial (nach hinten und zur Mitte hin) zugeleitet (siehe Bild 3.14). 9 Bild 3.14: topographische Karte area 41 Parallel zur Frequenzrepräsentationsachse im AI existieren Streifen von Neuronen, die von beiden Ohren entweder erregende Eingänge oder vom kontralateralen Ohr erregende und vom ipsilateralan Ohr hemmende Eingänge erhalten. Ebenso gibt es Streifen von Neuronen, die eher kurze oder eher lange Schallsignale bevorzugen Die sekundären und tertiären Felder sind assoziativ, d. h. sie dienen vorwiegend dazu, aktuelle Höreindrücke mit Bekanntem zu vergleichen, einzuordnen und zu bewerten. Dies geschieht überwiegend unbewusst. Ins Bewusstsein dringen hingegen Hörreize, die unbekannt oder nicht einordbar sind oder potentiell auf Bedrohliches hinweisen („Warnreize“) sowie alles, worauf man sich konzentriert. Der Beitrag dieser räumlichen Repräsentationen (Karten) neuronaler Antworteigenschaften für die Schallwahrnehmung ist unklar. Denkbar ist, daß ein bestimmtes Schallmuster in ein räumliches Verteilungsmuster von stark und schwach erregten Stellen auf den Karten im AI umgesetzt wird. Eine synchrone oder koinzidente und zeitkoordinierte Antwort von Neuronen in einem bestimmten räumlichen Aktivitätsmuster würde ein Schallmuster hinreichend charakterisieren. Die Karten der neuronalen Antworteigenschaften sind plastisch, d. h., sie können durch Lernen bestimmter Schallmuster und durch spezifische Aufmerksamkeit für bestimmte Schallmuster verändert werden. Ergebnisse von Fledermäusen und Hausmäusen deuten an, daß das primäre auditorische Feld Bedeutung in der Schallwahrnehmung, Felder höherer Ordnung dagegen in der Schallmusterkennung haben. Die Erkennung der biologischen Bedeutung von Schallsignalen läuft bei Mäusen und Affen ähnlich wie die Erkennung des semantischen Gehalts der Sprache beim Menschen bevorzugt über die linke Großhirnhemisphäre ab (Hemisphärendominanz). 3.3 Klassifikation Bei der Klassifikation (Erkennung) handelt es sich um die Zuordnung von Merkmale zu Klassen. Im folgenden werden als Klassen im visuellem Bereich starre Objekte und im akustischen Bereich Laute (Vokale, Konsonanten) betrachtet. Als Gütemaß der Erkennung wird der Prozentsatz der richtig erkannten Objekte definiert. Wie der Mensch im Cortex die Klassifikation durchführt, ist im wesentlichen unbekannt. Fest steht, daß er i.a. wesentlich geringere Fehlerraten als technische Erkennungssysteme erreicht. Dabei ist unklar, ob hier die Wahl der Merkmale oder die Art der Klassifikation oder beides beim Menschen zu höheren Erkennung führt. 3.3.1 Klassifikation bildlicher Objekte In natürlichen Bildern müssen erst die zu klassifizierenden Objekte eingegrenzt werden. Diesen Vorgang nennt man 'Segmentierung'. Im Abschnit 3.3.1.1 wird an Hand von Texturerkennung ein Verfahren zur Segmentierung vorgestellt. Zur Klassifikation der Objekte wird das Template Matching vorgestellt. 10 3.3.1.1 Texturen Texturen sind Gebiete mit ähnlicher Struktur. In Bild 3.15 sind 4 Texturen gezeigt. Bild 3.15: Texturen Texturen bilden oft Begrenzungen von Objekten. Merkmale zur Bestimmung der Texturen sind in Bild 3.16 gezeigt: Bild 3.16: Berechnung von Merkmalen zur Texturbestimmung (Gabor-Richtungsfilter) In vielen Bildern sind die zu klassifizierenden Objekte eingebettet in eine Umgebung. Es werden zunächst die Bilder segmentiert, um die Objekte zu lokalisieren. Vielfach gelingt es, einem Objekt eine typische Texturen zuzuweisen und diese zu Lokalisierung (siehe Bild 3.11). In Bild 3.11 ist links als Objekt ein Gebüsch und rechts ein Gelenk zu sehen. Die Textur der Umgebung ist ein dunkles Gebiet, die Textur des Objekts ist ein helles Gebiet. Bild 3.17: Ablösung eines Objekts von der Umgebung durch zwei Texturen - helles Gebiet und dunkles Gebiet 11 Die Lage der Texturen wird an Hand der Stärke der Leuchtdichte durchgeführt; d.h. die Leuchtdichte jedes Pixels ist ein Merkmal zur Klassifikation der Texturen. Eine einfache Klassifikation stellt eine Schwellwertoperationen dar. In Bild 3.15 ist eine Leuchtdichteverteilung eines Bildes gezeigt. Diese setzt sich aus 2 Leuchtdichteverteilungen (Ld) zusammen: der Verteilung der Leuchtdichte der Umgebung (Textur T1) klassifizierenden Objekts (Textur T2) und. Bild 3.18: Verteilung der Leuchtdichte im Linken Teil des Bildes 3.17 Eine Klassifikationsmethode stellt die Schwellwertoperation dar, wo anhand der Leuchtdichte Ld jedem Pixels o(x,y) eine Textur T durch die Operation zugeordnet wird. Hier kann es zu Fehlentscheidungen kommen. Um diese zu minimieren kann die maximum likelihood Methode eingesetzt werden. Hierzu müssen die Verteilungen der zwei Texturen bekannt sein. In Bild 3.13 ist ein Beispiel solcher Verteilungen gezeigt. Bei einer gemessenen Leuchdichte Ld eines Pixels o(x,y) wird je nach einer Schwelle dem Pixel die Textur T1 oder T2 zugeordnet. Je nach Schwelle (siehe gestrichelte Linien in Bild 3.13) ergeben sich Fehlentscheidungen. Die Fehler sind am geringsten falls man sich immer für die wahrscheinlichste Textur entscheidet (linke gestrichelte Linie): Bild 3.19: Fehlerflächen der Verteilungen mit 2 Entscheidungsschwellen (gestrichelte Linien); Die Flächen sind für die linke Schelle minimal. In Bild 3.19 sind die Fehlerflächen eingezeichnet; die Größe der Flächen geben die Wahrscheinlichkeit der Fehlentscheidungen an. 12 3.3.1.2 Template Matching Bei diesem Ansatz wird ein Objekt mit den Pixeln mit einem Bild (Template) mit den Pixeln verglichen. b kann ein bestimmtes Objekt, eine Kante oder ein homogenes Gebiet sein. Sucht man b in einem beliebigen Objekt o, so wird i.a. b nur in ähnlicher Form in o zu finden sein. Wir nehmen an, daß o aus M x M Pixel b und b aus K * K Pixels mit M>>K besteht (siehe Bild 3.20). Bild 3.20: Template Matching: Suche eines Buchstabens (Template) in einem Buchstabenfeld Als Ähnlichkeitsmaßkann der Abstand gewählt werden, der bei guter Übereinstimmung kleine Werte annimmt. Der Ausdruck wird um so kleiner, je größer der Ausdruck wird, der als Korrelation zwischen o und dem Template b bezeichnet wird. Wird R' alleine als Güte des Matches gewählt, so wird R' auch groß falls o oder b große Werte annimmt. Günstiger ist es dann, die normierte Kreuzkorrelationsfunktion. als Ähnlichkeitsmaß zu wählen. 3.3.2 Spracherkennung Unter Spracherkennung versteht man die Erkennung einer Folge von Wörtern, die einer Äußerung zugrunde liegen. Jedes gesprochene Wort besteht aus einer Folge von Lauten, den Phonen. In geschriebenen Wörtern entsprechen den Phonen den Phonemen eines Alphabets. Sprache entsteht durch die Bewegung der Artikulationsorgane, die eine Folge von Phonen produzieren (siehe Kapitel II). In Bild 3.21 ist die Segmentierung einer Äußerung in stimmhafte, stimmlose und Pause - Bereiche gezeigt. Da die Artikulation ein kontinuierlicher Prozess ist, gibt es kontinuierliche Übergänge von Laut zu Laut, was eine automatische Segmentierung der Sprache in Phone sehr fehleranfällig macht. Deshalb wird heute ein anderer Weg eingeschlagen, der dem Template matching ähnelt. Es werden alle möglichen Positionen der Phone untersucht, um diejenige Phonfolge zu finden, die die wahrscheinlichste ist. Dieser Prozess wird Suche genannt. Diese sehr algorithmische sehr aufwendige Operation wird hier nicht behandelt. 13 Bild 3.21: Segmentiertes Sprachsignal in stimmhaften (v), stimmlosen (u) und Pause (p) Bereiche Im folgenden wird davon ausgegangen, daß eine Segmentierung des Sprachsignals in Phone vorliegt. Es gilt dann, Sprachsignalabschnitten Phoneme zuzuordnen, d.h. eine Phonemklassifikation durchzuführen. Beispielhaft wird im folgenden die Klassifikation von Vokalen beschrieben Wie in Abschnitt 3.2.2 dargestellt ist, werden die Merkmale zur Klassifikation aus dem Kurzzeitleistungsspektrum gewonnen. In Bild 3.22 ist der Sprachsignalausschnitt eines 'kurzen' /a/ und sein dazugehöriges Kurzzeitleistungsspektrum gezeigt. Bild 3.22: Signalabschnitt und dazugehöriges Kurzzeitleistungsspektrum eines kurzen /a/, der aus dem gesprochenen Wort /hatte/ gewonnen wurde Wie aus der Phonetik bekannt ist, lassen sich Vokale lassen sich durch Maxima (Formanten) im geglätteten Kurzzeitleistungsspektrum charakterisieren ( Bild 3.23). Bild 3.23: geglättetes Kurzzeitleistungsspektrum |FT(f)| eines Vokals mit Formanten F1, F2, F3 14 . In Bild 3.24 sind die ersten beiden Formanten einiger Vokale in einer Formantkarte gezeigt. Die Zuordnung der Formanten zu den Vokalen ist nicht eindeutig, da sich die Vokalklassen überlappen. Bild 3.24: Formantkarte ausgewählter Vokale Diese Überlappung liegt zum einen an der unterschiedlichen Vokaltraktstruktur (z.B. unterschiedliche Vokaltraktlänge von Männern und Frauen) zum anderen an der Zentralisierung, wobei sich bei schneller Sprechweise die Vokale zu dem 'schwa'-Laut /ɚ/, wie er als Ende des Wortes /hatte/ artikuliert wird, verschieben. Ein weiteres Problem bei der Vokalklassifikation mit Hilfe der Formanten liegt darin, daß die Bestimmung der Formanten sehr fehlerhaft ist. Deshalb wird nach dem Stand der Technik die Abschnitt 3.2.2 beschriebenen Merkmale genutzt. Verglichen mit den Formanten ist die Anzahl dieser Merkmale wesentlich höher (z. B. N=16 Werte). Diese Merkmale werden für einen Signalausschnitt von T=10-20 ms gewonnen und führen zu einem Merkmalsvektor , der zu den Zeitpunkten berechnet wird ( . Die Dauer eines Vokals liegt in der Größenordnung von 50ms; somit charakterisieren bei fünf Merkmalsvektoren einen Vokal. Zunächst wird die Klassifikation der Vokale mit einem Merkmalsvektor betrachtet. Hierbei wird die maximum likelihood Methode (siehe Abschnitt 3.3.1) angewandt. Die Vokalklassen der NV Vokale werden mit bezeichnet. Zur Klassifikation werden die Wahrscheinlichkeitsverteilungen benötigt, um dann bei gegeben Merkmalsvektor X den wahrscheinlichsten Vokal bestimmen: Der Operator Argument maximal ist. Um die Verteilungen hat als Ausgabegröße diejenige Klasse zu , bei der das zu bestimmen, wird die Beziehung genutzt, da sich die Verteilung aus Stichproben von Merkmalsvektoren von gegeben Vokalen schätzen lassen. Die Verteilung ist die Häufigkeit des Auftretens der Vokale. Die Verteilung wird, wie unten gezeigt wird, nicht benötigt. Der maximum likelihood Ansatz stellt sich dann in der Form 15 dar. Ein häufig verwandter Ansatz ist, die Verteilungen anzunähern: durch Normalverteilungen Hierbei bedeutet der Mittelwert des Merkmalvektors und die Kovarianzmatrix des i-ten Vokals. werden an Hand von Stichprobenwerte der Merkmalsvektoren X, welche von Sprachsignalen des Vokal gemessen wurden, mit den Beziehungen geschätzt. In Bild 3.22 ist beispielhaft die Normalverteilung eines 2 dimensionalen Merkmalvektors und eine Stichprobe gezeigt. Bild 3.25: Links: 2-dimensionaler Merkmalsvektor; Rechts: Stichproben von 3 Klassen Im folgenden benutzen wir die Beziehungen womit sich der maximum likelihood Ansatz in der Form darstellt. 16