University of Bielefeld Spezielle Themen der KI NLP Natural Language Processing Sprachverstehen University of Bielefeld NLP - Verarbeitungsstufen des Sprachverstehen 2 University of Bielefeld Phonologie und Phonetik Phonologie – Lautlehre oder Sprachgebilde-Lautlehre untersucht • Systeme von Phonemen als kleinsten bedeutungsunterscheidenden Elementen von Sprachen • Laute als Einheiten im System einer Sprache • Phoneminventar durch benutzung von Minimalpaaren, – – • Wörter, die sich nur in einem Laut unterscheiden. Dieser Laut hat dann Phonemstatus. Beispiel: Kutter und Futter -> /k/ und /f/ Notierung der Phoneme durch Internationales Fonetisches Alphabet in /x/. Phonetik - Sprechakt-Lautlehre • Lehre der von Menschen hervorgebrachten Lauten, den Phonen. • Detaillierten Beschreibung von Lauten unabhängig von Systemüberlegungen. • Kleinste Phonologische Repräsentation einer Äußerung: – – – • Sequenz von Einheiten, gekennzeichnet durch Eigenschaften (Merkmale). Eigenschaften können entweder vorhanden (+) oder nicht vorhanden (-) sein. Phonem ist ein Bündel von Merkmalen. (Chomsky und Halle) Notierung der Phone durch Internationales Fonetisches Alphabet. 3 University of Bielefeld Phonologie und Phonetik Beispiele (Wikipedia): • ch im Deutschen wird häufig mit Phonem /x/ notiert, Artikulation – im Bereich des harten Gaumens (palatal): ich [ɪç] – hinten im Mund: (ach [aχ] ). – Unterschied ist nicht bedeutungsunterscheidend: auch • Keine Bedeutungsänderung für ich, wenn statt des Ich-Lautes in ich ein Ach-Laut gesprochen wird, wie es manche Nichtmuttersprachler tun. – Der Ich-Laut und der Ach-Laut sind so genannte Allophone (fonetisch realisierte Varianten eines einzigen Phonems). – Vor Variantenidentifikation zwei verschiedene Phone: • [ç] und [χ]. • s-Laute im Deutschen – Bedeutungsunterscheidend ist Unterschied zwischen stimmhaftem und stimmlosem s. – Zwei Phoneme (/s/ und /z/) unterschiedlicher Schreibweise: (ß oder ss und s): • reißen und reisen unterscheiden sich lediglich in der Stimmhaftigkeit des sLautes • /s/ versus /z/. 4 University of Bielefeld Morphologie und Lexikon Morphologie – Lehre von den Wortformen • Erforschung der kleinsten bedeutungstragenden Elemente einer Sprache, der Morpheme • Klassifiziert Wörter nach – Wortarten und Wortformen (Verb, Substantiv, Adjektiv, Artikel, Pronomen...) und – der Struktur der Wortformen (Fall, Geschlecht bei Nomen, Person, Numerus, Tempus…). • Wortbildung (Gesetzmäßigkeiten zur Bildung neuer komplexer Wörter) und • Flexion (Änderung der Gestalt eines Wortes zum Ausdruck seiner grammatikalischen Funktion innerhalb eines Satzgefüges) Aufgaben der Morphologie: • Zurückführung von Worten auf Grundform und Kategorisierung • Automatische Wortformerkennung neben dem Lexikon Morphologische Phänomene lassen sich formal mit regulären Ausdrücken beschreiben. 5 University of Bielefeld Morphologie und Lexikon Lexikon – Auflistung der bekannten Wörter • möglichst vollständiger Wortschatz einer Sprache • Wortformen und Wortart • Wörterbuch - Bedeutung der Worte und Beziehungen untereinander Modelle für Lexika • Liste aller möglichen Worte • Kombiniert mit der morphologischen Analyse (Regeln) • automatische Systeme zu Nutzung und Auswertung bestehender Lexika 6 University of Bielefeld Morphologie des Deutschen • Flexion: Oberbegriff für Deklination, Konjugation und Komparation Worarten Merkmalsklassen Nomen, Artikel, Pronomen Kasus, Numerus, Genus Adjektive Kasus, Numerus, Genus, Komparation Verben Person, Numerus, Tempus, Modus, Genus verbi Merkmalsklasse Merkmale Numerus Singular, Plural Genus Maskulinum, Femininum, Neutrum Casus Nominativ, Genitiv, Dativ, Akkusativ Person 1. Person, 2. Person, 3. Person Tempus Präsens, Präteritum, Perfekt, Plusquamperfekt, Futur I, Futur II Modus Indikativ, Imperativ, Konjunktiv Genus verbi Aktiv, Passiv Komparation Positiv, Komparativ, Superlativ7 Flexion Deklination Nomen Artikel Adverbien Pronomen • Konjugation Verben nichtflektierbare Wortarten: Beispiele: – Adverbien (z.B. hier), – Konjunktionen (z.B. dass), – Präpositionen (z.B. vor), – Partikel (z.B. denn) Komparation Adjektive University of Bielefeld NLP - Verarbeitungsstufen • Spracherkennung: – Analyse der unbearbeiteten Sprachsignale. – Bestimmung der gesprochenen Worte und ihrer Abfolge. • Syntaktische Analyse: – Die Abfolge der Worte wird mit Grammatikwissen analysiert. – Die Satzstruktur wird bestimmt. • Semantische Analyse: – Bedeutungsdarstellung durch Strukturinformation und Wortbedeutung. • Pragmatische Analyse: – Kontextinformation vervollständigt die Bedeutungsdarstellung aus der semantischen Analyse. 8 University of Bielefeld NLP - Verarbeitungsstufen Syntaktische Analyse Parse Tree Semantische Analyse Symbolische Repräsentation 9 University of Bielefeld NLP - Verarbeitungsstufen 10 University of Bielefeld NLP - Verarbeitungsstufen 11 University of Bielefeld Verarbeitung natürlicher Sprache Spracherkennung • • Aufteilung des Signals in verschiedene Frequenzen Messung der Energie für diese Frequenzen –> Frequenzspektrogramm (FS) • • Zuordnung von elementaren Lauten – Phonen- zu Mustern im FS Suche dieser Muster im Signal – • Statistische Modellierung: – – – – – • Evt. Geschwindigkeitsanpassung durch dynamic time warping (DTW) Wahrscheinlichkeit der Phone Übergangswahrscheinlichkeiten zwischen den Phonen Häufigkeit der Worte Folge der Worte … Benutzung von HMMs zur statistischen Modellierung 12 University of Bielefeld Syntaktische Analyse • • Satzbildung durch Wortkomposition Ausgangspunkt für Bedeutungsanalyse (1) Der Hund fraß den Knochen (2) Der Knochen wurde vom Hund gefressen • Struktur aus Syntaxregeln hilft der Bedeutungsfindung im Gegensatz zu: – Es ist immer das 2. Substantiv, das gefressen wird. • Zerlegung der Bedeutungsfindung auf Basis von syntaktischen Zerlegungen (etwa von Phrasen) (3) sp[Der Hase mit den langen Ohren] erfreute sich an sp[einem großen grünen Salatblatt] • • Bedeutungsfindung durch Komposition der Teilbedeutungen Komposition abhängig von gewählter Clusterung (4) Tim sah Maria mit dem Fernglas (5) Ich sah den Kölner Dom auf dem Flug nach Frankfurt 13 University of Bielefeld Syntaktische Analyse: Parse-Trees (Strukturbäume) (gehört zum Wissen über die Sprache) 14 University of Bielefeld Syntaktische Analyse: Grammatiken Vgl.: Grammatik G = ( Φ, Σ, R, S ) aus der Vorlesung Theor. Informatik 15 University of Bielefeld Syntaktische Analyse: Grammatik und ein Parse-Tree s-maj s-maj –> s final-punc s –> np vp vp –> verb np np –> det noun np –> proper-noun det –> the noun –> boy noun –> frog verb –> ate verb –> loves proper-noun –> Jack proper-noun –> Bill ... final-punc –> . s final-punc np proper-noun vp verb np det Bill loves the noun frog . 16 University of Bielefeld Subjekt-Verb-Kongruenz 3s 3p Singular Plural Abkürzg. 1s Beispie l hungry. I am Abkürzg. 1p Beispie Wel are hungry. zweite Person 2s You are hungry. 2p You are hungry. dritte Person 3s She is hungry. 3p They are hungry. erste Person 17 University of Bielefeld Lexikon-Einträge für den Parser • Aufbau eines Lexikons z.B. mit einer Funktion „dictionary“ • Jeder Lexikon-Eintrag hat eine der folgenden Formen: (word part-of-speech feature-assignments– ) (word root-form part-of-speech – feature-assignments– ) optional – (dictionary (a det) (be auxverb (tense = tenseless)) (is be auxverb (tense = present) (v-number = 3s)) (block noun) (block verb) (can modal (v-number =1s 2s 3s 1p 2p 3p)) (do modal) (did do modal (tense = past) (v-number = 1s 2s 3s 1p 2p 3p)) (fish noun (n-number = 3s 3p)) (frog noun) 18