STdKINLPVerarbeitungsstufen

Werbung
University of Bielefeld
Spezielle Themen der KI
NLP
Natural Language Processing
Sprachverstehen
University of Bielefeld
NLP - Verarbeitungsstufen des
Sprachverstehen
2
University of Bielefeld
Phonologie und Phonetik
Phonologie – Lautlehre oder Sprachgebilde-Lautlehre untersucht
• Systeme von Phonemen als kleinsten bedeutungsunterscheidenden Elementen
von Sprachen
• Laute als Einheiten im System einer Sprache
• Phoneminventar durch benutzung von Minimalpaaren,
–
–
•
Wörter, die sich nur in einem Laut unterscheiden. Dieser Laut hat dann Phonemstatus.
Beispiel: Kutter und Futter -> /k/ und /f/
Notierung der Phoneme durch Internationales Fonetisches Alphabet in /x/.
Phonetik - Sprechakt-Lautlehre
• Lehre der von Menschen hervorgebrachten Lauten, den Phonen.
• Detaillierten Beschreibung von Lauten unabhängig von Systemüberlegungen.
• Kleinste Phonologische Repräsentation einer Äußerung:
–
–
–
•
Sequenz von Einheiten, gekennzeichnet durch Eigenschaften (Merkmale).
Eigenschaften können entweder vorhanden (+) oder nicht vorhanden (-) sein.
Phonem ist ein Bündel von Merkmalen. (Chomsky und Halle)
Notierung der Phone durch Internationales Fonetisches Alphabet.
3
University of Bielefeld
Phonologie und Phonetik
Beispiele (Wikipedia):
•
ch im Deutschen wird häufig mit Phonem /x/ notiert, Artikulation
– im Bereich des harten Gaumens (palatal): ich [ɪç]
– hinten im Mund: (ach [aχ] ).
– Unterschied ist nicht bedeutungsunterscheidend: auch
• Keine Bedeutungsänderung für ich, wenn statt des Ich-Lautes in ich ein Ach-Laut
gesprochen wird, wie es manche Nichtmuttersprachler tun.
– Der Ich-Laut und der Ach-Laut sind so genannte Allophone (fonetisch
realisierte Varianten eines einzigen Phonems).
– Vor Variantenidentifikation zwei verschiedene Phone:
• [ç] und [χ].
•
s-Laute im Deutschen
– Bedeutungsunterscheidend ist Unterschied zwischen stimmhaftem und
stimmlosem s.
– Zwei Phoneme (/s/ und /z/) unterschiedlicher Schreibweise: (ß oder ss und s):
• reißen und reisen unterscheiden sich lediglich in der Stimmhaftigkeit des sLautes
• /s/ versus /z/.
4
University of Bielefeld
Morphologie und Lexikon
Morphologie – Lehre von den Wortformen
• Erforschung der kleinsten bedeutungstragenden Elemente einer Sprache,
der Morpheme
• Klassifiziert Wörter nach
– Wortarten und Wortformen
(Verb, Substantiv, Adjektiv, Artikel, Pronomen...) und
– der Struktur der Wortformen
(Fall, Geschlecht bei Nomen, Person, Numerus, Tempus…).
• Wortbildung (Gesetzmäßigkeiten zur Bildung neuer komplexer Wörter) und
• Flexion (Änderung der Gestalt eines Wortes zum Ausdruck seiner grammatikalischen
Funktion innerhalb eines Satzgefüges)
Aufgaben der Morphologie:
• Zurückführung von Worten auf Grundform und Kategorisierung
• Automatische Wortformerkennung neben dem Lexikon
 Morphologische Phänomene lassen sich formal mit regulären Ausdrücken
beschreiben.
5
University of Bielefeld
Morphologie und Lexikon
Lexikon – Auflistung der bekannten Wörter
• möglichst vollständiger Wortschatz einer Sprache
• Wortformen und Wortart
• Wörterbuch - Bedeutung der Worte und Beziehungen untereinander
Modelle für Lexika
• Liste aller möglichen Worte
• Kombiniert mit der morphologischen Analyse (Regeln)
• automatische Systeme zu Nutzung und Auswertung bestehender Lexika
6
University of Bielefeld
Morphologie des Deutschen
•
Flexion: Oberbegriff für Deklination,
Konjugation und Komparation
Worarten
Merkmalsklassen
Nomen, Artikel, Pronomen
Kasus, Numerus, Genus
Adjektive
Kasus, Numerus, Genus,
Komparation
Verben
Person, Numerus, Tempus,
Modus, Genus verbi
Merkmalsklasse
Merkmale
Numerus
Singular, Plural
Genus
Maskulinum, Femininum,
Neutrum
Casus
Nominativ, Genitiv, Dativ,
Akkusativ
Person
1. Person, 2. Person, 3.
Person
Tempus
Präsens, Präteritum,
Perfekt, Plusquamperfekt,
Futur I, Futur II
Modus
Indikativ, Imperativ,
Konjunktiv
Genus verbi
Aktiv, Passiv
Komparation
Positiv, Komparativ,
Superlativ7
Flexion
Deklination
Nomen
Artikel
Adverbien
Pronomen
•
Konjugation
Verben
nichtflektierbare Wortarten:
Beispiele:
– Adverbien (z.B. hier),
– Konjunktionen (z.B. dass),
– Präpositionen (z.B. vor),
– Partikel (z.B. denn)
Komparation
Adjektive
University of Bielefeld
NLP - Verarbeitungsstufen
• Spracherkennung:
– Analyse der unbearbeiteten Sprachsignale.
– Bestimmung der gesprochenen Worte und ihrer Abfolge.
• Syntaktische Analyse:
– Die Abfolge der Worte wird mit Grammatikwissen analysiert.
– Die Satzstruktur wird bestimmt.
• Semantische Analyse:
– Bedeutungsdarstellung durch Strukturinformation und
Wortbedeutung.
• Pragmatische Analyse:
– Kontextinformation vervollständigt die Bedeutungsdarstellung
aus der semantischen Analyse.
8
University of Bielefeld
NLP - Verarbeitungsstufen
Syntaktische
Analyse
Parse
Tree
Semantische
Analyse
Symbolische
Repräsentation
9
University of Bielefeld
NLP - Verarbeitungsstufen
10
University of Bielefeld
NLP - Verarbeitungsstufen
11
University of Bielefeld
Verarbeitung natürlicher Sprache
Spracherkennung
•
•
Aufteilung des Signals in verschiedene Frequenzen
Messung der Energie für diese Frequenzen –> Frequenzspektrogramm (FS)
•
•
Zuordnung von elementaren Lauten – Phonen- zu Mustern im FS
Suche dieser Muster im Signal
–
•
Statistische Modellierung:
–
–
–
–
–
•
Evt. Geschwindigkeitsanpassung durch dynamic time warping (DTW)
Wahrscheinlichkeit der Phone
Übergangswahrscheinlichkeiten zwischen den Phonen
Häufigkeit der Worte
Folge der Worte
…
Benutzung von HMMs zur statistischen Modellierung
12
University of Bielefeld
Syntaktische Analyse
•
•
Satzbildung durch Wortkomposition
Ausgangspunkt für Bedeutungsanalyse
(1) Der Hund fraß den Knochen
(2) Der Knochen wurde vom Hund gefressen
•
Struktur aus Syntaxregeln hilft der Bedeutungsfindung im
Gegensatz zu:
– Es ist immer das 2. Substantiv, das gefressen wird.
•
Zerlegung der Bedeutungsfindung auf Basis von syntaktischen
Zerlegungen (etwa von Phrasen)
(3) sp[Der Hase mit den langen Ohren] erfreute sich an sp[einem großen
grünen Salatblatt]
•
•
Bedeutungsfindung durch Komposition der Teilbedeutungen
Komposition abhängig von gewählter Clusterung
(4) Tim sah Maria mit dem Fernglas
(5) Ich sah den Kölner Dom auf dem Flug nach Frankfurt
13
University of Bielefeld
Syntaktische Analyse:
Parse-Trees (Strukturbäume)
(gehört zum
Wissen über
die Sprache)
14
University of Bielefeld
Syntaktische Analyse:
Grammatiken
Vgl.: Grammatik
G = ( Φ, Σ, R, S )
aus der Vorlesung
Theor. Informatik
15
University of Bielefeld
Syntaktische Analyse:
Grammatik und ein Parse-Tree
s-maj
s-maj –> s final-punc
s –> np vp
vp –> verb np
np –> det noun
np –> proper-noun
det –> the
noun –> boy
noun –> frog
verb –> ate
verb –> loves
proper-noun –> Jack
proper-noun –> Bill
...
final-punc –> .
s
final-punc
np
proper-noun
vp
verb
np
det
Bill
loves
the
noun
frog
.
16
University of Bielefeld
Subjekt-Verb-Kongruenz
3s
3p
Singular
Plural
Abkürzg.
1s
Beispie
l hungry.
I am
Abkürzg.
1p
Beispie
Wel are hungry.
zweite Person
2s
You are hungry.
2p
You are hungry.
dritte Person
3s
She is hungry.
3p
They are hungry.
erste Person
17
University of Bielefeld
Lexikon-Einträge
für den Parser
• Aufbau eines Lexikons z.B. mit einer
Funktion „dictionary“
• Jeder Lexikon-Eintrag hat eine der
folgenden Formen:
(word part-of-speech feature-assignments– )
(word root-form part-of-speech –
feature-assignments– )
optional
–
(dictionary
(a det)
(be auxverb (tense = tenseless))
(is be auxverb (tense = present)
(v-number = 3s))
(block noun)
(block verb)
(can modal
(v-number =1s 2s 3s 1p 2p 3p))
(do modal)
(did do modal (tense = past)
(v-number = 1s 2s 3s 1p 2p 3p))
(fish noun (n-number = 3s 3p))
(frog noun)
18
Herunterladen