Linguistische Grundlagen für die maschinelle Sprachverarbeitung

Werbung
Linguistische Grundlagen für die
maschinelle Sprachverarbeitung
Torsten Andreas
unter Verwendung der Folien von Anke Lüdeling
Institut für deutsche Sprache und Linguistik
[email protected]
http://www.linguistik.hu-berlin.de/korpuslinguistik
Überblick
• Was ist Linguistik?
• linguistische Beschreibungsebenen
(Phonetik, Phonologie, Morphologie,
Syntax, Semantik, Pragmatik)
Was ist Linguistik?
Was ist Linguistik?
• Linguistik beschäftigt sich mit
– der Beschreibung und Modellierung von Sprachdaten
– den zugrundeliegenden Regularitäten
(Regeln, statistische Muster, Constraintmengen, ...)
– menschlicher Sprachverarbeitung (mentale Prozesse),
Spracherwerb, Sprachverwendung
– Entwicklung und Veränderung von Sprache
– Sprache als sozialem Phänomen, Kommunikation
– ...
Linguistik
• …die Anfänge
• früheste erhaltene Diskussion über
• Sprache: Platon (427-347)
Kratylos
Zusammenhang von Wortform und
Bedeutung willkürlich ?
Linguistik
• 19. Jhd.: Sprachvergleich (Sprachstammbäume),
Beschreibung von Veränderung (Diachronie),
• Beginn 20. Jhd.: Strukturalismus, Entwicklung
von formalen Beschreibungsmitteln (Synchronie)
• seit Chomsky 1957 generatives Paradigma –
Grundgedanken Basis vieler formal
unterschiedlicher Theorien
(Government & Binding, Minimalismus, HeadDriven Phrase Structure Grammar, Lexical
Functional Grammar, ...)
Generative Linguistik
• SprecherInnen einer Sprache können
unendlich viele Ausdrücke (Wörter, Sätze)
– also auch solche, die sie nie vorher gehört
haben – produzieren und verstehen
... unendlich viele Ausdrücke ...
• Rekursion
... unendlich viele Ausdrücke ...
• Rekursion
– Syntax
der Bezug des Bettes des Hotels des Ermittlungsteams
der Ursache des Absturzes des Systems ...
– Morphologie
Superstarauswahlveranstaltungsterminabsprachedialog
systemabsturzursachenermittlungsteamhotelbettbezug
• Konjunktion (Aufzählung)
Am Sonntag fraß sie sich durch einen Apfel, zwei Bananen,
drei Tomaten, vier Gurken, fünf Schokotörtchen, sechs ....
... unendlich viele Ausdrücke ...
• Hinzufügen neuer Basiselemente z.B. durch
Entlehnung (email, to go) oder
Kreativität (Handy, unkaputtbar)
• semantische Prozesse
Generative Linguistik
• SprecherInnen einer Sprache können
unendlich viele Ausdrücke (Wörter, Sätze)
– also auch solche, die sie nie vorher gehört
haben – produzieren und verstehen
• d.h., Untersuchungsgegenstand ist das
zugrundeliegende Produktionssystem, das
alle und nur die grammatischen Ausdrücke
einer Sprache erzeugt
Generative Linguistik
• es gibt Sprachzentren im menschlichen
Gehirn, die Produktionssysteme für
menschliche Sprachen restringieren
• Evidenz
– Universalien
– Spracherwerb
• generative Produktionssysteme: kategorial
(meist kontextfreie Regeln)
Exkurs: Sprache und Gehirn
Exkurs: Sprache und Gehirn
• wo 'wohnt' Sprache?
• wie entstand Sprache/Sprachfähigkeit in der
Evolution des Menschen?
• was macht Sprachfähigkeit aus? Ist Sprache
eine exklusiv menschliche Fähigkeit?
• wie restringiert das Gehirn/die körperliche
Einbettung Sprache?
Wo ist die Sprachfähigkeit
lokalisiert?
•Broca-Aphasie
(motorische Aphasie):
Sprachproduktion/
Spontansprache gestört,
Agrammatismus
•Wernicke-Aphasie
(rezeptive Aphasie):
Sprachverständnis gestört,
Sprache flüssig, allerdings
entstellt, Neologismen
•in Wirklichkeit ist alles viel komplizierter ...
Wo ist die Sprachfähigkeit
lokalisiert?
• psycholinguistische Experimente: sprachliches Verhalten
lässt Rückschlüsse auf Organisation von verschiedenen
'Komponenten' der Sprachfähigkeit zu
– Speicherung von Einheiten vs. Regelanwendung
– ...
• Imaging-Techniken (z. B. fMRI): Gehirnaktivität bei
bestimmten Aufgaben (Nachsprechen eines Wortes,
Beantworten einer Frage, Reaktion auf fehlerhafte Sätze,
...) wird gemessen
– bei Sprachproduktion und –rezeption Aktivität in verschiedenen
Bereichen des Gehirns (nicht nur Wernicke und Broca)
– unterschiedliche Fehler (Syntax vs. Semantik) werden in
verschiedenen Bereichen verarbeitet
– ...
Sprachfähigkeit angeboren?
• Sprache als soziales (gelerntes) Phänomen ?
• zu erklären ist
–
–
–
–
–
es gibt kein Volk ohne Sprache
es gibt keine 'primitiven' Sprachen
es gibt sprachliche Universalien
Kreolisierung
Sprachfähigkeit ist nicht unmittelbar korreliert
mit Intelligenz (oder sozialer Klasse)
Sprachfähigkeit angeboren?
• Lernproblem: Spracherwerb läuft bei allen
Kindern ungefähr gleich ab
• Sprache ist zu komplex, als dass sie einfach
gelernt werden kann, zu wenig Input, kaum
negative Evidenz
• Chomsky: es muss ein angeborenes
Sprachlern'modul' (Language Acquisition Device)
geben – Kinder lernen dann nur bestimmte
'Parameter' (Kinder 'entdecken' Grammatik)
Sprache = Instinkt?
• "the instinct to learn, speak and understand
language" [...] "Language is not a cultural
artifact that we learn the way we learn to
tell time or how the federal government
works. Instead it is a distinct piece of the
biological makeup of our brains."
(Pinker 1994, 17f)
Co-Evolution von Sprache und
Gehirn
• Deacon (1998)
– ein spezielles 'Sprachorgan' nicht nötig
– Menschen haben ein ungewöhnlich großes Gehirn
(Gehirn-Haut-Relation) – daher mehr Kapazität,
Symbole zu verarbeiten und in Symbolen zu denken
– Sprache ist ein Produkt der allgemeinen
Organisation/Entwicklung des Gehirns
– kritische Phase des Sprachlernens unterstützt durch
korgnitive Entwicklung von Kindern
– Sprache entwickelt sich so, dass sie von Kindern
leichter gelernt werden kann
 ein Faktor für Sprachwandel ist der Filter durch Kinder
Statistische Ansätze
• statistische Ansätze beziehen sich im Gegensatz
dazu auf die Regularitäten in großen
Textsammlungen (Textkorpora) – Muster,
Häufigkeiten, Verteilungen, …
• Ziel: Modelle, die real vorkommenden Text
möglichst genau abbilden und daraus Hypothesen
für ungesehene Ereignisse ableiten
Überblick
• Was ist Linguistik?
• linguistische Beschreibungsebenen
(Phonetik, Phonologie, Morphologie,
Syntax, Semantik, Pragmatik)
Linguistische
Beschreibungsebenen
• traditionell werden (mindestens) folgende
Beschreibungsebenen unterschieden
–
–
–
–
–
–
Phonetik – Laut
Phonologie – Lautsystem
Morphologie – Struktur von Wörtern
Syntax – Struktur von Phrasen & Sätzen
Semantik – Bedeutung
Pragmatik – Verwendung
Phonetik
• Produktion und Systematik von
Sprachlauten – Phon
• artikulatorische Phonetik: Laute werden
anhand des
Artikulationsortes und der
Artikulationsart klassifiziert
Phonetik
•
Nasenhöhle
postalveolar
dental alveolar
palatal
Nasopharynx
labial
velar
Oropharynx
Unterlippe
Unterkiefer
uvular
pharyngal
Zunge
Hyoid
epiglottal
Epiglottis
Glottis
Thyroid
Cricoid
laryngal
Sagittalschnitt
durch das
Ansatzrohr
(dunkelgrau:
knöcherne,
hellgrau:
knorpelige
Strukturen;
kursiv:
Artikulationsst
ellenbezeichnu
ngen).
Abb. aus
PompinoMarschall
2003
Phonetik
• Artikulationsort
– bilabial [b] [p] [m]
– alveolar [t] [d] [n] [s] [z] [l] [r]
– ...
• Artikulationsart
– stimmhaft (Stimmlippen schwingen) vs. stimmlos
[b] – [p], [d] – [t]
– nasal (Luft entweicht auch durch die Nase) vs. oral
[m] – [b]
– ...
Konsonanten, http://www.arts.gla.ac.uk/IPA/pulmonic.html
Das Konsonantensystem im Deutschen
Pompino-Marschall 2003, S. 265
Das Vokalsystem im Deutschen
Pompino-Marschall 2003, S. 266
Phonologie
Phonologie
• Lautsystem einer Sprache
– bedeutungsunterscheidende Laute
innerhalb einer Sprache – Phoneme
– Silbenstruktur
– Prosodie
Phonologie
• bedeutungsunterscheidende Laute werden durch
die Bildung von Minimalpaaren gefunden
Hase vs. Nase, Schal vs. Schaf
→ [h], [n], [f], [l] sind Phoneme des Deutschen
• dt. /r/: [r] oder [R] oder [χ] oder ...
Varianten nicht bedeutungsunterscheidend
→ es wird nur ein Phonem für /r/ angenommen
• Phoneminventar einer Sprache
• Silbenmodelle einer Sprache
• Prosodie/Betonungsmuster für die Silben
Probleme für ASR (automatic speech
recognition) und TTS (text-to-speech)
• Segmentierung des kontinuierlichen
Sprachsignals
• Unterschiede zwischen SprecherInnen
• Ambiguitäten
• Produktivität/unbekannte Wörter
• wenig Linguistik – viel Statistik
Morphologie
Morphologie
Flexion
lachte
Menschen
Wortbildung
Derivation
Häuschen, lesbar
Kurzwortbildung
Konversion
SchlafN → schlafV
Automobil → Auto
Komposition
...
Haustür, hellblau
Morphologie
• Aufbau von komplexen Wörtern
Haustür → Haus•tür
lachte → lach•te
Unabhängigkeit → Un•ab•häng•ig•keit
• Einteilung in bedeutungs- oder
funktionstragende (grammatische Funktion, z.B.
1.Pers. Sg. Präsens) Elemente - Morpheme
Morphologie
• Morphem:
– Stamm: Morphem, das auch alleine stehen kann
Haus, Tür, lach, rot ...
– Affix (Präfix, Suffix): Morphem, das nicht
alleine stehen kann
-bar, -te, -keit, -ung, ver-, ent-, un- ...
(Vorsicht: Verwendung von 'Präfix' und 'Suffix' in der Linguistik
unterscheidet sich von der Verwendung von 'Präfix' und 'Suffix' in
der Informatik)
Morphologie
• nicht nur Analyse, auch Strukturbildung
• Struktur abhängig von Aufbauprinzipien –
spiegelt die Interpretation (Semantik) des
komplexen Wortes
Un•ab•häng•ig•keit
((Un•((ab•häng)•ig))•keit)
Morphologie
•
•
•
•
Was ist die Bedeutung von Fischfrau?
LKW-Fahrer, Möbelfahrer, Geisterfahrer
Kleinkunstwerk ?
Apfelkuchen, Marmorkuchen, Vollkornkuchen,
Hundekuchen
• *Einsamheit, *Schönkeit
Morphologie in der
Computerlinguistik
• Flexionsmorphologie zur Lemmatisierung
(Rückführung auf eine Grundform – Lemma)
zumeist regelbasiert: Zwei-Ebenen-Morphologie
(Endliche Automaten) – einigermaßen gut gelöst
für viele Sprachen
• Wortbildung – Problem Produktivität (Bildung
von ungesehenen Wörtern) – hohe
Strukturambiguität – bisher keine richtig gute
Lösung für's Deutsche
Syntax
Syntax
• Zusammensetzung von komplexen
Ausdrücken aus Wörtern
• Struktur abhängig von Aufbauprinzipien,
beschreibt die Interpretation eines
komplexen Ausdrucks
Syntax – Phrasen
• Ersetzbarkeit
George Bush lässt sich nicht einschüchtern
Der amerikanische Präsident lässt sich nicht
einschüchtern
Der Präsident der Vereinigten Staaten ...
Der Präsident, der von weniger als der Hälfte der
amerikanischen Wähler gewählt wurde, ...
*Präsident lässt sich nicht einschüchtern.
*amerikanische lässt sich nicht einschüchtern
(* steht für 'ungrammatisch')
Syntax – Phrasen
• Ersetzbarkeit
George Bush lässt sich nicht einschüchtern.
Der amerikanische Präsident lässt sich nicht
einschüchtern.
Der Präsident der Vereinigten Staaten ...
Der Präsident, der von weniger als der Hälfte der
amerikanischen Wähler gewählt wurde, ...
• die blauen Sequenzen bilden Konstituenten
desselben Typs, d.h., man kann sie durcheinander
ersetzen, ohne dass der Satz ungrammatisch wird
Syntax – Phrasen
• solche Konstituenten werden Phrasen
genannt
Nominalphrase (NP)
Verbalphrase (VP)
Adjektivphrase (AP)
...
Syntax – Phrasenstrukturbäume
• Phrasen werden zu Bäumen (oder Graphen)
zusammengesetzt
• Aufgabe der Syntax ist es
– die Art der Phrasen in einer Sprache zu finden
– die interne Struktur der Phrasen zu finden
– die Kombinationsmöglichkeiten für Phrasen zu
finden
aus dem TIGER-Korpus (Baumbank, deutsche Zeitungstexte)
Ambiguität
• Syntax
–
–
–
–
[[alte Männer] und Frauen]
[alte [Männer und Frauen]]
ich sah den Mann mit dem Fernrohr
ich sehe ihn laufend
Ambiguität
• kategorielle und strukturelle Ambiguität
bedingen einander
John
saw
her
NE
NE
V
V
Possessivpron.
Personalpron.
duck [under the
table]
N
PP
V
PP
Syntax – Computerlinguistik
• Ziel: automatisches Parsing
(den Ausdrücken soll eine syntaktische
Struktur zugewiesen werden)
• Verfahren:
– regelbasiert
– statistisch (auf Baumbank trainiert oder
untrainiert)
• Problem: hohe strukturelle Ambiguität
Semantik
Semantik
• Bedeutung von
Wörtern (lexikalische Semantik) und
Phrasen (kompositionelle Semantik)
Semantik: lexikalische Semantik
• Ziel: Formale Beschreibung von semantischen
Einheiten und Beziehungen
– Polysemie, Homonymie, Vagheit …
– Hyponyme, Hyperonyme, …
• vollständige Beschreibung der semantischen
Eigenschaften des Wortschatzes einer Sprache
durch Merkmalsbündel (+ Vererbung):
z. B. konkret, belebt, Artefakt, ...
Lexikalische Semantik
• lexikalische Zerlegung in atomare Ausdrücke (semantische
Primitive)
X tötet Y
X macht, dass es dazu kommt, dass es nicht mehr
der Fall ist, dass Y lebt
CAUSE(X, BECOME(NOT(ALIVE(Y))))
• semantische Eigenschaften bestimmen
Kombinationsmöglichkeiten von Elementen:
Verbklassen und Adverbien
Hans erreicht in drei Stunden den Gipfel.
#Hans erreicht drei Stunden lang den Gipfel.
Hans rannte drei Stunden lang
#Hans rannte in drei Stunden (aber: resultativ ok)
Semantik: Textsemantik
• Bedeutung von Texten
(= Wörter und Sätze im Kontext)
• z.B. Bedeutung von (vielen) Pronomen erst im
Kontext bestimmbar
• z.B. Informationsstruktur
(alte vs. neue Information)
Probleme
• Idiome: im Eimer sein, ins Gras beißen
• Kollokationen: Rede halten, Zähne putzen, starker
Raucher vs. guter Esser
• Zitate, Titel, Klischees, …
Pragmatik
Pragmatik
• Das Fenster ist offen!
• Ich gehe!
• Dort ist die Tür!
Pragmatik
(entdeckt am Bücherstand der HU von E. Lang)
Frauen
½ Ladenpreis
Pragmatik
• Grice’sche Maximen: Kooperationsprinzip
– Ökonomie
– Ironie
• Präsupposition, Implikaturen, …
Zusammenspiel der
Komponenten
Semantik/
Morphologie/
Phonetik/
Pragmatik
Syntax
Phonologie
Der Mann will
heute ...
λx[mann(x) & ...
Vielen Dank!
Herunterladen