Folien - MedUni Wien

Werbung
Wissensbasierte Sprachverarbeitung
Inhalt der Vorlesung
0. Einleitung
i)
ii)
iii)
iv)
Worum geht es?
Aufgaben und Anwendungen
Mehrdeutigkeit - Das Kernproblem
linguistische Grundlagen
I.
Der synthetische Ansatz: Muster – Antwort
II.
Der analytische Ansatz: Regelbasierte Methoden
1. Sprachen und (formale) Grammatiken
i)
ii)
iii)
iv)
v)
Grammatiken und Produktionsregeln
Chomsky-Hierarchie - Komplexität vs. Expressivität
Äquivalenz von Sprachen und Grammatiken
Grammatiken und Automaten
Das Lexikon
2. Syntax - Ein Crashkurs
i) Wörter, Kategorien, Phrasen und Sätze
ii) CF vs. CS und die Grenze zwischen Syntax und Semantik
iii) Tree Adjoining Grammar
3. Parsing
i)
ii)
iii)
iv)
v)
Parsing als Suche
Datenstrukturen: Bäume, Charts und Packed shared forests.
Strategien des Parsing
Methoden des Parsing: Earley-Parser, GLR Parser, RTN Grammar
Reguläres Parsing (Shallow Parsing)
4. Morphologische Verarbeitung
i) Morphologie - Ein Crashkurs
ii) Verarbeitung durch Automaten
iii) Zwei-Ebenen Morphologie
III.
Der statistische Ansatz: Korpusbasierte Methoden
i) Grundlagen statistischer Methoden
ii) Part-of-speech Tagging
iii) Probabilistisches Parsing
5. Generierung und Sprachsynthese
Sprachtechnologie
Beschäftigt sich mit der automatischen Verarbeitung (Analyse und Produktion) und
Bearbeitung gesprochener und geschriebener natürlicher Sprache in einer Art und Weise,
die Wissen über die Funktion von Sprache, bzw. bestimmter ihrer Teilbereiche,
voraussetzt.
Nicht jede Bearbeitung von Text oder gesprochener Sprache beinhaltet also
Sprachtechnologie. Ein einfacher Texteditor etwa kann durchaus ohne Sprachtechnologie
auskommen.
Ein Feld – viele Bezeichnungen:
Computational Linguistics (Computerlinguistik) – Human Language Technology –
Language Engineering – Language Technology (Sprachtechnologie) –Natural Language
Processing – Natural Language Understanding
Sprachtechnologie - Ein interdisziplinäres Fachgebiet:
Analyse
Nachrichtentechnik
Informatik
Signalverarbeitung
Künstliche Intelligenz
Formale Sprachen
SPRACHERKENNUNG
PARSING
gesprochene
Sprache
geschriebene
GENERIERUNG
SPRACHSYNTHESE
Philosophie
Linguistik
theoretische Linguistik
Psycholinguistik
Logik
Epistemologie
Synthese
Anwendungsgebiete
Textbearbeitende Systeme
•
•
•
•
•
Automatische Worttrennung
Automatische Schreibfehlerkorrektur
Grammatik- und Stilüberprüfung (controlled languages)
Stemming bzw. Lemmatisierung
OCR (Optical Character Recognition)
Textanalysierende Systeme
•
•
Textkategorisierung
Informationsextraktion
Textproduzierende Systeme
•
Erzeugen von Texten aus Wissensbasen
Textanalysierende und –produzierende Systeme
•
•
Automatisches Abstrahieren und Zusammenfassen
Maschinelle und maschinenunterstützte Übersetzung
Sprachbearbeitung
•
•
Sprecherverifikation
Sprecheridentifikation
Spracherkennende Systeme
•
•
Diktiersysteme (Speech Writer)
Sprachsteuerung (von Computersystemen)
Sprachproduzierende Systeme
•
•
Vorlesesysteme
Concept-to-Speech
Dialogsysteme (geschrieben und gesprochen)
•
•
•
Beratungs- und Auskunftssysteme
Schnittstellen zu Computersystemen
Augmented und virtual reality
Ambiguität in der natürlichen Sprache
Von Wörtern
z.B. Mutter
• Die Mutter hält ihr Kind.
• Er schraubt die Mutter fest.
z.B. annehmen
• Er nimmt das Geschenk gerne an.
• Er nimmt an, dass er gewinnen wird.
Von Wortformen
z.B. meinen
• Ich repariere meinen Computer.
• Er versteht nicht, was wir meinen.
z.B. sieben
• Sie erzählt das Märchen von den sieben Zwergen.
• Man muss das Mehl sieben.
z.B. ihr
• Er gibt ihr Geld.
• Er gibt ihr Geld aus.
der Referenz anaphorischer Ausdrücke.
z.B. Der Mann hebt den Tisch auf den Lastwagen.
• Er sieht müde aus.
• Er ist sehr schwer.
• Er ist schon fast voll.
der Struktur von Sätzen
z.B. Das Kind fällt das Raubtier an.
z.B. Ich lese ein Buch mit 250 Seiten. vs. Ich lese ein Buch mit großem Interesse.
z.B. The chicken are ready to eat.
dem Skopus von Äußerungen
z.B. Maria ist auch Schauspielerin.
Als Antwort auf:
a) Anna ist Schauspielerin.
b) Maria ist Tänzerin.
von Sprechakten
z.B. Wissen Sie, wie spät es ist?
Antwort:
a) Es ist zehn vor elf.
b) Ja, aber ich konnte nicht früher kommen.
Ein Beispiel struktureller/semantischer Ambiguität
4 Lesarten des Satzes I saw the man on the hill with the telescope.
Die Mehrdeutigkeiten ergeben sich:
• aus den beiden Lesarten Fernrohr und Sternwarte für telescope und
• aus den unterschiedlichen Anbindungen der Phrasen on the hill und with the
telescope.
Linguistische Beschreibungsebenen
Phonetik
beschäftigt sich mit den konkreten akustischen Eigenschaften von Sprache
• untersucht Sprache auf einer akustischen, analogen Ebene
• Sprache als dreidimensionales (Zeit, Frequenz, Intensität) analoges Signal
• Beschreibung und Klassifikation von Lauten
• segmentale Einheit ist das Phon (der Laut)
• suprasegmentale Eigenschaften sind Intonation, Lautheit, Quantität, etc.
Phonologie
beschäftigt sich mit der lautlichen Struktur sprachlicher Äußerungen
• abstrakt, symbolisch
• Beschreibung des Lautsystems von Sprachen
• Sprache als eine Abfolge distinkter, abstrakter Elemente
• die kleinste bedeutungsunterscheidende Einheit ist das Phonem
• Phonem wird realisiert durch ein Phon, bzw. mehrere alternative (Allo)phone
Morphologie
beschäftigt sich mit der Struktur und Bildung von Wörtern
• kleinste bedeutungstragende Einheit ist das Morphem:
– sagst = sagen + 2.Person Singular
• Morpheme werden als Morphe realisiert:
– sagst = sag + st
• Morphologische Ebenen:
– Morphophonologie: rase - rast vs. sage - sagst
– Morphotaktik: wie können Morphe kombiniert werden
– Morphosyntax: Kodierung syntaktischer Information
• Morphologische Prozesse:
– Flexion: sage, sagst, sagt, sagen,...
– Derivation: machen, machbar, Machbarkeit,...
– Komposition: Rotwein, Rotweinglas,...
Syntax
beschäftigt sich mit der Struktur sprachlicher Äußerungen
• “Grammatikalitätsbedingungen”
• beschrieben durch (formale) Grammatik
• die syntaktische Struktur eines bestimmten Satzes wird oft durch einen Satzbaum
beschrieben.
Semantik
beschäftigt sich mit der Bedeutung (dem Sinn) sprachlicher Einheiten (Wörter, Phrasen,
Sätze) unabhängig von Intention und Kontext.
• Ein wesentliches Kriterium ist die Kompositionalität, d.h. die Bedeutung einer
Einheit ergibt sich aus der Kombination der Bedeutung ihrer Subeinheiten.
• Wörter - lexikalische Semantik
• Sätze - Satzsemantik
• Textsemantik
Pragmatik
beschäftigt sich mit dem Gebrauch sprachlicher Äußerungen (Bedeutung im Kontext)
• stellt Beziehung zwischen dem Sinn und der Referenz her
• stellt die Verbindung her zwischen Sprache
– als abstraktem Symbolmanipulationssystem und
– als Kommunikations- und Informationsmedium
Paradigmatische und syntagmatische Relationen
Jede sprachliche Einheit nimmt eine bestimmte Position in einer Kette ein. Damit steht
sie im Schnittpunkt zweier Relationen:
• in paradigmatischer zu allen anderen sprachlichen Einheiten, die an dieser
Position stehen können,
• in syntagmatischer zu den vorher und nachher in der Kette stehenden.
Methoden strukturaler Analyse
Substitution (Ersatzprobe) zum Testen paradigmatischer Relationen
B1.
a. Hans begleitet Maria zu dem Vortrag.
b. Hans begleitet Maria dorthin.
c. Hans begleitet Maria.
Es ist wichtig, darauf zu achten, dass der Kontext konstant bleibt:
B2.
a. viele teure Autos
b. alle teuren Autos
B3.
a. Ich weiß mein Bekannter war dabei.
b. Ich selbst war dabei.
Permutation (Verschiebeprobe) zum Testen syntagmatischer Relationen
B4.
a.
b.
c.
d.
e.
f.
Hans begleitet Maria zu dem Vortrag.
Hans begleitet zu dem Vortrag Maria.
Maria begleitet Hans zu dem Vortrag.
Maria begleitet zu dem Vortrag Hans.
Zu dem Vortrag begleitet Hans Maria.
Zu dem Vortrag begleitet Maria Hans.
Wortarten (-klassen)
•
•
•
•
•
•
•
•
•
•
•
Kategorie
Nomen
o Eigennname
Adjektiv
Artikel
Numeral
Pronomen
o Personalpronmen
o Possessivpronemen
o Indefinitpronomen
o Fragepronomen
o Relativpronomen
Verb
o Modalverb
o Auxiliar
o Kopula
Adverb
Präposition
Konjunktion
Partikel
Interjektion
Abk. Beispiele
N
Sessel, Kranker
PN
Hans, IBM, Österreich
A(dj) krank, groß
Art
der, ein
Num zehn, zehnter, zehntel
Pron
Pers ich, wir, sie
Poss mein, dein
Indef irgendein
Interrog wer, was, wie
Rel
der, welcher
V
fragen, trompeten
Mod wollen, müssen, lassen
Aux haben, sein, werden
sein werden
Adv unten, heute,
P(räp) an, bei, entlang
Konj und, oder, weil, obwohl
wohl, nicht, jedenfalls
bitteschön, plumps
Diese Einteilung stützt sich sowohl auf morphologische als auch auf syntaktische
Eigenschaften, wodurch sie in beiden Ebenen problematisch ist.
Eine rein morphologische Klassifikation erfolgt nach der Art der Flexion, also nach dem
Paradigma eines Wortes, das sind die Wortformen, die zu einem Wort gehören. Danach
können wir 4 große Gruppen unterscheiden:
• Substantivisch flektierend
• Adjektivisch flektierend
• Verbal flektierend
• Nicht flektierend = Partikel
Die syntaktische Klassifikation ergibt sich aus der Distribution der Wörter. Wenn wir
allerdings nach der tatsächlichen Distribution der Wörter gehen, erhalten wir eine
wesentlich feinere Klassifikation als die obige. Betrachten wir folgende Menge an
Wörtern der Klasse Nomina:
{Getränk, Bier, Fanta, Gebräu}
Sätze, in denen diese Wörter auftreten:
• Hans bestellt Bier.
• Hans trinkt das Gebräu ungern.
Daraus ergeben sich folgende zwei Muster:
a) PN Verb_3.P.Sg.präs _ .
b) PN Verb_3.P.Sg.präs das _ Adv .
In a) lässt sich {Bier, Fanta} einsetzen, in b) {Getränk, Bier, Fanta, Gebräu}. Wir
erhalten also 2 unterschiedliche Distributionsklassen.
Konstitutentenstruktur
Analyse eines Satzes in seine unmittelbaren Konstituenten:
Ludwig fährt den Wagen in die Garage
Ludwig | fährt den Wagen in die Garage
Ludwig | fährt den Wagen | in die Garage
Ludwig | fährt | den Wagen | in die Garage
Ludwig | fährt | den | Wagen | in die | Garage
Klammerdarstellung:
[ [Ludwig] [ [ [fährt] [ [den] [Wagen] ] ] [ [in] [ [die] [Garage] ] ] ] ]
Baumdarstellung:
Ludwig fährt den Wagen in die Garage
Die Gruppierung der Syntagmen zu Sätzen ist ein Vorgang, der in strukturierter Weise
durch Regeln angegeben werden kann, die, von den Wortkategorien ausgehend, immer
größerer Konstituenten zusammenfassen.
S → NPNom VP
NP → Art N
NP → PN
PP → Präp NP
VP → V NP
VP → VP PP
Durch Anwendung dieser Regeln erhalten wir dann auch unseren Satz in annotierter
Baumdarstellung:
S
VP
NP Nom
VP
NP
NP
Art N
PN
V
P Art
N
Ludwig fährt den Wagen in die Garage
Man nennt diese Art der Darstellung auch Phrasenstruktur.
Dependenzstruktur
Eine alternative Beschreibung der Struktur von sprachlichen Äußerungen stützt sich auf
den Begriff de Dependenz (Abhängigkeit).
Eine Dependenzrelation besteht dann, wenn zwei Elemente eines Syntagmas in dem
Sinne ungleichberechtigt sind, dass nur eines von ihnen die Kategorie bestimmt. Dieses
letztere Element ist der sogenannte strukturelle Kopf (head) des Syntagmas, alle anderen
sind Dependenten.
Ludwig fahrt den Wagen in die Garage
Alternativ kann man die dependenzstruktur auch als Baum mit gerichteten Kanten
darstellen:
fährt
Ludwig
Wagen
den
in
Garage
die
Bei den Dependenten muss man zwischen notwendigen Ergänzungen, den sogenannten
Aktanten, und freien Angaben, den Zirkumstanten, unterscheiden.
Valenz
Unter den Dependenten eines Wortes unterscheidet man zwischen (obligaten)
Ergänzungen und (freien) Angaben. Ergänzungen (oder Komplemente) zeichnen sich
also dadurch aus, dass sie durch den Kopf des Syntagmas bestimmt werden. Dies
bezeichnet man als die Valenz eines Wortes. Die Valenzen definieren bestimmte
syntaktische (und semantische) Funktionen.
Am wichtigsten ist der Begriff der Valenz bei Verben. Die wichtigsten syntaktischen
Funktionen, die durch die Valenzen von Verben bestimmt werden, sind Subjekt, direktes
Objekt (Akkusativobjekt) und indirektes Objekt.
Auch Nomina und Adjektive (insbesondere von Verben abgeleitete) können Valenzen
haben, z.B. „auf jemanden stolz“, „der von seiner Krankheit Geheilte“.
Verben kann man nach der Anzahl ihrer Ergänzungen einteilen:
0
hageln, schneien, regnen
Es regnet
1
Subj
schlafen, schnarchen
Peter schläft
2
Subj, DObj
essen, kochen, sehen
Peter isst Brot
Subj, IObj
helfen, gedenken
Peter hilft dem Freund
Subj, PObj
warten
Peter wartet auf ihn
3
Subj, DObj, IObj
geben, nennen, lehren
Peter gibt ihm Geld
Subj, DObj, PObj
erinnern
Peter erinnert ihn an Hans
4
Subj, DObj, IObj, PObj vergelten Peter vergilt ihm seine Hilfe mit Dankbarkeit
Eine besondere Stellung nehmen dabei die sogenannten transitiven Verben ein, das sind
solche, die unter ihren Valenzen ein direktes Objekt haben. Alle transitiven Verben sind
in der Form passivierbar, dass das direkte Objekt zum Subjekt des Passivsatzes wird.
Herunterladen