CL_All - Sprachliche Informationsverarbeitung

Werbung
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 07/08
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Was ist Computerlinguistik?
• Fragestellung
• Nachbardisziplinen
• Wissensbereiche
• Zur Geschichte
• Forschung und Anwendungen
• Semesterprogramm
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Fragestellung (I)
Computerlinguistik ist der Forschungsbereich,
der sich mit allen denkbaren Schnittstellen
zwischen menschlicher Sprache und
künstlichen Rechnersystemen beschäftigt.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Fragestellung (II)
Computerlinguistik als ...

Teildisziplin der Linguistik

Linguistische Datenverarbeitung

Maschinelle Sprachverarbeitung

Sprachtechnologie
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Nachbardisziplinen (I)
Linguistik
CL
Psycholing.
Informatik
Psychologie
KI
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Nachbardisziplinen (II)
Linguistik:
Informatik:
Philosophie:
KI:
Untersuchungsgegenstand, Termini
Algorithmen und Datenstrukturen
Verhältnis Sprache - Denken - Handeln
Such- und Planverfahren
Wissensrepräsentation
Wissensverarbeitung
Kognitionswissenschaft:
Verhältnis zw. Sprachverarbeitung und
allgemeinen Denkprozessen
Mathematik: Logik – Automatentheorie und formale
Sprachen – Graphentheorie – Statistik
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Wissensbereiche
Horizontale Unterscheidung
a) Phonetik und Phonologie: Artikulatorische Merkmale; Lautstruktur
b) Morphologie: Bildung und Struktur von Wörtern
c) Syntax: Strukturbildung von Sätzen, Zusammenhang von Wörtern
d) Semantik: Bedeutung sprachlicher Einheiten; Kompositionalität
e) Pragmatik: Zweck sprachlicher Äußerungen
- ebenenübergreifende Bereiche: z.B. Prosodie
Vertikale Unterscheidung
a) Repräsentation von Wissen vs. Modellierung der Prozesse dieses
Wissens
b) Unterscheidung von Wissensebenen, Analyse (Parsing) und
Produktion (Generierung)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Architektur eines natürlichsprachlichen
Systems
Analyse (Parsing)
Formalismen und
Wissensquellen
Morphologie
Syntax
Lexikon
Diskurs-/ Dialoggedächtnisse
Semantik
Welt- und Diskursbereichswissen
Generierung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Zur Geschichte


Wechselnde Vorherrschaft von symbolischer und
statistischer (bisweilen subsymbolischer) Ansätze der
Sprachverarbeitung
Kompromiss zwischen Anspruch und Wirklichkeit
(keine endgültige Lösung in Sichtweite)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Forschung und Anwendungen
Theoretische Computerlinguistik:
Suche nach komplexen Beschreibungsformalismen, die
gleichzeitig handhabbar und effizient sind.
Praktische Computerlinguistik:
Entwicklung und Erforschung realitätsnaher
Anwendungen
-> natürlichsprachliche Kommunikation auf der
Maschine
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Semesterprogramm
1. Allgemeine Einführung in die Grundbegriffe von
Computerlinguistik und Sprachwissenschaft
2. Methoden der (Computer)Linguistik: Phonologie,
Morphologie, Syntax, Semantik
3. Ressourcen für computerlinguistisches Arbeiten und
ihre Anwendung
4. Parsing und formale Grammatikformalismen
5. Maschinelle Übersetzung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Literatur / Hausaufgabe
Zur Nachbereitung:
Lesen Sie: Carstensen et al. (2001): Kapitel 1 (S. 1-23)
Zur Vorbereitung:
Lesen Sie: Vater (1994): Kapitel 1 (S. 11-26)
Die Texte finden sich in den Seminarordnern
(in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im
Institut)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 07/08
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Einführung in die Grundgedanken von
Sprachwissenschaft/Linguistik

Strukturalismus


Sprachwissenschaft Anfang bis Mitte des 20. Jhdts
Kognitivismus

Linguistik Mitte bis Ende des 20. Jhdts
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Strukturalismus
„Sprache als präzise erfassbares, formal exakt
darstellbares relationales System von formalen
Elementen“
(aus Bußmann)
Hauptwerk und Begründung der modernen Sprachwissenschaft:
Ferdinand de Saussure: Cours de linguistique général
(1916)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Strukturalismus - Grundlegende
Unterscheidungen (I)
Sprache kann unter drei verschiedenen Aspekten
betrachtet werden:

Langue: in allen Sprecher einer Sprache gespeichertes
System (Sprachsystem)

Parole: aktuelle Sprachtätigkeit in bestimmten
Situationen (Sprachgebrauch)

Faculté de langage: generelle Fähigkeit zum Erwerb
und Gebrauch von Sprache
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Strukturalismus - Grundlegende
Unterscheidungen (II)
Sprache im Sinne von Langue ist ein System von Zeichen
(und damit Teildisziplin der Semiotik).
Jedes Zeichen besteht aus zwei - sich gegenseitig
bedingenden - Aspekten:

Signifiant: konkreter, materieller Zeichenkörper
(Ausdrucksseite - Bezeichnendes)

Signifiée: begriffliches Konzept
(Inhaltsseite - Bezeichnetes)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Strukturalismus - Grundlegende
Unterscheidungen (III)

Konzept des distiktiven Prinzips

syntagmatische vs. paradigmatische Ebene

Segmentierung vs. Klassifizierung

synchrone vs. diachrone Sprachwissenschaft
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Kognitivismus (auch: Generative Grammatik)
Sprache (besser: Sprachfähigkeit) als genetisch
determiniertes (menschliches) Organ, das sich in
Konfrontation mit Sprachdaten ausbildet.
Abgrenzung vom Strukturalismus:
Nicht nur Beobachtung und Beschreibung der menschlichen Sprache ist Gegenstand der Sprachforschung,
sondern v.a. auch die mentalen Grundlagen des
Spracherwerbs.
Begründung der generativen Grammatik:
Noam Chomsky: Syntactic Structures (1957)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Kognitivismus - Grundlegende
Unterscheidungen (III)
Grammatik kann als Theorie einer Sprache angesehen
werden. Sie ist

Beobachtungsadäquat (Ä1), wenn sie korrekte, intersubjektiv verwertbare Aufzeichnungen von Sprachdaten
ermöglicht

Beschreibungsadäquat (Ä2), wenn sie Ä1 und die korrekte Beschreibung der Kompetenz eines idealisierten
Sprecher/Hörers ermöglicht

Erklärungsadäquat (Ä3), wenn sie Ä2 und eine Möglichkeit zur Erklärung des Spracherwerbs liefert
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Kognitivismus - Grundlegende
Unterscheidungen (I)

Universalgrammatik (UG) - biologisch determinierter
kognitiver Ausgangszustand des Sprachorgans

Kompetenz - Fähigkeit eines idealisierten Sprecher/
Hörers, Sprache anzuwenden, entwickelt sich aus UG

Performanz - Tatsächliche Sprachverwendung, teils
fehlerhafter sprachlicher Output
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Kognitivismus - Grundlegende
Unterscheidungen (II)

Organisation der Universalgrammatik in

Prinzipien (sprachübergreifende Wohlgeformtheitsbedingungen) und

Parameter (sprachspezifische
Parametrisierungen)

Organisation der Kompetenz in interagierende Module:

phonologisches Modul

morphologisches Modul

syntaktisches Modul

semantisches Modul ...
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Literatur / Hausaufgabe
Zur Nachbereitung:
Lesen Sie: Vater (1994): Kapitel 1 (S. 11-26)
Zur Vorbereitung:
Lesen Sie: Vater (1994): Kapitel 2 (S. 27-68)
Die Texte finden sich in den Seminarordnern
(in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im
Institut)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 07/08
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Phonetik und Phonologie

Abgrenzung

Phonetik


Unterdiziplinen

Artikulationsorte und Artikulationsarten

Konsonanten und Vokale
Phonologie

Phoneme und Allophone

Phonologische Merkmale

Phonologische Prozesse
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Abgrenzung von Phonetik und Phonologie

Phonetik: Untersuchung der physiologischen und
physikalischen Eigenschaften von Lauten

Phonologie: Untersuchung des Verhältnisses der Laute
zueinander in einem Sprachsystem
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Unterdisziplinen der Phonetik

Artikulatorische Phonetik: Produktion von Lauten mithilfe
von Sprechwerkzeugen

Akustische Phonetik: physikalische Eigenschaften von
Lauten in einem Medium

Auditive oder perzeptive Phonetik: Wahrnehmung von
Lauten
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Klassifikation der Artikulatorischen Phonetik

Zustand der Stimmbänder

Weg des Luftstroms

Artikulationsort

Artikulationsart
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Artikulationsorte
(Quelle: http://www.uni-bielefeld.de/lili/projekte/el-germling/veranstaltungen/
struktur_dt_sprache1/strukturI_WS05_06/artikulation_konsonanten.html)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Artikulationsarten

Verschlußlaute (Plosive)

Frikative (Reibelaute)

Nasalkonsonanten

Laterale

Vibranten
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Konsonanten
(Quelle: http://www.uni-bielefeld.de/lili/projekte/el-germling/veranstaltungen/
struktur_dt_sprache1/strukturI_WS05_06/artikulation_konsonanten.html)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Vokale
(Quelle: http://www.phonetik.uni-muenchen.de/Lehre/Skripten/TRANS1/pics/vokale.gif)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Phoneme - Definition

Psychologischer Ansatz - Der Ideallaut

Physikalischer Ansatz - Die Lautfamilie

Abstrakter Ansatz - Die Distribution

Funktionaler Ansatz - Die Bedeutungsdifferenzierung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Allophone

Definition - Unterschiedliche Phone - ein Phonem

Unterscheidung


freie Allophone

regionale Allophone

komplementäre Allophone
Neutralisation von Oppositionen
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Phonologische Merkmale

Phoneme sind zerlegbar in Merkmale

Merkmale sind binär

Merkmale sind artikulatorischer Art

Jedes Phonem jeder Sprache lässt sich durch eine
spezifische Merkmalsmatrix von anderen unterscheiden

Wichtigste phonologische Merkmale: konsonantisch,
sonorant, koronal, dauernd, stimmhaft, gerundet,
gespannt, nasal, lateral, hinten, hoch, tief
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Merkmale deutscher Konsonanten
kons
son
dnd
kor
hoch
hint
nas
sth
p
+
-
b
+
+
f
+
+
-
v
+
+
+
m
+
+
+
+
t
+
+
-
d
+
+
+
s
+
+
+
-
z
+
+
+
+
n
+
+
+
+
+
l
+
+
+
+
+
r
+
+
+
+
+
ʃ
+
+
+
+
-
ç
+
+
+
-
j
+
+
+
+
k
+
+
+
-
g
+
+
+
+
x
+
+
+
+
-
ŋ
+
+
+
+
+
+
R
+
+
+
+
+
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Phonologische Prozesse

Treten auf bei Realisierung von Phonemen in Sequenzen

Diachronische vs. synchronische Prozesse

Arten phonologischer Prozesse:


Assimilation

Dissimilation

Metathese

Tilgung (Ellipse)

Insertion (Epithese)
Allgemeines Regelschema: A → B / X_Y
(A wird zu B nach X vor Y)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Literatur / Hausaufgabe
Zur Nachbereitung:
Lesen Sie: Vater (1994): Kapitel 2 (S. 27-68)
Zur Vorbereitung:
Lesen Sie: Vater (1994): Kapitel 3/Anfang (S. 69-80)
Die Texte finden sich in den Seminarordnern
(in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im
Institut)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 06/07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Morphologie

Wort – Morphem – Allomorph

Sprachtypologie anhand der Wortstruktur

Flexion und Wortbildung

Morphologische Analyse

Grundmodelle der generativen Morphologie

Morphologie mit endlichen Automaten

Morphologie mit Default-Vererbungsnetzen

Referat: Lemmatisierung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Das Wort und seine Auftrittsformen

lexikalisches Wort (Lexem)

flexivisches Wort (Wortform)

phonologisches Wort

syntaktisches Wort
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Morphem, Allomorph

Morpheme, funktionale Definition:
kleinste bedeutungstragende Einheit einer Sprache

freie vs. gebundene Morpheme

Wurzelmorpheme vs. Affixe

Derivationsaffixe vs. Flexive

Allomorphe: Bedeutungs- und funktionsgeleiche
Varianten eines Morphems
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Sprachtypologie anhand der Wortstruktur

isolierende Sprachen (keine Flexive)

flektierende Sprachen (Flexive mit mehreren Funktionen)

agglutinierende Sprachen (Flexive mit nur einer Funktion)

polysynthetische Sprachen (inkorporierend, Verschmelzung von grammatischen Einheiten zu einer Worteinheit)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Flexion

Bildung flexivischer Wörter

Formen:


Konjugation (Verben)

Deklination (Nomen und Adjektive)

Komparation (Adjektive)
Problematisch: Nullmorpheme
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wortbildung

Bildung lexikalischer Wörter

Formen:

Komposition

Derivation

Konversion

Abkürzung

Amalgamierung

Entlehnung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Analytische vs. generative Morphologie

analytische Morphologie: Identifikation von Wörtern/
Morphemen in Äußerungen

generative Morphologie: Ableitung von Wörtern aus
gegebenen Input
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Morphologische Analyse

Segmentierung – Zerlegung in Morphe(me)

Klassifizierung – Zuordnung von Allomorphen zu
Morphemen

Strukturierung – Analyse des Hierarchischen Aufbaus
von Morphemkomplexen
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Literatur / Hausaufgabe
Zur Nachbereitung:
Lesen Sie: Vater (1994): Kapitel 3 (S. 69-106)
Bearbeiten Sie die Aufgaben A15 und A16 (S. 105)
Zur Vorbereitung:
Lesen Sie: Carstensen et al. (2001):
Kapitel 3.2 (S. 175-183)
Die Texte finden sich in den Seminarordnern
(in PC 72 bei der Aufsicht; oder zu Geschäftszeiten im
Institut)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 06/07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Morphologie

Wort – Morphem – Allomorph

Sprachtypologie anhand der Wortstruktur

Flexion und Wortbildung

Morphologische Analyse

Grundmodelle der generativen Morphologie

Morphologie mit endlichen Automaten

Morphologie mit Default-Vererbungsnetzen

Referat: Lemmatisierer
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Grundmodelle der generativen Morphologie

Morphembasierter Ansatz: Kombination von Morphemen
zu vollständigen Formen

Wortbasierter Ansatz: Bildung von Wörtern aus Stammformen (z.B. dem Infinitiv)

Realisierungsbasierter Ansatz: Realisierung einer Wortform aus vorgegebener Form
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Morphologie mit endlichen Automaten

Beispiel für morphembasierten Ansatz

einfache endliche Automaten

finite-state-Transducer

Probleme:

Nichtkonkatenative Phänomene

Nichtlokale Abhängigkeiten

Prosodische Phänomene
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Morphologie mit Default-Vererbungsnetzen

Beispiel für realisierungsbasierten Ansatz

Reichere Syntax (Typ-0-Sprache)

Gebrauch von Defaultmechanismen

Repräsentation des lexikalischen Wissens in Knoten, die
Pfaden Werte zuweisen
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Grundlegende Syntax
LERNEN:
<form präs sg eins>
==
lerne
<form präs sg zwei>
==
lernst
(...)
.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Resolutionspfade
LERNEN:
<form>
==
<wurzel> <endung>
<wurzel>
==
lern
<endung präs sg eins>
==
e
<endung präs sg zwei>
==
st
<endung präs sg drei>
==
t
<endung präs pl eins>
==
en
<endung präs pl zwei>
==
t
<endung präs pl drei>
==
en
.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Redundanzen
LERNEN:
<form>
==
<wurzel> <endung>
<wurzel>
==
lern
<endung präs sg eins>
==
e
<endung präs sg zwei>
==
st
<endung präs sg drei>
==
t
<endung präs pl eins>
==
en
<endung präs pl zwei>
==
t
<endung präs pl drei>
==
en
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Defaults und Neutralisierung
LERNEN:
<form>
==
<wurzel> <endung>
<wurzel>
==
lern
<endung sg>
==
e
<endung sg zwei>
==
st
<endung präs sg drei>
==
t
<endung pl>
==
en
<endung pl zwei>
==
t
<endung präs>
==
<endung>
<endung prät>
==
t <endung>
Jürgen Hermes - Sprachliche Informationsverarbeitung
– WS 06/07
Wissensrepräsentation in DATR:
Verallgemeinerung
VERB:
<form>
==
<wurzel> <endung>
<endung sg>
==
e
<endung sg zwei>
==
st
<endung präs sg drei>
==
t
<endung pl>
==
en (...).
LERNEN:
<>
==
VERB
<wurzel>
==
lern.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Behandlung nichtlokaler Abhängigkeiten
VERB:
<form>
==
<wurzel> <endung>
<form part>
==
ge <wurzel> <endung part>
<endung part> ==
t
.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Behandl. nichtkonkatenativer Phänomene
VERBKLASSE 1:
<>
==
STARKE_VERBEN
<wurzel>
==
<w_anf> <w_vok> <w_end>.
RATEN:
<>
==
VERBKLASSE 1
<w_anf>
==
r
<w_end>
==
t
<w_vok>
==
a
<w_vok präs sg zwei>
==
ä
<w_vok prät>
==
ie.
Jürgen Hermes - Sprachliche Informationsverarbeitung
– WS 06/07
Literatur / Hausaufgabe
Zur Nachbereitung:
Lesen Sie: Carstensen et al. (2001):
Kapitel 3.2 (S. 190-202)
Entwerfen Sie einen jeweils einen Finite-State-Transducer und eine
DATR-Repräsentation für die Präsens- und Präteritumformen der
Verben „bleiben“ und „holen“. Wieweit Sie jeweils ins Detail gehen,
bleibt Ihnen überlassen.
Zur Vorbereitung:
Lesen Sie: Ramers (2000): Kapitel 1 (S. 11-34)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 06/07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Morphologie

Wort – Morphem – Allomorph

Sprachtypologie anhand der Wortstruktur

Flexion und Wortbildung

Morphologische Analyse

Grundmodelle der generativen Morphologie

Morphologie mit endlichen Automaten

Morphologie mit Default-Vererbungsnetzen

Referat: Lemmatisierer
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Grundmodelle der generativen Morphologie

Morphembasierter Ansatz: Kombination von Morphemen
zu vollständigen Formen

Wortbasierter Ansatz: Bildung von Wörtern aus Stammformen (z.B. dem Infinitiv)

Realisierungsbasierter Ansatz: Realisierung einer Wortform aus vorgegebener Form
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Morphologie mit endlichen Automaten

Beispiel für morphembasierten Ansatz

einfache endliche Automaten

finite-state-Transducer

Probleme:

Nichtkonkatenative Phänomene

Nichtlokale Abhängigkeiten

Prosodische Phänomene
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Morphologie mit Default-Vererbungsnetzen

Beispiel für realisierungsbasierten Ansatz

Reichere Syntax (Typ-0-Sprache)

Gebrauch von Defaultmechanismen

Repräsentation des lexikalischen Wissens in Knoten, die
Pfaden Werte zuweisen
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Grundlegende Syntax
LERNEN:
<form präs sg eins>
==
lerne
<form präs sg zwei>
==
lernst
(...)
.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Resolutionspfade
LERNEN:
<form>
==
<wurzel> <endung>
<wurzel>
==
lern
<endung präs sg eins>
==
e
<endung präs sg zwei>
==
st
<endung präs sg drei>
==
t
<endung präs pl eins>
==
en
<endung präs pl zwei>
==
t
<endung präs pl drei>
==
en
.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Redundanzen
LERNEN:
<form>
==
<wurzel> <endung>
<wurzel>
==
lern
<endung präs sg eins>
==
e
<endung präs sg zwei>
==
st
<endung präs sg drei>
==
t
<endung präs pl eins>
==
en
<endung präs pl zwei>
==
t
<endung präs pl drei>
==
en
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Defaults und Neutralisierung
LERNEN:
<form>
==
<wurzel> <endung>
<wurzel>
==
lern
<endung sg>
==
e
<endung sg zwei>
==
st
<endung präs sg drei>
==
t
<endung pl>
==
en
<endung pl zwei>
==
t
<endung präs>
==
<endung>
<endung prät>
==
t <endung>
Jürgen Hermes - Sprachliche Informationsverarbeitung
– WS 06/07
Wissensrepräsentation in DATR:
Verallgemeinerung
VERB:
<form>
==
<wurzel> <endung>
<endung sg>
==
e
<endung sg zwei>
==
st
<endung präs sg drei>
==
t
<endung pl>
==
en (...).
LERNEN:
<>
==
VERB
<wurzel>
==
lern.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Behandlung nichtlokaler Abhängigkeiten
VERB:
<form>
==
<wurzel> <endung>
<form part>
==
ge <wurzel> <endung part>
<endung part> ==
t
.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Wissensrepräsentation in DATR:
Behandl. nichtkonkatenativer Phänomene
VERBKLASSE 1:
<>
==
STARKE_VERBEN
<wurzel>
==
<w_anf> <w_vok> <w_end>.
RATEN:
<>
==
VERBKLASSE 1
<w_anf>
==
r
<w_end>
==
t
<w_vok>
==
a
<w_vok präs sg zwei>
==
ä
<w_vok prät>
==
ie.
Jürgen Hermes - Sprachliche Informationsverarbeitung
– WS 06/07
Literatur / Hausaufgabe
Zur Nachbereitung:
Lesen Sie: Carstensen et al. (2001):
Kapitel 3.2 (S. 190-202)
Entwerfen Sie einen jeweils einen Finite-State-Transducer und eine
DATR-Repräsentation für die Präsens- und Präteritumformen der
Verben „bleiben“ und „holen“. Wieweit Sie jeweils ins Detail gehen,
bleibt Ihnen überlassen.
Zur Vorbereitung:
Lesen Sie: Ramers (2000): Kapitel 1 (S. 11-34)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 07/08
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Syntax

Grammatik – Satz – Phrase

Konstituenten – Ermittlung und Klassifikation

Phrasenstrukturregeln

Das X-bar-Schema

Kanonische Satzstruktur
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Zielsetzungen der generativen Grammatik

Universalität: Alle Phrasentypen aller natürlichen
Sprachen müssen erfasst werden

Lernbarkeit: Die postulierten Phrasenstrukturen können
im Spracherwerb gelernt werden
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Das X-bar Modell der Phrasenstruktur

Kopfprinzip (Prinzip der Endozentrizität): Alle Phrasen
sind Expansionen eines Kerns mit gleicher kategorialer
Prägung: (XP → ... X ...)

Ebenenprinzip: Phrasen sind auf mehr als zwei Ebenen
gegliedert (X´- Ebene)

Phrasenprinzip: Ergänzungen zu syntaktischen Wörtern
oder ihren Projektionen sind immer Phrasen

Verzweigungsprinzip: Knoten verzweigen entweder unär
oder binär
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Schema des X-bar-Modells

Spezifiziererregel:
X´´ → Spezifizierer X´

Komplementregel:
X´ → Komplement X°

Adjunktregeln (rekursiv):
X´ → Adjunkt X´
X´´ → Adjunkt X´´
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Auxiliare, Finitheit und der Nominativ (I)

Der Frosch sitzt auf der Rose.

Der Frosch hat auf der Rose gesessen.

Der Storch sieht *der/den Frosch auf der Rose sitzen.

Es ist schön, (*der Frosch) auf der Rose zu sitzen.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Auxiliare, Finitheit und der Nominativ (II)

Der Frosch sitzt auf der Rose.

Der Frosch hat auf der Rose gesessen.

Der Storch sieht *der/den Frosch auf der Rose sitzen.

Es ist schön, (*der Frosch) auf der Rose zu sitzen.
→ Nominativ tritt nur auf, wenn sich im Satz ein finiter
Bestandteil (Auxiliar oder Vollverb) findet.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Inflektionsphrase, die erste
I´´
SpecI
I´
(Subjekt)
I°
V´´
(fin. Verb)
V´
KompV
V°
(Objekt)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Das topologische Feldermodell

Hauptsätze
Der Frosch hat auf der Rose gesessen.

Nebensätze
... weil der Frosch auf der Rose gesessen hat.

Entscheidungsfragesätze
Hat der Frosch auf der Rose gesessen?

W-Fragesätze
Worauf hat der Frosch gesessen?
Wer hat auf der Rose gesessen?
→ Vorfeld – linke SK – Mittelfeld – rechte SK – Nachfeld
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Das CP-IP-Modell
C''
SpecC
C'
C°
I''
SpecI
I'
V''
I°
V'
Komp
Vorfeld
LK
Mittelfeld
V°
RK
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Literatur / Hausaufgabe
Zur Nachbereitung:
Lesen Sie: Ramers (2000): Kapitel 2 und 3 (S. 35-76)
bearbeiten Sie auch die Übungsaufgaben 2 und 3
jeweils a) bis c) und ß) (S. 55)
Zur Vorbereitung:
Lesen Sie: Schwarz/Chur (1996): Kapitel 1 (S. 13-36)
Frohes Fest und einen guten Start ins neue Jahr!
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 07/08
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Semantik

Einführung

Wortsemantik (lexikalische Semantik)

Merkmaltheorie

Prototypentheorie

Semantische Relationen

Satzsemantik

Semantik und Sprachverarbeitung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Semantik - Einführung
Inhalt/Bedeutung
geknüpft an
Ausdruck
bezieht sich auf
steht für
Referent

Mentales Lexikon: Teil des Langzeitgedächtnisses

Konzepte: Bausteine unseres Wissens, basierend auf
Erfahrungen

Kategorienkonzepte (Types): Repräsentanten von
Informationen über Klassen - Äquivalenz

Partikularkonzepte (Token): Repräsentanten von
Informationen über Einzelnes - Identität
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Wortsemantik vs. Satzsemantik


Lexikalische (Wort-) Semantik:

Kontextunabhängige Bedeutung von Wörtern

Relationen zwischen Bedeutungen (Sinnrelationen)
Satzsemantik:

Prinzip der Kompositionalität:
Wortbedeutung
+ Art der Zusammensetzung
= Satzbedeutung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Merkmalsemantik

Merkmalhypothese: Bedeutung sind nicht ganzheitlich,
sondern aus elementaren Inhaltselementen (semantische
Merkmale – Seme) zusammengesetzt.

Merkmalbündel: Innere Struktur von Bedeutungen

Semantische Opposition: Gegenüberstellung distinktiver
Bedeutungsmerkmale

Kriterium der Notwendigkeit: Ermittlung wesentlicher
Merkmale

Probleme: Relationale Merkmale – Verben – kognitive
Plausibilität
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Prototypensemantik

Prototypenhypothese: Prototypen sind mentale
Repräsentationen von Kategorien, die nicht klar umgrenzt
werden können – Kontinuum der Kategoriezugehörigkeit.

Entstehung von Prototypen: Fequentialität und Relevanz

Mentale Bilder oder abstrakte Informationseinheiten?

Keine Alternative, sondern Ergänzung zur
Merkmalsemantik
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Semantische Relationen

Synonymie: Bedeutungsgleichheit - gleiche semantischdenotative, evtl. verschiedene konnotative Merkmale

Referenzidentität: gleicher Referent, evtl. verschiedene
Bedeutungen

Ambiguität: Verschiedene Bedeutungen einer Wortform –
Polysemie vs. Homonymie; Homophonie vs. Homographie

Vagheit: Bedeutungs- oder Konzeptfamilie

Hyponymie (Unterordnung) vs. Hyperonymie (Überordnung)

Kohyponymie: Inkompatible Schwestern in Taxonymie

Kontradiktion (-Zwischenstufen, -steigerbar) vs. Antonymie
(+Zwischenstufen,
+steigerbar)
Jürgen Hermes - Sprachliche Informationsverarbeitung
– WS 07/08
Literatur / Hausaufgabe
Zur Nachbereitung:
Schwarz/Chur (1996): bis einschl. Kap. 2.2 (S.13-60)
Zur Vorbereitung:
Schwarz/Chur (1996): Kap. 5 bis einschl. Kap. 6.2 (S.
115-162)
Görz et al. (1993): Kapitel 5.3.1 (S. 425-428)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 07/08
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Semantik

Einführung

Wortsemantik (lexikalische Semantik)

Satzsemantik


Semantische Relationen

Aussagenlogik

Prädikatenlogik
Semantik und Sprachverarbeitung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Satzsemantik - Einführung

Prinzip der Kompositionalität

Die Bedeutung eines Satzes zu kennen, heißt angeben
zu können, in welchen Situationen er wahr/falsch ist.

Ziel: Darstellung natürlichsprachlicher Ausdrücke in einem
formalen Semantikmodell (mittels Logik).

Problem: Forschung beschränkt sich auf Aussagesätze.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Semantische Relationen zwischen Sätzen
semantische Satzrelationen
Kompatibilität
Subkontrarität
Inkompatibilität
Kontrarität
Paraphrase
Kontradiktion
Implikation
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Aussagenlogik - Grundbegriffe

Satzvariablen: p, q, r, s

Konnektoren/Junktoren:


Negation:
¬

Konjunktion: ∧ (&)

Disjunktion: ∨

Implikation: →

Äquivalenz: ↔
Wahrheitswerte: w (1), f (0)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Literatur / Hausaufgabe
Zur Nachbereitung:
Schwarz/Chur (1996): Kap. 5 bis einschl. Kap. 6.1
(S.115-141)
Zur Vorbereitung:
Schwarz/Chur (1996): Kap. 6.2 (S.142-162)
Görz et al. (1993): Kapitel 5.3.1 (S. 425-428)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 07/08
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Semantik

Einführung

Wortsemantik (lexikalische Semantik)

Satzsemantik


Semantische Relationen

Aussagenlogik

Prädikatenlogik
Semantik und Sprachverarbeitung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Prädikatenlogik - Grundbegriffe

Individuenkonstanten (Kleinbuchstaben)

Prädikatskonstanten (Großbuchstaben)

Variablen und bindende Quantoren:

Existenzquantor ∃ (Teilsätze verbunden durch ∧)

Allquantor ∀ (Teilsätze verbunden durch →)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Prädikatenlogik - Erweiterungen

Quantoren: ein, kein, alle, nicht alle

Quantorenskopus und verschiedene Lesarten

Lambda-Kalkül: Abstraktion und Konversion

Typentheorie: Individuenkonstanten, wahrheitswertfähige
Ausdrücke und Komplexes
→ Ziel des Ganzen: Ermittlung der Bedeutung
elementarer Ausdrücke und Berechnung ihrer
zusammengesetzten Bedeutung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Prädikatenlogik - Erweiterungen

Ziel der Semantikkonstruktion durch die Prädikatenlogik:
Jeder Satz einer natürlichen Sprache sollte in formale
Sprache übersetzt werden können.


angemessene Repräsentation

Prinzip der Kompositionalität

Strukturisomorphie
Mittel der erweiterten Prädikatenlogik:

Generalisierte Quantoren

Lambda-Kalkül und Typentheorie
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Semantik und Sprachverarbeitung
Konkurrierende Entwicklungen:

KI-Forschung: Anwendungsorientiert →
Theorie der konzeptuellen Dependenz (CD-Theorie)

Theoretische Sprachforschung:
Logische Semantik natürlicher Sprachen →
Montague-Grammatik
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Schichten des Bedeutungsbegriffs

Semantisches Potential: Information basierend
ausschließlich auf linguistischem Wissen
(syntaktische Determination)

Aktueller semantischer Wert: bestimmter gegebener
Äußerungskontext beseitigt Mehrdeutigkeit.

Relevante Äußerungsinformation: wird
weitestgehend durch Weltwissen gewonnen.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Aufgaben für die semantische Verarbeitung

Semantikkonstruktion (semantische Komposition)
durch linguistisches Wissen (Auswertung lexikalischer
und syntaktischer Information)

Semantische Resolution durch Klassifikation
geeigneter kontextuell gegebener Referenzobjekte
durch Kontextwissen.

Semantische Auswertung der relevanten Äußerungsinformation durch u.a. Weltwissen (episodisches
Wissen und Regelwissen)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Literatur / Hausaufgabe
Zur Nachbereitung:
Schwarz/Chur (1996): Kap. 6.2 (S.142-162)
Görz et al. (1993): Kapitel 5.3.1 (S. 425-428)
Zur Vorbereitung:
Carstensen et al. (2001): Kapitel 4 und 4.2
(S. 361 und 369-376)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 07/08
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Ressourcen

Einführung

Korpora

Baumbanken und Wortnetze

Lexika
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Korpustypen

Textkorpora: geschriebene oder trankribierte
gesprochene Texte; Grundeinheit Token

Sprachkorpora: Audioaufnahmen evtl. mit phonetischen
und linguistischen Annotationen

Multimodale Korpora: Sprachkorpora mit Annotationen
von Prosodien, Mimik, Gestik u.a.

Baumbanken: syntaktisch analysierte Sätze;
Grundeinheit: Satz
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Korpora - Eigenschaften

Maschinenlesbare Textsammlung

Ausgewogen und repräsentativ (?)

Metainformation / Annotation

Begrenzte Größe

Zusammensetzung: Textsorte / Domaine / Alter;
homogen vs. heterogen; fest vs. wechselnd

Das Web als Korpus?
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Erstellung eines Korpus

Struktur- und Metainformationen erkennen

Umwandlung in definiertes Format

Tokenisierung (Segmentierung): Aufspaltung des Textes

Satzgrenzenerkennung: Disambiguierung von
Satztrennzeichen

Korpusrepräsentation: standardisiertes Format:
Corpus Encoding Standard (CES)

Hinzufügen linguistischer Information (Annotation):
Part of speech (POS) tagging – Lemmatisierer –
Chunking – Parsing
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Abfrage eines Korpus

Konkordanzsuche: KWIC-Format (key word in context)

Musterbasierte Suche: Abfrage über reguläre Ausdrücke

Statistische Analyse: Suche nach wiederholt auftretenden
Wortformen (Kookkurenzen, Kollokationen), Wortarten
(Kolligationen), Wortclustern (wiederholte Folge von
Lexemen)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Literatur / Hausaufgabe
Zur Nachbereitung:
Carstensen et al. (2001): Kapitel 4 bis 4.2 (S. 361-376)
Zur Vorbereitung:
Carstensen et al. (2001): Kapitel 4.5 (S. 394-401)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Parser

Begriffe, Anwendungen, Strategien, Überblick

Elementare Parsingalgorithmen


Top-Down-Parser

Bottom-Up-Parser
Komplexere Parser

Chart-Parser

Marcus-Parser

Konnektionistische Parser
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Parsing – Begriffe und Motivation (I)

Parsing ist ein algorithmisches Verfahren, bei dem eine
natürlichsprachliche Eingabekette auf eine strukturelle
Beschreibung in einer formalen Repräsentationssprache
abgebildet wird (vs. Recognizer)

Motivation für Parsing in der Computerlinguistik ist eine
theoretisch fundierte und algorithmisch präzise
Rekonstruktion des Sprachverstehens

Wissensquellen für Parser sind die Wissensquellen
eines natürlichsprachlichen Systems
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Parsing – Begriffe und Motivation (II)

Komplexität von Parsern: Zeit- und Raumbedarf der
zugrundeliegenden Algorithmen. Kontextfreie bzw.
schwach kontextsensitive Grammatiken gelten als
effizient berechenbar und genügend ausdrucksstark.

Hauptproblem für Parser ist die Disambiguierung auf
lexikalischer, syntaktischer, semantischer und
pragmatischer Ebene.
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Anwendungsgebiete für Parser

Compilerbau: Quellcode → Compilierung → Objektcode
(syntaktische & semantische Analyse)

Kognitive Psychologie:
Interaktion syntaktischer und semantischer Prozesse

Computerlinguistik:
Wohlgeformtheitsüberprüfung; Disambiguierung;
Strukturbeschreibungsaufbau; Identifikation und Korrektur
der Eingabe
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Abfrage eines Korpus

Zufällige(r) Text(e)

Konkordanzsuche: KWIC-Format (key word in context)

Musterbasierte Suche: Abfrage über reguläre Ausdrücke

Statistische Analyse: Suche nach wiederholt auftretenden
Wortformen (Kookkurenzen, Kollokationen), Wortarten
(Kolligationen), Wortclustern (wiederholte Folge von
Lexemen)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Baumbanken

Grundlegende Einheit: in Baumstrukturen kodierte Sätze

Erstellung: Durch Parser, Nachbearbeitung nötig

Anwendung: Parserentwicklung, Extraktion lexikalischer
Information, phänomenbasiertes Retrieval

Qualitätsmerkmale: Annotation, Dokumentation,
Wiederverwertbarkeit, Korrektheit, Konsistenz

Beispiele: Penn-Treebank, TIGER-Korpus
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Lexikalisch-semantische Wortnetze

Konzeptknoten: Abbildung der (wichtigsten) Wörter einer
Sprache und deren bedeutungstragenden Beziehungen zu
anderen Wörtern

Synset: zugrundeliegende Repräsentationseinheit, die
Synonyme zu Konzeptknoten zusammenfaßt

Beispiele: GermaNet, WordNet

Anwendungsperspektiven: Lesartendisambiguierung,
Informationserschließung, Semantische Annotierung
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Überblick über die gängisten Parser

Elementare Parser: Top-Down, Bottom-Up, Left-Corner

Chart-Parser


Earley-Algorithmus (Earley 1970)

Active Chart Parsing (Winograd 1983)
Deterministische Parser

PARSIFAL (Marcus 1980)

generalisiertes LR-Parsing (Tomita 1985)

Stochastische Parser

Konnektionistische Parser
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Parsing-Strategien

Analyserichtung: top-down vs. bottom-up

Suchstrategien: breadth-first (parallel) vs. depth-first
(sequenziell) vs. best-first (heuristisch)

Verfahrensweise: deterministisch vs. nicht-deterministisch

Verarbeitungsrichtung: uni- vs. bidirektional

Kommunikation: online vs. offline
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Analyserichtungen

Top-Down-Parsing

zielgesteuert, von oben nach unten

Regelexpansion: linke Regelseite → rechte Regelseite

terminiert, wenn abgeleiteter Ausdruck dem Eingabesatz entspricht

Probleme: Erzeugung evtl. nicht-terminierbarer Knoten; keine linksbzw. rechtsrekursiven Regeln zugelassen

Bottom-Up-Parsing

datengesteuert, von unten nach oben

Regelreduktion: rechte Regelseite → linke Regelseite

terminiert, wenn abgeleiteter Ausdruck dem Startsymbol entspricht

Probleme: Bildung evtl. nicht reduzierbarer Konstituenten; keine
Tilgungsregeln zugelassen
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Suchstrategien

Breadth-First: parallel: mehrere Alternativen der
Regelanwendung werden simultan verfolgt

Depth-First: sequenzielles Abarbeiten der Alternativen mit
Protokoll der Auswahlentscheidungen und eventuellem
Zurücksetzen

„Best-First“:

Heuristisches Parsen

Aufwandsreduktion, Analysenrobustheit

Typen: partielles Parsing – Insel-Parsing – Skimming
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Verfahrensweise


Nichtdeterministisches Parsen:

Grammatiken erlauben mehrere Alternativen

Suchstrategien erforderlich
Deterministisches Parsen:

In jedem Zustand ist nur ein einziger Ableitungsschritt
möglich

Verwendet v.a. im Compilerbau

Bei Einsatz für natürliche Sprache: Aufschieben der
Entscheidung (look-ahead; wait & see)

Vertreter: PARSIFAL, Tomita-Algorithmus
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Top-Down Recognizer
Daten:
Lexikon und kontextfreie Syntax
Eingabe:
Satz (w) mit der Länge n>=0
Ausgabe:
TRUE/FALSE
Arbeitsstrukturen:
nächstes Wort (Anfangswert: 1)
Struktur (Anfangswert: Startsymbol [S])
Methode MAIN:
WENN Ableitung leer und Wort==n+1
→Return TRUE
SONST Reduziere(Expandiere(Ableitung))
PROZEDUR Expandiere: Wende Regel an, übergebe Ableitung
PROZEDUR Reduziere:
Ersetze lexikalische Kategorien, gehe zum
nächstem Wort
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Top-Down Parser
Daten:
Lexikon und kontextfreie Syntax
Eingabe:
Satz (w) mit der Länge n>=0
Ausgabe:
Strukturbeschreibung für w
Arbeitsstrukturen:
Wort (Anfangswert 1)
Struktur (Anfangswert Startsymbol S)
Position (Anfangswert 1)
Methode MAIN:
WENN Struktur==w liefere sie zurück
SONST Reduziere(Expandiere(Struktur))
PROZEDUR Reduziere:
Ändere Variable Position
PROZEDUR Expandiere: Ändere Variablen Struktur & Position
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Bottom-Up Recognizer
Daten:
Lexikon und kontextfreie Syntax
Eingabe:
STACK1([Eingabesatz w]) mit n>=1
STACK2([ ])
Ausgabe:
TRUE/FALSE
Methode MAIN:
WENN STACK2[ ]
DANN Reduce(STACK2)
SONST WENN STACK1 [ ]
DANN Shift(STACK1,STACK2)
SONST Return TRUE/FALSE
PROZEDUR Shift:
Schreibe Elemente von STACK1 in STACK2
PROZEDUR Reduce:
Ersetze Elemente in STACK2 nach Regeln der
Syntax
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Literatur / Hausaufgabe
Zur Nachbereitung:
Naumann, Langer (1994): Kapitel 1 und 2 (S. 3-36)
Zur Vorbereitung:
Naumann, Langer (1994): Chart-Parsing (S. 102-106)
und
Suchen Sie im WWW nach „PARSIFAL“, dem Parser von
Marcus (1980)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Parser

Begriffe, Anwendungen, Strategien, Überblick

Elementare Parsingalgorithmen

Komplexere Parser

Chart-Parser

Marcus-Parser

Konnektionistische Parser
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Chart-Parser

Aufgabe: Lösung des Problems der Mehrfachanalysen durch
Speicherung der Teilergebnisse in einer Chart.

Kanten (In der Chart gespeicherte Objekte; aktiv vs. passiv):

kategorialer Typ der repräsentierten Konstituente

Satzabschnitt, über den sich die Kante erstreckt

(nur aktive Kanten) Spezifikation des erkannten und des
nicht erkannten Teils

Operationen:

Eintrag der Kanten in die Chart

Erzeugung neuer Kanten in Abhängigkeit von der Chart und
vom syntaktischen Wissen.
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Earley-Algorithmus (Earley 1970)

Datenstruktur: Chart-Matrix mit Teilungspunkt.

Operationen:


prädikative Erweiterung (predictor-Schritt)

lexikalische Konsumption (scanner-Schritt)

Konstituentenvervollständigung (completer-Schritt)
Analyserichtung:

Top-Down (predictor-Schritt)

Bottom-Up (completer-Schritt)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Active Chart Parsing (Winograd 1983)

basierend auf dem Earley-Algorithmus, verwendet
allerdings statt geteilter Produktion einen Graphen mit
aktiven und passiven Kanten

passive Kanten: vollständig erkannte Konstituenten; feste
Verbindung zweier Chartknoten

aktive Kanten: partiell erkannte Konstituenten; Quellknoten
sucht anhand der gegebenen Grammatik den Zielknoten
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Literatur / Hausaufgabe
Zur Nachbereitung:
Naumann, Langer (1994): Chart-Parsing (S. 102-106)
Parsen Sie den Satz „Der Hund pinkelt auf den Gehweg“ in Top-Down
und in Bottom-Up-Richtung. Zeichnen Sie dazu zwei Charts (eine in
Tabellenform, eine als Graphen), in die jeweils alle passiven Kanten
eingetragen werden sollen.
Zur Vorbereitung:
Strube (1996): PARSIFAL (S. 460-461)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Parser

Begriffe, Anwendungen, Strategien, Überblick

Elementare Parsingalgorithmen

Komplexere Parser

Chart-Parser

Marcus-Parser

Konnektionistische Parser
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Deterministisches Parsing

In jedem Zustand ist nur ein einziger Ableitungsschritt
möglich

Verwendet v.a. im Compilerbau

Bei Einsatz für natürliche Sprache: Aufschieben der
Entscheidung (look-ahead; wait & see)

Vertreter: PARSIFAL, Tomita-Algorithmus
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
PARSIFAL (Marcus 1980) I



Grundlegende Entwurfsannahme: Determinismushypothese

kein Backtracking

keine parallelen Strukturen

keine verborgenen Zustände
Umsetzung:

Stack aktiver Knoten

Puffer fertiger Teilstrukturen
Regelaufbau:

Bedingungsteil (Anwendungskriterium)

Handlungsteil (Konsequenzen der Anwendung)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
PARSIFAL (Marcus 1980) II

Regelpaketorganisation: indiziert und aktiviert durch
Konstituententypen

Architektur:

datengesteuert (Bottom-Up): Aktivierung der Regeln
durch lexik. Elemente oder Teilstrukturen im Puffer

erwartungsorientiert (Top-Down): Ausführung der
Regeln durch aktive Pakete (fortsetzungsreguliert)

vorrausschauend: Transparenz und Längenrestriktionen des Puffers erlauben sichere Entscheidung
über korrekte Regelauswahl.
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Literatur / Hausaufgabe
Zur Nachbereitung:
Strube (1996): „PARSIFAL“ (S. 460-461) und
„Parsing natürlicher Sprache“ (S. 461 ff)
Parsen Sie den Satz „Der Hund pinkelt auf den Gehweg“ mittels eines
Marcus-Parsers (Stack und Queue). In welchem Schritt befinden sich
die meisten Elemente auf dem Stack? Wieviele sind es?
Zur Vorbereitung:
Dorffner (1991): Konnektionismus, Kapitel 1 (S. 2-14)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Parser

Begriffe, Anwendungen, Strategien, Überblick

Elementare Parsingalgorithmen

Komplexere Parser

Chart-Parser

Marcus-Parser

Konnektionistische Parser
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Kognitivismus vs. Konnektionismus

Kognitivismus:

Explizite Darstellung des Wissens

Nutzung logischer Konzepte

Streng deterministisch

Symboldarstellung von Objekten, Beziehungen und Ereignissen
auf der kognitiven Ebene

Konnektionismus:

Impliziter Erwerb von Wissen

Mustererkennung, -klassifikation, -vervollständigung

Fehlertoleranz

Symbole sind keine Bestandteile, sondern Abstraktionen über die
subsymbolisch arbeitende kognitive Ebene
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Konnektionismus

Arbeitsweise neuronaler Netzwerke

Informationsverarbeitung durch eine relativ große Anzahl
von Prozessoren ( keine CPU), die lokal arbeiten und
über Signale über Verbindungen kommunizieren

Aufbau: Input – Hidden – Output Units

Lokale vs. Verteilte Repräsentation

Lernalgorithmus: Hebb‘sches Prinzip (beruhend auf
Backpropagation)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Eigenschaften neuronaler Netzwerke

Parallelität: Keine zentrale Steuerungseinheit

Distribuiertheit: Wissen des Systems ist nicht auf einzelne Units beschränkt, sondern über das Netz verteilt

Fehlertoleranz: Ausfälle einzelner Units sind für das
System verkraftbar

Besonders geeignet für

Mustererkennung (Assoziation)

Musterabbildung (Klassifikation)

Mustervervollständigung (bei fehlerhaftem Input)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Literatur / Hausaufgabe
Zur Nachbereitung:
Dorffner (1991): Konnektionismus, Kapitel 1 (S. 2-14)
Strube (1996): „Parsing natürlicher Sprache“ (S. 461 ff)
Verdeutlichen Sie sich nochmals die vorgestellten ParsingVorgänge (Bottom-Up, Top-Down, Chart, Marcus) und parsen
Sie damit einen Satz ihrer Wahl.
Zur Vorbereitung:
Wiederholen Sie das Kapitel Syntax aus dem ersten
Semester (inklusive der drei Kapitel aus dem „Syntax“Buch von Ramers)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Grammatikformalismen

Einführung

Unifikationsgrammatiken


PATRII

LFG
Prinzipien- und Parameter-Theorie

Government & Binding

Anwendung: VisualGBX
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Einführung

Beschreibung der grammatischen Kompetenz

Syntax, Morphologie, Lexikon, Phonologie, Semantik...

Grammatikformalismus (-modell) besteht aus
Grammatiktheorie und Symbolsystem

Grammatiktheorie (formale): Mathematische Modelle zur Beschreibung (Aufzählung) von Sprachen → Chomsky-Hierarchie

Symbolsystem:

Repräsentation von Kategorien und Strukturen für
grammatische Einheiten

Regeln, Prinzipien, Beschränkungen zur Erkennung/
Produktion von wohlgeformten Sätzen
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
PATRII – Grundlegende Begriffe

Merkmalstrukturen

Gleichheit vs. Identität

Subsumption und Extension

Unifikation
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Merkmalsstrukturen

Atomare Einheiten: numerus:singular

Einfache Merkmalstrukturen:
numerus: singular
genus: maskulin

Geschachtelte Merkmalstrukturen:
agreement:
numerus: singular
person: 3
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Gleichheit
kategorie: S
subj: kategorie: NP agreement: $1 numerus: singular
genus: maskulin
obj:
kategorie: NP agreement: numerus:singular
genus: neutrum
kopf: tempus: praesens
agreement: $1
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Identität
kategorie: S
subj: kategorie: NP agreement: $1
obj:
numerus: singular
genus: maskulin
kategorie: NP agreement: numerus:singular
genus: neutrum
kopf: tempus: praesens
agreement: $1
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Subsumption und Extension
S
u
E
b
x
s
kategorie:NP
u
t
e
m
kategorie:NP
n
p
agreement: numerus:singular
s
t
person: 3
i
o
o
n
n
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Unifikation
Die Unifikation von 2 Strukturen D1 und D2 ergibt die kleinste
Struktur D, welche eine Extension sowohl von D1 als auch von D2
bildet. Existiert diese Struktur nicht, dann scheitert die Unifikation
(Ergebnis = fail).
kategorie:
NP
agreement:
+
kategorie:
numerus: singular
genus: feminin
NP
agreement:
numerus: singular
person: 3
ergibt unifiziert
kategorie:
NP
agreement: numerus: singular
person: 3
genus: feminin
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Literatur / Hausaufgabe
Zur Nachbereitung:
Shieber (1986): Elementare Unifikationsformalismen
(S. 11-36)
Entwerfen Sie für den Satz „Die Kinder schlafen“ ein Beispiellexikon und eine Beispielgrammatik in PATRII anhand derer Sie
den Satz bottom-up parsen.
Zur Vorbereitung:
Shieber (1986): Erweiterte Unifikationsformalismen
(S. 38-51)
Butt et al. (1999): Kapitel 1 (S. 1-14)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Grammatikformalismen

Einführung

Unifikationsgrammatiken


PATRII

LFG
Prinzipien- und Parameter-Theorie

Government & Binding

Anwendung: VisualGBX
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
LFG-Grundbegriffe

Lexikalisch-Funktionale Grammatik

Funktionale Strukturen werden als mathematische
Funktionen betrachtet

Spachliche Phänomene werden durch lexikalische Regeln
charakterisiert

Zentrale Begriffe:

Repräsentationen in der LFG: c-Struktur und f-Struktur

Functional Projection Function als verbindendes Element
zwischen diesen Strukturen

Wohlgeformtheitsregeln über f-Strukturen
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
C-Struktur und F-Struktur

C-Struktur (Konstituentenstruktur): Baumdiagramm,
aufgebaut durch kontextfreie Regeln; enthält Informationen
über phrasale Dominanz und Präzedenz.

F-Struktur (Funktionale Struktur): Merkmalstruktur, die
Informationen z.B. über Prädikat-Argument-Struktur und
morphosyntaktische Kategorien (Tempus, Agreement etc.)
enthält.
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
C-Struktur und F-Struktur

Verbindung zwischen den Repräsentationen durch
Mapping (Abgleich) der enthaltenen Informationen durch
angereicherte Phrasenstrukturregeln: kontextfreie Regeln
plus beschränkende constraints.

↑ und ↓ bezeichnen f-Strukturen in korrespondierenden cStruktur-Positionen:

↑ bezeichnet dabei das Attribut des Mutterknotens

↓ bezeichnet dabei das Attribut des Knotens selbst
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Wohlgeformtheitsregeln über F-Strukturen

Functional Uniqueness: Attribute dürfen maximal einen
Wert haben.

Completeness: Alle vom Prädikat geforderten grammatischen Funktoren müssen vorhanden und belegt sein.

Coherence: Alle grammatischen Funktoren müssen vom
Prädikat gefordert werden.
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Literatur / Hausaufgabe
Zur Nachbereitung:
Shieber (1986): Erweiterte Unifikationsformalismen
(S. 38-51)
Butt et al. (1999): Kapitel 1 (S. 1-14)
Entwerfen Sie die fertigen c- und f-Strukturen für den Satz „Bart
guckt Fernsehen“
Zur Vorbereitung:
Ramers (2001): Kapitel 3 (S. 59-76)
Jürgen Hermes - Sprachliche Informationsverarbeitung – SS 07
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 06/07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Grammatikformalismen

Einführung

Unifikationsgrammatiken


PATRII

LFG
Prinzipien- und Parameter-Theorie


Government & Binding

X-bar-Schema, CP-IP-Struktur (Wh)

Module sprachlichen Wissens
Anwendung: VisualGBX
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Zielsetzungen der generativen Grammatik

Universalität: Alle Phrasentypen aller natürlichen
Sprachen müssen erfasst werden

Lernbarkeit: Die postulierten Phrasenstrukturen können
im Spracherwerb gelernt werden
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Das X-bar Modell der Phrasenstruktur

Kopfprinzip (Prinzip der Endozentrizität): Alle Phrasen
sind Expansionen eines Kerns mit gleicher kategorialer
Prägung: (XP → ... X ...)

Ebenenprinzip: Phrasen sind auf mehr als zwei Ebenen
gegliedert (X´- Ebene)

Phrasenprinzip: Ergänzungen zu syntaktischen Wörtern
oder ihren Projektionen sind immer Phrasen

Verzweigungsprinzip: Knoten verzweigen entweder unär
oder binär
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Schema des X-bar-Modells

Spezifiziererregel:
X´´ → Spezifizierer X´

Komplementregel:
X´ → Komplement X°

Adjunktregeln (rekursiv):
X´ → Adjunkt X´
X´´ → Adjunkt X´´
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Auxiliare, Finitheit und der Nominativ (I)

Der Frosch sitzt auf der Rose.

Der Frosch hat auf der Rose gesessen.

Der Storch sieht *der/den Frosch auf der Rose sitzen.

Es ist schön, (*der Frosch) auf der Rose zu sitzen.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Auxiliare, Finitheit und der Nominativ (II)

Der Frosch sitzt auf der Rose.

Der Frosch hat auf der Rose gesessen.

Der Storch sieht *der/den Frosch auf der Rose sitzen.

Es ist schön, (*der Frosch) auf der Rose zu sitzen.
→ Nominativ tritt nur auf, wenn sich im Satz ein finiter
Bestandteil (Auxiliar oder Vollverb) findet.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Inflektionsphrase, die erste
I´´
SpecI
I´
(Subjekt)
I°
V´´
(fin. Verb)
V´
KompV
V°
(Objekt)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Das topologische Feldermodell

Hauptsätze
Der Frosch hat auf der Rose gesessen.

Nebensätze
... weil der Frosch auf der Rose gesessen hat.

Entscheidungsfragesätze
Hat der Frosch auf der Rose gesessen?

W-Fragesätze
Worauf hat der Frosch gesessen?
Wer hat auf der Rose gesessen?
→ Vorfeld – linke SK – Mittelfeld – rechte SK – Nachfeld
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Das CP-IP-Modell
C''
SpecC
C'
C°
I''
SpecI
I'
V''
I°
V'
Komp
Vorfeld
LK
Mittelfeld
V°
RK
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Government & Binding Theory

Rektions- und Bindungstheorie (seit ca. 1981)

Abgelöst (?) durch Minimalist Program (ca. 1995)

Modulare Organisation der Kompetenz

Grundlegend: X-bar-Modell (inkl. CP-IP-Struktur)

Ineinandergreifende Module:

Kasustheorie

Thetatheorie

Rektionstheorie

Bindungstheorie

...
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Kasustheorie

Morphologischer vs. abstrakter Kasus

Kasusfilter: Eine NP, die keinen Kasus zugewiesen
bekommt, ist ungrammatisch.

Kasusrektion: Kasuszuweiser kann Kasusrezipienten in
bestimmter Konfiguration Kasus zuweisen.

Konfigurationen für Kasuszuweisung: Head-Spec und
Head - Komp
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Thetatheorie

Relation zwischen Verb und Argumenten

Theta-Raster im Lexikon mit bestimmten Rollen:
AGENS, PATIENS, INSTRUMENT, ORT etc.

Theta-Kriterium: Jede Theta-Rolle muss genau eine
Argument zugewiesen werden und jedes Argument
benötigt genau eine Theta-Rolle.

Linking lexikalischer Information auf syntaktische
Konfiguration
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Literatur / Hausaufgabe
Zur Nachbereitung:
Ramers (2001): Kapitel 5 (S. 89-117)
Zur Vorbereitung:
Lesen Sie: Schwarz/Chur (1996): Kapitel 1 (S. 13-36)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Computerlinguistische
Grundlagen
Jürgen Hermes
Wintersemester 06/07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Grammatikformalismen

Einführung

Unifikationsgrammatiken


PATRII

LFG
Prinzipien- und Parameter-Theorie

Government & Binding

Anwendung: VisualGBX
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Das System VisualGBX

Formalisierung von linguistischem Wissen in einer
definierten Programmiersprache (LPS-Prolog)

Mögliche Anwendungsbereiche:

Evaluation linguistischer (Sub-)Theorien

Erstellen von Strukturbäumen

Persistieren von Strukturbäumen (Datenbank)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Beispiel für ein GBX-File
C"
(* Fussball.gbx *)
D"
C'':- D ["~Klose", h2]
C';
'Klose'
C'
C':- C°["~traf", g3] I'';
I":- D"[h1] I';
C°
'traf'
I':- V" I°[g2];
V":-
V';
I"
D"
I'
V"
I°
V':- D"["~das Tor"] V°[g1].
V'
D"
'das Tor'
V°
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Syntax eines Klassenmoduls
CLASSMODULE Modulname;
CLASS Klassenname2 | [attributwertliste];
END; (* Attributwerte können zur Laufzeit belegt
werden*)
CLASS Klassenname3 < Modulname.Klassenname4;
END; (* Klasse3 erbt aus Klasse4 *)
CLASS Klassenname5;
methodenname(Parameterliste);
END; (* Methodenaufruf *)
END Modulname.
Jürgen Hermes
- Sprachliche Informationsverarbeitung – WS 06/07
Beispiel für ein Klassenmodul
CLASSMODULE FK;
(* Funktionale Klassen: C,I,D *)
CLASS D | [Kasus, Numerus, Person];
END;
CLASS D
< D;
END;
CLASS D
< D;
END;
CLASS D° < D;
END;
CLASS D
[subject] < D , Agreement.SubjectAgreement;
END;
...
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Methodenspezifikationsmodul
Syntax
METHODMODULE Modulname;
methodenname(Parameterliste):Methodenkörper.
END Modulname.
Beispiel
METHODMODULE Agreement;
agreement(Subject, Finitum):UnifyValues(Subject, Finitum,
Person ),
UnifyValues(Subject, Finitum,
Numerus ).
END Agreement.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Bindung der Methoden an Klassen
CLASSMODULE Agreement;
(* Kongruenzabgleich zwischen Subjekt und Finitum *)
CLASS SubjectAgreement;
agreement(Self,Other);
END;
CLASS FinitumAgreement;
agreement(Other,Self);
END;
END Agreement.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Überblick über die verwendeten Dateiformate
gff
General File of Files mit Verweisen auf das einzulesende
linguistische Wissen
atv
Attribute-Value-List, in der alle Attribute zusammen mit
den Werten, die sie annehmen können, aufgelistet sind
lex
Lexikon mit lexikalischer Information
cff
Class File of Files mit Verweisen auf die einzulesenden
Module linguistischen Wissens
cls
Classes-Modul mit einzelnen Klassen linguistischen
Wissens
msp
Methodenspezifikationsdatei mit den den entsprechenden
Klassenmodulen zugeordneten Methoden
gbx
Baumbeschreibungsdateien mit "Produktionsregeln"
wmf
Dargestellte Bäume als Graphik exportiert. Importierbar in
andere Dateiformate.
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Hierarchie der verwendeten Dateiformate
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Literatur / Hausaufgabe
Zur Nachbereitung:
Hermes (2001): Kapitel 4.1: LPS-Prolog (S. 49-56)
Lalande (1998): VisualGBX (S. 189-203)
Laden Sie sich das GBX-System herunter, richten Sie es nach Anleitung
ein und machen Sie sich mit dem System vertraut.
Zur Vorbereitung:
Seewald (1995): Antibabylonisch (S. 88-103)
Carstensen et al. (2001): Kapitel 5.14 (S. 514-522)
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Computerlinguistische
Grundlagen
Jürgen Hermes
Sommersemester 07
Sprachliche Informationsverarbeitung
Institut für Linguistik
Universität zu Köln
Maschinelle Übersetzung

Referat: MÜ-Überblick

MÜ-Systeme


VerbMobil und Eurotra

LPS
Zusammenfassung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Maschinelle Übersetzung - Ansätze

Direkte Übersetzung: lediglich morphologische, keine
syntaktische und semantische Analyse; Einsatz von
bilingualen Wörterbüchern (Wort-zu-Wort); Qualität des
Ergebnisses relativ schlecht.

Transfer: Syntaktisch-semanisch-analytisch erstellte abstrakte Repräsentation der Quellsprache wird transferiert
in eine ebensolche der Zielsprache. Problem: 2 Transferkomponenten pro Sprachpaar

Interlingua: Übersetzung in eine sprachunabhängige
Zwischenrepräsentation, Übersetzung von dieser in die
Zielsprache. Problem: Sprachneutralität überhaupt möglich?
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
MÜ-Ansätze: Überblick
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
MÜ-Begriffe
ALPAC-Report (1966): Propagierte grundsätzliche
Unrealisierbarkeit der MÜ
Translation Memories: Speicherung von hoch frequenten
Sätzen/Satzteilen in einer Datenbank
HAMT (Human-Aided-Machine-Translation) und MAHT
(Machine-Aided-Human Translation) statt einer rein
maschinellen Übersetzung
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Literatur / Hausaufgabe
Zur Nachbereitung:
Seewald (1995): Antibabylonisch (S. 88-103)
Carstensen et al. (2001): Kapitel 5.14 (S. 514-522)
Schöne Ferien!
Jürgen Hermes - Sprachliche Informationsverarbeitung – WS 06/07
Herunterladen