Syntax Wiederholungsfolien

Werbung
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Syntax
Alla Shashkina
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Was ist Syntax?
•
•
Satzlehre
System von Regeln, die beschreiben, wie aus einem
Inventar von Grundelementen (Morphemen,
Wörtern, Satzgliedern) durch spezifische
syntaktische Mittel (Morphologische Markierung,
Wort- und Satzstellung etc.) alle wohlgeformten
Sätze einer Sprache abgeleitet werden
Computerlinguistik ist spannend
•
Teil der Grammatik
2
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Kongruenz
•
Übereinstimmung zwischen zwei oder mehreren
Satzelementen hinsichtlich ihrer morphosyntaktischen Kategorien (Kasus, Person,
Numerus, Genus)
•
dient der Markierung syntaktischer Beziehungen
3
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Arten der Kongruenz
•
verbale K.: gesteuert von der syntaktischen Funktion
(Subjekt, Objekt, Adverbial) der Verb-Begleiter
•
nominale K. betrifft Begleiter des Substantivs:
Determinanten, adjektivische Attribute, Appositionen
stimmen hinsichtlich Kasus und anderer Kategorien (z.B.
Genus) mit Bezugssubstantiv überein
•
prädikative K.: Übereinstimmung von Subjekt und Prädikat in
KNG
•
anaphorische K.: über Satzgrenzen hinaus, z.B. Koreferenz
zwischen Pronomen und Bezugsnomen
4
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Rektion
•
lexemspezifische Eigenschaft von Verben,
Adjektiven, Präpositionen oder Substantiven, die
morphologische Kategorie (v.a. Kasus) abhängiger
Elemente zu bestimmen
•
bei Verben gilt die unterschiedliche Rektion als
Unterscheidungskriterium zwischen transitiven
und intransitiven Verben
•
auf Basis der verschiedenen Rektionskasus werden
auch die syntaktischen Funktionen der VerbBegleiter bestimmt
5
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Apposition
•
Konstituente einer Nominalphrase, die syntaktisch
und (meist auch) referentiell mit dem nominalen
Kern übereinstimmt
6
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Prädikativer vs. attributiver
Gebrauch von Adjektiven
•
Adjektive können Teil des Prädikats sein wie in
'Fritz ist krank' (prädikativer Gebrauch), oder Teil
einer Nominalphrase wie in 'der kranke
Fritz' (attibutiver Gebrauch)
7
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Valenz
•
Regens vs. Dependens: Wenn B dependent von A ist,
dann heißt A auch Regens von B und B heißt Dependens
von A
•
Valenz (eines Lexems): Argumentstruktur (eines
Lexems). Subkategorisierungsrahmen (eines Lexems).
Zahl, semantische Kategorie, Realisierungsart (Kasus,
Präpositionen usw.) und Realisierungsnotwendigkeit
(obligatorisch oder fakultativ) der Ergänzungen, die das
Lexem fordert
•
Stelligkeit (eines Lexems): Zahl der Ergänzungen, die das
Lexem fordert
8
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Transitivität
•
Ein Verb heißt transitiv, wenn es mehr als eine
Ergänzung fordert, sonst intransitiv minimaler
Transitivitätsbegriff)
9
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Syntax und CL
•
Wie können formale Grammatiken verwendet
werden, um natürlichsprachliche Ausdrücke
syntaktisch zu analysieren?
•
syntaktische Analyse wichtige Rolle bei der
Disambiguierung mehrdeutiger (ambiger)
Аusdrücke
•
für statistische Untersuchungen von größeren
Korpora werden syntaktische Komponenten zur
Annotation mit Wortarteninformationen
verwendet
10
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Disambiguierung
Er sieht den Mann mit dem Fernrohr.
11
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Syntaktische Strukturen
•
2 wesentliche Entwicklungsstränge: Dependenz- und
Determinationssyntax und Konstituentenstruktursyntax
•
Dependenz- und Determinationssyntax: fassen syntaktische
Strukturen als Relationen zwischen Wörtern auf
•
Konstituentenstruktursyntax: neben Wörtern werden auch
komplexere Einheiten (sog. Konstituenten oder Phrasen)
angenommen; zu den syntaktischen Strukturen zählen hier
auch Relationen zwischen Konstituenten
•
in beiden Ansätzen Baumgraphen bzw. Strukturbäume zur
Notation von syntaktischen Strukturen verwendet
12
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Dependenzgrammatik
•
Annahme,Verb legt Struktur eines Satzes
entscheidend fest
•
alle anderen Wörter unmittelbar oder mittelbar
vom Verb abhängig
•
Relation der Abhängigkeit wiedergegeben durch
Kanten in Baumgraph
13
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Konstituenz
•
Syntaktische Konstituente: aufeinander folgende
Worte, die eine syntaktische Einheit bilden; in
einem Baumdiagramm wird eine Konstituente als
Knoten des Baumdiagramms dargestellt. Als
Grenzfall werden einzelne Worte auch als
syntaktische Konstituenten begriffen.
14
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Konstituentenanalyse
•
Zerlegung eines Syntagmas in seine unmittelbaren
Konstituenten, deren unmittelbaren Konstituenten
usw.
➡ Substitutions-, Pronominalisierungs-,
Permutations-, Topikalisierungsproben etc.
15
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Substitutionsprobe
•
Eine Zeichenfolge, die sich durch eine andere
ersetzen lässt, ohne dass sich die Satzhaftigkeit
ändert, ist evtl. eine Konstituente
16
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Pronominalisierungsprobe
•
Eine Wortfolge in einem Satz, deren Ersetzung
durch Pronomen (bzw. Fragewort) wieder zu
einem Satz (bzw. einer Frage) führt, ist ein
Konstituentenkandidat.
17
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Permutationsprobe
•
Zwei nichtleere Wortfolgen in einem Satz, deren
Vertauschung wieder einen Satz (oder eine Frage)
ergibt, sind Konstituentenkandidaten
18
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Topikalisierungsprobe
•
Eine Teilfolge eines Satzes, deren Verschiebung vor
das finite Verb die Topikposition wieder einen Satz
ergibt, eist ein Konstituentenkandidat
19
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Konstituentenstrukturgrammatik
Strukturbäume folgende Information:
•
Segmentierung: Zerlegung eines komplexen
Ausdrucks in Teile, die wiederum komplex sein
können
•
Kategorisierung der komplexen Teilausdrücke: z.B. S
(Subjekt), P (Prädikat) usw.
•
Lineare Abfolge: Abfolge der Blätter entspricht
Wortstellung
20
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Chomsky-Hierarchie
•
•
1956 erstmals durch Noam Chomsky benannt
•
ausgehend von einer nicht eingeschränkten
Grundgrammatik vier Grammatiktypen
•
zunehmend Einschränkungen bezüglich der für den
Typ erlaubten Produktionsregeln
Hierarchie von Klassen formaler Grammatiken, die
formale Sprachen erzeugen
21
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Chomsky-Hierarchie
22
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Formale Sprachen
•
weist gewisse Parallelen zu natürlichen Sprachen
auf
•
besteht aus Menge von terminalen Zeichen, die zu
Wörtern zusammengefügt werden können
•
außerdem Satz von Regeln (Grammatik genannt),
der beschreibt, wie aus Wörtern so genannte
gültige Ausdrücke (entsprechend natürlichen
Sätzen) aufgebaut werden können
23
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Formale Sprachen
•
Menge von Grundzeichen (Alphabet Σ, z. B. die
Menge aller Buchstaben und aller Ziffern)
•
•
zweites Grundelement Grammatik mit Regeln
•
zwischen terminalen und nicht-terminalen
Symbolen zu unterscheiden
Grammatiken dargestellt durch Ersetzungsregeln α
-> β
24
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Kontextfreie Grammatiken
•
Grammatik G = (N, T, Π, S) wobei
N die Menge der Nichtterminal-Symbole
T die Menge der Terminal-Symbole
Π die Menge der Grammatik-Produktionen und
S das Startsymbol der Grammatik bezeichnet
•
für jede Regel der Grammatik gilt, dass auf linker
Seite der Regel genau ein nicht-terminales Symbol
steht, und auf der rechten Seite eine beliebige (auch
leere) Folge von Terminalen und Nichtterminalen
25
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Unifikationsgrammatiken
•
Verwendung von Merkmalsstrukturen zur
Charakterisierung mehrerer Eigenschaften
komplexer Objekte
•
wichtigste Vertreter: GPSG, LFG, PATR-II (DCG),
HPSG
26
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
syntaktische Kategorie
•
Unter syntaktischer Kategorie versteht man eine
Klasse von Elementen (Konstituenten), die die
gleichen morpho-syntaktischen Eigenschaften
aufweisen.
•
•
lexikalische und phrasale Kategorien
Erstere sind einfache Konstituenten (Wortarten),
letztere komplexe Konstituenten (Phrasen).
27
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Kopf einer Phrase P
•
Dasjenige Element von P, das — aufgrund seiner
Wortart — die morphosyntaktischen und
syntaktischen Eigenschaften von P (hauptsächlich)
bestimmt
28
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Phrasale Kategorien
•
•
•
•
Nominalphrase (NP)
Verbalphrase (VP)
Präpositionalphrase (PP)
Adjektivphrase (AP)
29
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Phrasenstrukturgrammatik
•
ein Quadrupel G = (N, T, Π, S), wo
N ein Alphabet (Nichtterminale)
T ein Alphabet (Terminale)
Π ein Produktionssystem
S ∈ N das Startsymbol
30
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Terminales vs. nichtterminales
Symbol
•
Ein Symbol einer PSG heißt terminal gdw. es in
Ersetzungsregeln nur rechts vom Pfeil vorkommt,
sonst nichtterminal
31
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
PATR-II
•
Grammatik besteht aus zwei Komponenten: einem
Lexikon und einer endlichen Menge von
Grammatikregeln
•
•
Kernbestandteil jeder Regel kontextfreier Kern
•
Definite Clause Grammar (DCG) ähnlich
Unterschied zu traditioneller kontextfreier
Grammatik syntaktische Kategorien nicht atomare
Symbole, sondern Merkmalsstrukturen
32
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Generalized Phrase Structure
Grammar (GPSG)
•
•
•
•
•
•
Erweiterung der KFG
ID/LP-Format
ID-Regeln (immediate dominance rules: NP -> DET,N)
LP-Statements (linear precedence statements: DET﹤N)
Kopf
X-Bar-Schema
33
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
X-Bar-Theorie
•
Alle syntaktischen Strukturen aller natürlicher
Sprachen unterliegen gemeinsamen, universellen
Bauprinzipien (Chomsky)
•
Phrasenkopf, Argumente, maximale Phrase,
Kopfmerkmale, maximale Projektion
•
X-Bar-Schema kann in einer rekursiven Version
folgendermaßen formuliert werden:
X′ → { X, P″ }
X′ → { X′, P″ }
X″ → { X′, ( P″) }
34
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Head-Driven-Phrase Structure
Grammar (HPSG)
•
aus Kontext der GPSG entstanden, enthält aber auch
diverse Elemente anderer unifikationsbasierter
Grammatiken (u.a. PATR-II, LFG)
•
im Unterschied zu den anderen genannten
unifikationsbasierten Grammatikformalismen werden die
Merkmalsstrukturen in der HPSG typisiert
•
'head feature principle': im Wert von HEAD werden die
Kopfinformationen untergebracht, die sich von einem
Kopf auf die Phrase vererben
35
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Weitere
Grammatikmodelle
•
•
Kategorialgrammatiken
Probabilistische kontextfreie Grammatiken
(PKFG): PG = (N, T, Π, S,P)
36
Centrum für Informations- und Sprachverarbeitung
●
Uni München
●
Repetitorium ZP Sommersemester 09
Literaturhinweise
•
Hans Leiß: Syntax I. Vorlesungsskript SS 1998. Überarbeitung SS 2007) http://
www.cis.uni-muenchen.de/~leiss/syntax-07/syntax.pdf
•
Jörg Schuster: CL-I Skript http://www.cis.uni-muenchen.de/people/schuster/
cl1/skript.pdf
•
Sebastian Nagel: Arbeitsblätter http://www.cis.uni-muenchen.de/~wastl/
kurse/morpho/AB3.pdf
•
Sebastian Nagel: Ergänzungen zum Skript von Jörg Schuster http://
www.cis.uni-muenchen.de/~wastl/kurse/cl1/skript_erg5.pdf
•
K.-U. Carstensen, Ch. Ebert, C.Endriss, S.Jekat: Computerlinguistik und
Sprachtechnologie. Eine Einführung. S. 233-252
37
Folien-Download:
http://www.cip.ifi.lmu.de/~shashkina/Repetitorium/
repetitorium_syntax.pdf
38
Herunterladen