Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Syntax Alla Shashkina Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Was ist Syntax? • • Satzlehre System von Regeln, die beschreiben, wie aus einem Inventar von Grundelementen (Morphemen, Wörtern, Satzgliedern) durch spezifische syntaktische Mittel (Morphologische Markierung, Wort- und Satzstellung etc.) alle wohlgeformten Sätze einer Sprache abgeleitet werden Computerlinguistik ist spannend • Teil der Grammatik 2 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Kongruenz • Übereinstimmung zwischen zwei oder mehreren Satzelementen hinsichtlich ihrer morphosyntaktischen Kategorien (Kasus, Person, Numerus, Genus) • dient der Markierung syntaktischer Beziehungen 3 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Arten der Kongruenz • verbale K.: gesteuert von der syntaktischen Funktion (Subjekt, Objekt, Adverbial) der Verb-Begleiter • nominale K. betrifft Begleiter des Substantivs: Determinanten, adjektivische Attribute, Appositionen stimmen hinsichtlich Kasus und anderer Kategorien (z.B. Genus) mit Bezugssubstantiv überein • prädikative K.: Übereinstimmung von Subjekt und Prädikat in KNG • anaphorische K.: über Satzgrenzen hinaus, z.B. Koreferenz zwischen Pronomen und Bezugsnomen 4 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Rektion • lexemspezifische Eigenschaft von Verben, Adjektiven, Präpositionen oder Substantiven, die morphologische Kategorie (v.a. Kasus) abhängiger Elemente zu bestimmen • bei Verben gilt die unterschiedliche Rektion als Unterscheidungskriterium zwischen transitiven und intransitiven Verben • auf Basis der verschiedenen Rektionskasus werden auch die syntaktischen Funktionen der VerbBegleiter bestimmt 5 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Apposition • Konstituente einer Nominalphrase, die syntaktisch und (meist auch) referentiell mit dem nominalen Kern übereinstimmt 6 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Prädikativer vs. attributiver Gebrauch von Adjektiven • Adjektive können Teil des Prädikats sein wie in 'Fritz ist krank' (prädikativer Gebrauch), oder Teil einer Nominalphrase wie in 'der kranke Fritz' (attibutiver Gebrauch) 7 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Valenz • Regens vs. Dependens: Wenn B dependent von A ist, dann heißt A auch Regens von B und B heißt Dependens von A • Valenz (eines Lexems): Argumentstruktur (eines Lexems). Subkategorisierungsrahmen (eines Lexems). Zahl, semantische Kategorie, Realisierungsart (Kasus, Präpositionen usw.) und Realisierungsnotwendigkeit (obligatorisch oder fakultativ) der Ergänzungen, die das Lexem fordert • Stelligkeit (eines Lexems): Zahl der Ergänzungen, die das Lexem fordert 8 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Transitivität • Ein Verb heißt transitiv, wenn es mehr als eine Ergänzung fordert, sonst intransitiv minimaler Transitivitätsbegriff) 9 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Syntax und CL • Wie können formale Grammatiken verwendet werden, um natürlichsprachliche Ausdrücke syntaktisch zu analysieren? • syntaktische Analyse wichtige Rolle bei der Disambiguierung mehrdeutiger (ambiger) Аusdrücke • für statistische Untersuchungen von größeren Korpora werden syntaktische Komponenten zur Annotation mit Wortarteninformationen verwendet 10 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Disambiguierung Er sieht den Mann mit dem Fernrohr. 11 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Syntaktische Strukturen • 2 wesentliche Entwicklungsstränge: Dependenz- und Determinationssyntax und Konstituentenstruktursyntax • Dependenz- und Determinationssyntax: fassen syntaktische Strukturen als Relationen zwischen Wörtern auf • Konstituentenstruktursyntax: neben Wörtern werden auch komplexere Einheiten (sog. Konstituenten oder Phrasen) angenommen; zu den syntaktischen Strukturen zählen hier auch Relationen zwischen Konstituenten • in beiden Ansätzen Baumgraphen bzw. Strukturbäume zur Notation von syntaktischen Strukturen verwendet 12 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Dependenzgrammatik • Annahme,Verb legt Struktur eines Satzes entscheidend fest • alle anderen Wörter unmittelbar oder mittelbar vom Verb abhängig • Relation der Abhängigkeit wiedergegeben durch Kanten in Baumgraph 13 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Konstituenz • Syntaktische Konstituente: aufeinander folgende Worte, die eine syntaktische Einheit bilden; in einem Baumdiagramm wird eine Konstituente als Knoten des Baumdiagramms dargestellt. Als Grenzfall werden einzelne Worte auch als syntaktische Konstituenten begriffen. 14 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Konstituentenanalyse • Zerlegung eines Syntagmas in seine unmittelbaren Konstituenten, deren unmittelbaren Konstituenten usw. ➡ Substitutions-, Pronominalisierungs-, Permutations-, Topikalisierungsproben etc. 15 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Substitutionsprobe • Eine Zeichenfolge, die sich durch eine andere ersetzen lässt, ohne dass sich die Satzhaftigkeit ändert, ist evtl. eine Konstituente 16 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Pronominalisierungsprobe • Eine Wortfolge in einem Satz, deren Ersetzung durch Pronomen (bzw. Fragewort) wieder zu einem Satz (bzw. einer Frage) führt, ist ein Konstituentenkandidat. 17 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Permutationsprobe • Zwei nichtleere Wortfolgen in einem Satz, deren Vertauschung wieder einen Satz (oder eine Frage) ergibt, sind Konstituentenkandidaten 18 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Topikalisierungsprobe • Eine Teilfolge eines Satzes, deren Verschiebung vor das finite Verb die Topikposition wieder einen Satz ergibt, eist ein Konstituentenkandidat 19 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Konstituentenstrukturgrammatik Strukturbäume folgende Information: • Segmentierung: Zerlegung eines komplexen Ausdrucks in Teile, die wiederum komplex sein können • Kategorisierung der komplexen Teilausdrücke: z.B. S (Subjekt), P (Prädikat) usw. • Lineare Abfolge: Abfolge der Blätter entspricht Wortstellung 20 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Chomsky-Hierarchie • • 1956 erstmals durch Noam Chomsky benannt • ausgehend von einer nicht eingeschränkten Grundgrammatik vier Grammatiktypen • zunehmend Einschränkungen bezüglich der für den Typ erlaubten Produktionsregeln Hierarchie von Klassen formaler Grammatiken, die formale Sprachen erzeugen 21 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Chomsky-Hierarchie 22 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Formale Sprachen • weist gewisse Parallelen zu natürlichen Sprachen auf • besteht aus Menge von terminalen Zeichen, die zu Wörtern zusammengefügt werden können • außerdem Satz von Regeln (Grammatik genannt), der beschreibt, wie aus Wörtern so genannte gültige Ausdrücke (entsprechend natürlichen Sätzen) aufgebaut werden können 23 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Formale Sprachen • Menge von Grundzeichen (Alphabet Σ, z. B. die Menge aller Buchstaben und aller Ziffern) • • zweites Grundelement Grammatik mit Regeln • zwischen terminalen und nicht-terminalen Symbolen zu unterscheiden Grammatiken dargestellt durch Ersetzungsregeln α -> β 24 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Kontextfreie Grammatiken • Grammatik G = (N, T, Π, S) wobei N die Menge der Nichtterminal-Symbole T die Menge der Terminal-Symbole Π die Menge der Grammatik-Produktionen und S das Startsymbol der Grammatik bezeichnet • für jede Regel der Grammatik gilt, dass auf linker Seite der Regel genau ein nicht-terminales Symbol steht, und auf der rechten Seite eine beliebige (auch leere) Folge von Terminalen und Nichtterminalen 25 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Unifikationsgrammatiken • Verwendung von Merkmalsstrukturen zur Charakterisierung mehrerer Eigenschaften komplexer Objekte • wichtigste Vertreter: GPSG, LFG, PATR-II (DCG), HPSG 26 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 syntaktische Kategorie • Unter syntaktischer Kategorie versteht man eine Klasse von Elementen (Konstituenten), die die gleichen morpho-syntaktischen Eigenschaften aufweisen. • • lexikalische und phrasale Kategorien Erstere sind einfache Konstituenten (Wortarten), letztere komplexe Konstituenten (Phrasen). 27 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Kopf einer Phrase P • Dasjenige Element von P, das — aufgrund seiner Wortart — die morphosyntaktischen und syntaktischen Eigenschaften von P (hauptsächlich) bestimmt 28 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Phrasale Kategorien • • • • Nominalphrase (NP) Verbalphrase (VP) Präpositionalphrase (PP) Adjektivphrase (AP) 29 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Phrasenstrukturgrammatik • ein Quadrupel G = (N, T, Π, S), wo N ein Alphabet (Nichtterminale) T ein Alphabet (Terminale) Π ein Produktionssystem S ∈ N das Startsymbol 30 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Terminales vs. nichtterminales Symbol • Ein Symbol einer PSG heißt terminal gdw. es in Ersetzungsregeln nur rechts vom Pfeil vorkommt, sonst nichtterminal 31 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 PATR-II • Grammatik besteht aus zwei Komponenten: einem Lexikon und einer endlichen Menge von Grammatikregeln • • Kernbestandteil jeder Regel kontextfreier Kern • Definite Clause Grammar (DCG) ähnlich Unterschied zu traditioneller kontextfreier Grammatik syntaktische Kategorien nicht atomare Symbole, sondern Merkmalsstrukturen 32 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Generalized Phrase Structure Grammar (GPSG) • • • • • • Erweiterung der KFG ID/LP-Format ID-Regeln (immediate dominance rules: NP -> DET,N) LP-Statements (linear precedence statements: DET﹤N) Kopf X-Bar-Schema 33 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 X-Bar-Theorie • Alle syntaktischen Strukturen aller natürlicher Sprachen unterliegen gemeinsamen, universellen Bauprinzipien (Chomsky) • Phrasenkopf, Argumente, maximale Phrase, Kopfmerkmale, maximale Projektion • X-Bar-Schema kann in einer rekursiven Version folgendermaßen formuliert werden: X′ → { X, P″ } X′ → { X′, P″ } X″ → { X′, ( P″) } 34 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Head-Driven-Phrase Structure Grammar (HPSG) • aus Kontext der GPSG entstanden, enthält aber auch diverse Elemente anderer unifikationsbasierter Grammatiken (u.a. PATR-II, LFG) • im Unterschied zu den anderen genannten unifikationsbasierten Grammatikformalismen werden die Merkmalsstrukturen in der HPSG typisiert • 'head feature principle': im Wert von HEAD werden die Kopfinformationen untergebracht, die sich von einem Kopf auf die Phrase vererben 35 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Weitere Grammatikmodelle • • Kategorialgrammatiken Probabilistische kontextfreie Grammatiken (PKFG): PG = (N, T, Π, S,P) 36 Centrum für Informations- und Sprachverarbeitung ● Uni München ● Repetitorium ZP Sommersemester 09 Literaturhinweise • Hans Leiß: Syntax I. Vorlesungsskript SS 1998. Überarbeitung SS 2007) http:// www.cis.uni-muenchen.de/~leiss/syntax-07/syntax.pdf • Jörg Schuster: CL-I Skript http://www.cis.uni-muenchen.de/people/schuster/ cl1/skript.pdf • Sebastian Nagel: Arbeitsblätter http://www.cis.uni-muenchen.de/~wastl/ kurse/morpho/AB3.pdf • Sebastian Nagel: Ergänzungen zum Skript von Jörg Schuster http:// www.cis.uni-muenchen.de/~wastl/kurse/cl1/skript_erg5.pdf • K.-U. Carstensen, Ch. Ebert, C.Endriss, S.Jekat: Computerlinguistik und Sprachtechnologie. Eine Einführung. S. 233-252 37 Folien-Download: http://www.cip.ifi.lmu.de/~shashkina/Repetitorium/ repetitorium_syntax.pdf 38