Folien zur Vorlesung ”Mathematische Grundlagen der Computerlinguistik” Susanne Schacht Arbeitsgruppe Computerlinguistik, Universit ät Freiburg Friedrichstr. 50, D-79098 Freiburg, Germany e-mail: [email protected] WS 1997/98 Die Vorlesung spricht Themen sowohl der mathematischen Grundlagen der Linguistik als auch der formalen Grundlagen der maschinellen Sprachverarbeitung an. Die Veranstaltung besteht aus den vier Bl öcken Algebra, Logik, formale Sprachen und Komplexität, sowie Statistik. Die Betonung liegt dabei jeweils auf m öglichen Anwendungen für die Computerlinguistik. 1 Inhalt 1. Mengentheorie und Algebra (a) Einführung;Mengen und Relationen (b) Funktionen (c) Algebraische Strukturen: Gruppen, Partiell geordnete Mengen, Verb ände 2. Logik, formale Systeme (a) Aussagenlogik (b) Prädikatenlogik (c) Formale Systeme, Inferenz (d) Nicht-Standard-Logiken (e) Merkmalslogik, Unifikation (f) Typtheorie, Lambda-Kalkül, Montague-Semantik 3. Theoretische Informatik (a) Formale Grammatiken, Chomsky-Hierarchie (b) Sprachen und Automaten (c) Berechenbarkeit und Komplexität 4. Statistik (a) Grundbegriffe 1 (c) Hidden Markov Modelle (d) Anwendung: Tagging (e) Anwendung: Parsing (f) Bits and Pieces 2 Literatur 2.1 Lehrbuch/Script 1. Barbara H. Partee, Alice ter Meulen & Robert Wall: Mathematical Methods in Linguistics, 1990 (Partee et al., 1990). Das Buch deckt ca. 3/4 der Vorlesung ab. Es setzt keine mathematischen Grundkenntnisse voraus und betont die Anwendungen der vorgestellten Formalismen. 2. Brigitte Krenn und Christer Samuelsson: The Linguist's Guide to Statistics (Krenn & Samuelsson, 1997). http://www.coli.uni-sb.de/ christer/stat cl.ps Sehr gründliche Einführung in Wahrscheinlichkeitstheorie und alle m öglichen Anwendungen von Statistik in der Linguistik. Leider noch Lücken an einigen Stellen, ausführliche Literaturliste. 3. Eugene Charniak: Statistical Language Learning, 1993 (Charniak, 1993) Nur bedingt empfehlenswert, mathematisch eher dünn, als Anwendungen nur Tagging, Parsing und Grammatik-Inferenz. 2.2 zusätzliche Literatur zu den einzelnen Themen 1. Algebra 2. Logik Zur Einführung in Aussagen- und Prädikatenlogik: (Schöning, 1987) Merkmalslogik, Unifikation: (Shieber, 1986) Anwendung Semantik: (Lohnstein, 1997), Montague-Semantik gründlich: 3. formale Sprachen, Berechenbarkeit Komplexit ät Einführung in die Theoretische Informatik: (U. Sch öning, 1997) Komplexität und Natürliche Sprache: (Barton et al., 1987), Komplexit ät einzelner Grammatikformalismen und Parsingalgorithmen: (Barton, 1985), (Johnson, 1989), (Neuhaus & Br öker, 1997) 4. Wahrscheinlichkeitsrechnung und Statistik Zur Motivation von statistischen Methoden: (Abney, 1996a) Stochastische Grammatiken: TAGs: (Schabes, 1992) HPSG: (Brew, 1995) Merkmalsgrammatiken: (Abney, 1996b) Sparse Data: (Samuelsson, 1996) Semantik: (Bonnema et al., 1997) Literatur Abney, Steven (1996a). Statistical methods and linguistics. In Judith Klavans & Philip Resnik (Eds.), The Balancing Act. MIT Press, Cambridge, MA. Abney, Steven (1996b). Stochastic Attribute-Value Grammars. unpublished. Language. Cambridge, MA, London: Bradford, MIT Press. Barton, G. Edward (1985). On the complexity of id/lp parsing. Computational Linguistics, 11(4):205–218. Bonnema, Remko, Rens Bod & Remko Scha (1997). A DOP model for semantic interpretation. In ACL/EACL 1997 Proceedings, pp. 159 – 167. Madrid, Spain: ACL. http://earth.let.uva.nl/ bonnema/acl-DOP-sem/aclDOP-sem.html. Brew, Chris (1995). Stochastic hpsg. In ACL'95 – 33rd Annual Meeting of the Association for Computational Linguistics. Charniak, Eugene (1993). Statistical Language Learning. Cambridge, MA: MIT Press. Johnson, M. (1989). The computational complexity of Tomita's algorithm. In Proceedings of the 1st Int'l. Workshop on Parsing Technologies (IWPT'89). Carnegie-Mellon University, Pittsburgh, PA, 1989, pp.203208. Krenn, Brigitte & Christer Samuelsson (1997). sb.de/christer/stat cl.ps. The Linguist's Guide to Statistics. http://www.coli.uni- Lohnstein, Horts (1997). Formale Semantik und Natürliche Sprache. Westdeutscher Verlag. Neuhaus, P. & N. Bröker (1997). The complexity of recognition of linguistically adequate dependency grammars. In ACL-97/EACL-97 – Proc. of the 35rd Annual Meeting of the Association for Computational Linguistics and the 8th Conf. of the European Chapter of the Association for Computational Linguistics. Partee, B. H., A. ter Meulen & R. E. Wall (1990). Mathematical Methods in Linguistics, Vol. 30. Studies in Linguistics and Philosophy. Dordrecht, NL: Kluwer Academic Press. Samuelsson, Christer (1996). Handling sparse data by successive abstraction. In Proceedings of the 16th International Conference on Computational Linguistics, ICCL 1996. Schabes, Yves (1992). Stochastic lexicalized tree-adjoining grammars. In COLING '92 - Proceedings 15th Int'l. Conference on Computational Linguistics, pp. 426–432. Schöning, Uwe (1987). Logik für Informatiker. Mannheim: BI Wissenschaftsverlag. Shieber, Stuart M. (1986). An introduction to unification-based approaches to grammar. Lecture Notes 4. Stanford, CA: CLSI. U. Schöning (1997). Theoretische Informatik kurz gefasst (3 ed.). Heidelberg: Spektrum Akademischer Verlag. 1 Warum? was? Linguistik Computerlinguistik Algebra exakte formale Beschreibungen von: u. Logik Syntax u. Semantik zusätzlich Weltwissen Theoretische Aufwandsabschätzungen, Informatik Berechenbarkeit quantitative “Performanz”: Statistik Linguistik kogn. Modellierung techn. P.-Steigerung 2 Mengen Eine Menge ist eine (ungeordnete) Sammlung von unterscheidbaren Objekten, ihren Elementen. – das können auch Mengen sein! Eine Menge ist wohl-definiert, wenn nach einem klaren Prinzip entschieden werden kann, ob ein Objekt Element einer Menge ist oder nicht. Schreibweise: f ¨ur Mengen, Grossbuchstaben f ¨ur Elemente. Kleinbuchstaben leere Menge: ist / ist nicht Element von bzw. : 3 Beschreibungen für Mengen 1. Listen-Notation, Aufzählung: 2. Charakteristische Eigenschaft, Beschreibung: gerade Russells Paradox... 3. Verfahren zur Generierung der Elemente: 1. 4 ist Element der Menge . ist, 2. wenn x Element der Menge dann auch x + 3. 3. nichts sonst ist Element der Menge . ¨ Identitat: genau dann, wenn alle in auch Element von sind und alle in auch in . ¨ Kardinalitat: Anzahl der Elemente einer Menge: oder # Wenn eine nat ¨urliche Zahl ist, heisst endlich, sonst unendlich. Beispiel? 4 Mengenoperationen genau dann, wenn alle Elemente Teilmenge: von auch Elemente von sind. F ¨ur alle Mengen gilt: echte Teilmenge: gdw. und und disjunkte Mengen: Zwei (mehrere) Mengen heissen disjunkt, wenn kein x Element von und ist. Potenzmenge: Schnitt: Differenz: Vereinigung: , Menge aller Teilmengen von , alle Elemente von oder , Menge aller Elemente von and . . und Komplement: immer in Bezug auf Grundmenge / Universum : . 5 Verknüpfungseigenschaften Idempotenz (a) (b) Kommutativität (b) (a) Assoziativität (a) (b) Distributivität (a) (b) Identitätsgesetze (a) (b) (c) (d) Komplementgesetze (b) (a) (c) (d) DeMorgans Gesetze (a) (b) Konsistenz (a) gdw. (b) gdw. 6 Tupel geordnetes Paar, mengentheoretische Definition: mit der Eigenschaft Kartesisches Produkt: . und Projektion auf erste / zweite Koordinate von : bzw. Erweiterung auf n-Tupel möglich... 7 Relationen (zweistellige) Relationen: Beziehungen zwischen (zwei) Objekten. Relation von nach ; , in . falls Definitionsbereich, domain: und es gibt ein so, dass Wertebereich, range: und es gibt ein so, dass Schreibweise: Komplement von Inverse: identische Abbildung in . oder : : 8 Eigenschaften von Relationen ¨ Reflexivitat: f ¨ur alle , d.h. Symmetrie: f ¨ur alle – nicht reflexiv: nicht alle von . – irreflexiv: kein , . , . . – nicht symmetrisch: nicht f ¨ur alle auch . – asymmetrisch: nie sowohl als auch (also auch irreflexiv). – antisymmetrisch: wenn und , dann . ¨ Transitivitat: f ¨ur alle – nicht transitiv: nicht f ¨ur alle ... – intransitiv: f ¨ur keine ... . 9 Beispiel in der Menge der Artikel (RelativproRelation nomen) und Substantive: gdw. eines der beiden ist Artikel, das an dere Substantiv und und kongruieren in Kasus, Numerus und Genus irreflexiv symmetrisch nicht transitiv Überpr ¨ufung durch Relationstafel: zur Reflexivität betrachte die Diagonale... zur Symmetrie: sind die Einträge an der Diagonale gespiegelt? zur Transitivität: nachrechnen... 10 Äquivalenzrelationen Relationen, die reflexiv symmetrisch transitiv ¨ sind, heissen Aquivalenzrelationen. Sie zerlegen ihren Definitionsbereich in disjunkte Teilmengen, die ¨ Aquivalenzklassen. Schreibweise: Äquivalenzklasse von : ist äquivalent zu : (auch: kongruent) Beispiel: Relation in der Menge der nat ¨urlichen Zahlen (mit 0): gdw. und hinterlassen bei der Division durch 4 den gleichen Rest. 11 Ordnungsrelationen Transitive Relationen heissen Ordnungsrelationen. partielle Ordnung, : – transitiv, d.h. wenn – reflexiv, d.h. f ¨ur alle . – antisymmetrisch, d.h. wenn . totale Ordnung: vergleichbar: alle strikte Ordnung, – transitiv – irreflexiv – asymmetrisch oder , dann . . , dann 12 Beispiele Partielle Ordnungsrelationen lassen sich in sog. Hasse-Diagrammen darstellen: und teilt 4 6 2 3 5 1 Totale Ordnungen bilden eine Kette, betrachte Hasse-Diagramm von und teilt Sei eine Ordnungsrelation in gegeben. heisst untere Grenze, wenn es kein gibt mit . ist kleinstes Element von , wenn f ¨ur alle gilt: . ¨ obere Grenze und grosstes Element entsprechend... wohlgeordnet: jede Teilmenge hat kleinstes Element... 13 Übung: Teilmengen seien Mengen. Zu zeigen ist: wenn dann auch Beweis: F ¨ur alle Elemente einer Menge , die Teilmenge einer Menge ist, gilt, dass auch Element von ist. (Definition der Teilmenge) f ¨ur alle Dies gilt auch f ¨ur alle Elemente in Teilmengen von , auch Teilmengen somit sind alle Teilmengen von von , f ¨ur alle und damit Element von menge) f ¨ur alle . (Definition der Potenz Damit sind alle Elemente von , also gilt: Gilt auch die Umkehrung? auch Element von 14 Funktionen (= Abbildungen) Eine Relation von nach heisst partielle Funktion gdw. wenn und , dann . D.h., ein wird auf höchstens ein abgebildet. Schreibweise: ; Argumente, Werte. heisst auch Urbild, und es gibt mit Bild von F, Urbild von . oft Kleinbuchstaben (totale) Funktion von f ¨ur Funktionen nach : jedes ... Beispiel: Sei eine Menge von lexikalischen Schl ¨usseln, die Menge der Einträge. Ist mit Eintrag zu eine Funktion? 15 Eigenschaften von Funktionen surjektiv: “jedem Element von ist ein Urbild zugeordnet” injektiv: Eins-zu-eins-Abbildung, d.h.: , dann . wenn “verschiedene Argumente haben verschiedene Funktionswerte.” bijektiv: injektiv und surjektiv “jedem Element von ist genau ein Urbild zugeordnet” 16 Übungen zu Funktionseigenschaften Sei oder falsch? . Sind die folgenden Aussagen wahr 1. ist genau dann bijektiv, wenn ist. umkehrbar jedes 2. Ist surjektiv, so hat stens ein Bild . minde- 3. Hat jedes mindestens ein Bild , so ist surjektiv. 4. Gibt es zu jedem mit , so ist 5. Gibt es zu jedem , so ist injektiv. höchstens ein injektiv. ein mit 6. ist genau dann bijektiv, wenn zu jedem genau ein existiert mit . 7. ist genau dann bijektiv, wenn zu jedem genau ein existiert mit . 8. Ist bijektiv, so gibt es zu jedem höchstens ein mit . 1, 2, 5, 7, 8 sind wahr, die anderen falsch. 1. Ist bijektiv, so gibt es zu jedem höchstens ein mit . 2. Folgt aus f ¨ur alle dass , dann ist injektiv. , 3. Sind und endlich und ist injektiv, dann ist auch bijektiv. 4. ist stets surjektiv. 5. Gilt , so kann nicht bijektiv sein. 6. Ist surjektiv und die Umkehrrelation von eine injektive Abbildung, so ist auch injektiv. 7. Ist injektiv und die Umkehrrelation von eine surjektive Abbildung, so ist bijektiv. 8. Ist surjektiv und nicht injektiv, so ist die Umkehrrelation eine surjektive, nicht injektive Funktion. 9. Ist Bijektion , so ist jede Injektion auch eine 10. Jede Injektion lässt sich durch Einschränkung des Wertebereichs zu einer Bijektion machen. 1, 2, 4, 5, 6, 7, 10 sind wahr, die anderen falsch. 17 Verknüpfung von Funktionen Komposition, Verkn ¨upfung Gegeben: dann: mit (Achtung: Schreibrichtung...) Sei gegeben. Dann gilt: und f ¨ur bijektive : und mehrstellige Funktionen: mit Hilfe von Tupeln... 18 Beispiel Komposition Gegeben: Mengen von Sätzen in nat ¨urlichen Sprachen: englisch, deutsch, spanisch. Ausserdem Funktionen: , , , Wie ¨ubersetze ich einen deutschen Satz in einen englischen? zuerst deutsch nach spanisch, dann spanisch nach englisch: Wie viele einzelne Übersetzungsfunktionen braucht man, um Übersetzer f ¨ur Sprachen zu konstruieren? Wenn nicht mehr als zwei Schritte vorgenommen werden sollen? 19 Mengen mit unendlicher Kardinalität ¨ Zwei (endliche) Mengen heissen aquivalent, wenn sie die gleiche Anzahl von Elementen haben : gdw. Zwei Mengen sind äquivalent, wenn zwischen ihnen eine bijektive Abbildung existiert. Eine Menge ist unendlich, wenn sie zu einer ihrer echten Teilmengen äquivalent ist. Beispiel: von N auf Abbildung ? Auf die Menge der ganzen Zahlen? ¨ Mengen, die aquivalent sind zur Menge der Nat ¨urlichen Zahlen N, heissen aufzählbar. Kardinalität dieser Mengen: (Aleph) Noch “grössere” Mengen? 20 Prinzip der vollständigen Induktion Ziel: eine allgemeine Aussage über Elemente aufzählbarer Mengen zu beweisen. Vorgehensweise: 1. A(1), Induktionsanfang: Beweis f ¨ur das erste Element. 2. A(k) A(k+1), Induktionsschritt: (a) Annahme: Aussage gelte f ¨ur die ersten Elemente. (b) Zeige, dass daraus Aussage ¨uber . Element folgt. 3. Induktionsschluss: Daraus folgt, dass die Aussage f ¨ur alle Elemente gilt! 21 Beispiel Behauptung: Die Anzahl der Elemente der Potenzmenge einer endlichen Menge ist gleich 2 hoch der Anzahl der Elemente von Beweis durch Induktion über die Anzahl der Elemente von A: 1. Induktionsanfang: Dann ist 2. Induktionsschritt: habe genau ein Element, . , und hat zwei Elemente, (a) Annahme: Sei (b) Sei . Dann gilt: , d.h. alle Teilmengen von erweitert um , d.h. genau mehr Mengen. Daraus folgt: 3. Induktionsschluss: Daraus folgt, dass Mengen gilt. f ¨ur alle endlichen 22 überaufzählbare Mengen Theorem von Cantor: die Potenzmenge einer Menge hat eine grössere Kardinalität als die Menge selbst. Beweis durch Widerspruch: Annahme: es existiert bijektive Sei . Es muss mit geben. Ist Element von ? Daraus folgt: N . N Diagonalisierungsargument (Gödel): N , dann muss es eine Möglichkeit geben, Wenn N N systematisch hinzuschreiben. Sei diese Folge von Mengen . . Sei Es gibt kein mit , kann nicht in der Liste stehen, also kann es diese Liste gar nicht geben. 23 Algebren Eine algebraische Struktur oder Algebra A ist eine Menge zusammen mit einer oder mehreren Ope f ¨ur ): rationen ( A Beschränkungen: die Stelligkeit jeder Operation muss endlich sein; jede Anwendung der Operationen ergibt genau ein Element aus . Gegeben: Axiom 1 Abgeschlossenheit: ist unter abgeschlossen, d.h. f ¨ur alle existiert ein mit . Axiom 2 Eindeutigkeit: Wenn und , dann ist eine Unterstruktur / Subalgebra vom gdw. und abgeschlossen bez. 24 Eigenschaften von Operationen Gegeben: eine Operation F ¨ur alle : in . ¨ Assoziativitat assoziativ: Addition, Multiplikation; nicht-assoziativ: Subtraktion, Division ¨ Kommutativitat kommutativ: Multiplikation, ...; nicht kommutativ: Subtraktion, ... Idempotenz idempotent: Schnittmengenbildung, ... ¨ zusätzlich: zweite Operation Distributivitat Multiplikation distribuiert ¨uber Addition, aber nicht umgekehrt 25 spezielle Elemente links- bzw. rechtsneutrales Element, neutrales Element bzw. Komposition von Funktionen : identi sche Abbildung , bzw. ; 0 ist rechtsneutral f ¨ur Subtraktion ... , Bei kommutativen Operationen gilt neutrales Element. (Kommutativität hinreichend, nicht notwendig) Wenn ein neutrales Element existiert, ist es eindeutig! Beweis... inverse Elemente Gegeben neutrales Element . F ¨ur existiert rechts-(links-)inverses El. , wenn bzw. heisst inverses Element von . Wenn invers zu , dann auch zu ! Beispiele? 26 Verknüpfungstafeln Zeigen von Eigenschaften: “durchrechnen” z.B. mit Verkn ¨upfungstafeln: Bsp: Addition modulo 4 in 0 1 2 3 0 0 1 2 3 1 1 2 3 0 2 2 3 0 1 3 3 0 1 2 abgeschlossen, kommutativ, inverse Elemente, neutrales Element... 27 Morphismen Abbildungen zwischen Algebren, Anzahl der Operationen! ,B Sei A Morphismus: Funktion mit , A B. Gleiche heisst verkn ¨upfungstreu. Isomorphismus: verkn ¨upfungstreue, bijektive Funktion A und B heissen isomorph, wenn es einen Isomorphismus zwischen ihnen gibt. Automorphismus: Isomorphismus von A auf sich selbst, z.B. identische Abbildung 28 Gruppen Eine Struktur G ist eine Gruppe, wenn gilt: G1: G ist eine Algebra (d.h. ist vollständig definiert und ist unter abgeschlossen) G2: ist assoziativ G3: enthält ein neutrales Element G4: Jedes Element in hat ein inverses. Bsp: positive rationale und Multiplikation, Ad Zahlen , gerade Zahlen und Addition modulo 4 in dition. Abelsche Gruppe: zusätzlich kommutativ. 29 Gruppen II Untergruppe: Subalgebra und selbst Gruppe Ordnung einer Struktur: Anzahl der Elemente der Menge Die Ordnung jeder Untergruppe einer endlichen Gruppe G teilt die Ordnung von G. , Beispiel: Addition modulo 4 in G Untergruppen: Alle Subalgebren von endlichen Gruppen sind ebenfalls Gruppen, d.h., nur Abgeschlossenheit muss gezeigt werden... Der Schnitt zweier Untergruppen ist wieder eine Untergruppe. Halbgruppen: nur G1 + G2 Monoide: G1, G2 + G3 Abelsches Monoid: kommutatives Monoid 30 Integritätsringe D ist ein Integritätsring, wenn gilt: ist Abelsche Gruppe mit neutralem Element 0 ist Abelsches Monoid mit neutralem Element (Distributivgesetz) F ¨ur alle . (K ¨urzungsregel) und , dann . Wenn Beispiel: Ganze Zahlen, Addition und Multiplikation Ordnungsrelation f ¨ur Integritätsring D, gdw. f ¨ur alle D: 1. Additionsgesetz: und wenn , dann 2. Multiplikationsgesetz: wenn und , dann . . 3. Trichotomiegesetz: entweder , oder . wohlgeordnet: wenn jede nicht-leere Teilmenge ein kleinstes Element enthält. 31 Posets Partiell geordnete Menge (poset): eine Menge und eine reflexive, antisymmetrische und transitive Relation (partielle Ordnungsrelation) darin. Kette: vollständig (total) geordnete Menge oder f¨ ur alle . Sei . heisst untere Grenze von , wenn es kein gibt mit . ist Infimum (greatest lower bound) von , inf , wenn f ¨ur alle gilt: . Umkehrung der Relation erhält die Eigenschaften des Posets. heisst obere Grenze von , wenn es kein gibt mit . ist Supremum (least upper bound) von , sup , wenn f ¨ur alle gilt: . Supremum und Infimum sind immer eindeutig! 32 Verbände Zwei Hinleitungen: 1. durch Posets: Ein Poset ist ein Verband, wenn sup und inf f ¨ur alle existieren. 2. als algebraische Struktur: Zwei neue (binäre) Operationen auf : inf sup (meet) und (join). Eigenschaften eines Verbandes: Idempotenz Kommutativität Assoziativität Absorption 33 Aussagen Atomare Aussagen, die wahr oder falsch sein können: “ Paris liegt in Frankreich ” “ Essig schmeckt sauer ” nicht: “ Paris ” oder “ in Frankreich ” Syntax der Aussagenlogik Atomare Formeln: ; Formeln induktiv definiert: 1. Alle atomaren Formeln sind Formeln. 2. F ¨ur alle Formeln und sind (Konjunkti on) und (Disjunktion) Formeln. 3. F ¨ur jede Formel Abk ¨urzungen: f ¨ur f ¨ur f ¨ur Notationsvarianten: , f ¨ur , & f ¨ur ist (Negation) eine Formel. , , 34 Bedeutung Zuordnung einer “Bedeutung”, Interpretation: Semantik der Aussagenlogik Menge der Wahrheitswerte: , D Teilmenge der atomaren Formeln, Belegung: D , falls und 1. sonst falls oder 2. sonst falls 3. sonst entspricht “und”, dem einschliesslichen “oder”, “wenn ..., dann ...”, “ genau dann ..., wenn ...”. 35 Wahrheitstafeln 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 0 1 0 1 0 1 0 1 1 1 1 1 0 1 1 0 0 1 und da oder falls sonst falls sonst falls sonst falls sonst falls sonst Sei Dann: 36 Beispiel . 37 Definitionen Sei eine Formel und eine Belegung. heisst zu F passend, falls f ¨ur alle in vorkommenden Formeln definiert ist. heisst Modell f ¨ur F, geschrieben , falls . heisst erf ¨ullbar, falls es mindestens ein Modell f ¨ur unerf ¨ullbar). gibt (sonst ist heisst g ¨ultig oder Tautologie, geschrieben , falls jede zu passende Belegung ein Modell f ¨ur ist. folgt aus , wenn f ¨ur jede Belegung , die zu und passt, gilt: wenn Modell f ¨ur ist, ist auch Modell f ¨ur . Bemerkung: dies ist die semantische Entsprechung der Implikation! folgt aus genau dann, wenn eine Tautologie ist. 38 Satz, Beweis,... ist g ¨ultig genau dann, wenn unerf ¨ullbar ist. Beweis: ist g ¨ultig gdw. jede passende Belegung ist Modell f ¨ur gdw. jede dieser Belegungen ist kein Modell f ¨ur gdw. hat kein Modell, ist also unerf ¨ullbar. F ¨ur Belegungen und gilt: gdw. und auf allen atomaren Formeln in übereinstimmen. Beweis durch Induktion ¨uber den Formelaufbau: Behauptung gelte f ¨ur und , zu zeigen: Behauptung gilt auch f ¨ur , und ... 39 Äquivalenz, Ersetzbarkeit ¨ Zwei Formeln und heissen aquivalent, , falls f ¨ur alle zu und passenden Belegungen gilt: Ersetzbarkeitstheorem Seien zwei Formeln und äquivalent, eine Formel mit mindestens einem Vorkommen der Teilformel . Dann ist aus geäquivalent zu , wenn bildet wird, indem darin (mindestens einmal) durch ersetzt wird. (Beweis durch Induktion) Äquivalenzregeln und Ersetzbarkeitstheorem ermöglichen Umformung von Formeln in Normalformen... 40 Äquivalenzregeln Idempotenz (a) (b) Kommutativität (a) Assoziativität (a) (b) Distributivität (a) (b) Absorption (a) Doppelnegation (b) (b) DeMorgans Gesetze (a) Tautologieregeln (a) , falls (b) , falls Unerf ¨ullbarkeitsregeln (a) , falls (b) , falls (b) Tautologie Tautologie unerf ¨ullbar unerf ¨ullbar 41 Beispiele “Wenn die Sonne scheint, gehe ich schwimmen. Da es regnet, gehe ich nicht zum Schwimmen” “Wenn das Kind Fieber oder Husten reichen den Arzt, dann rufen wir ihn” hat und wir er- Auflösung von deMorgan deMorgan Distr.Ges. Distr.Ges. + Ass.Ges. Komm.Ges. “Wenn das Kind Fieber hat, dann rufen wir den Arzt, wenn wir ihn erreichen, und, wenn wir ihn erreichen, dann rufen wir ihn, wenn das Kind hustet” 42 Übung: Umformungen Zu zeigen: zu jeder Formel gibt es eine äquivalente Formel, die nur die Operatoren und enthält. Zu zeigen: nicht zu jeder Formel gibt es eine äqui valente Formel, die nur die Operatoren und enthält. 43 Normalformen Ein Literal ist eine atomare Formel oder deren Negation. ist in konjunktiver Normalform (KNF), wenn sie eine “Konjunktion von Disjunktionen von Literalen” ist. D.h., sie hat die Form: oder auch Mengenschreibweise (Mengen von Klauseln): ist in disjunktiver Normalform (DNF), wenn sie eine “Disjunktion von Konjunktionen von Literalen” ist. D.h., sie hat die Form: oder auch Induktionsbeweis, dass diese Formeln f ¨ur jede Formel existieren, liefert Konstruktionsverfahren daf ¨ur. Aber: exponentielle Verlängerung... 44 Diätvorschriften “Wenn ich kein Bier trinke, habe ich immer Fisch.” “Wenn ich Bier und Fisch zur selben Mahlzeit habe, verzichte ich auf Eiscreme.” “Wenn ich Eiscreme habe oder Bier meide, dann r ¨uhre ich den Fisch nicht an” Formel: Warhheitstafel: B F E ( B F) (B F) .. E (E B) .. F 0 0 0 0 0 1 1 1 0 0 1 1 0 1 1 0 0 1 0 0 0 1 1 1 0 1 1 1 0 1 1 0 1 0 0 1 0 1 0 1 1 0 1 1 1 1 0 1 1 1 0 1 0 1 1 0 1 1 1 1 1 0 1 1 Also: G 0 0 0 0 1 1 0 0 45 Hornformeln Hornformel: Formel in KNF, deren Disjunktionen höchstens ein positives Literal enthalten. Beispiel: Umformung in Konjunktionen von Implikationen: Test auf Erf ¨ullbarkeit: Eingabe: Hornformel F 1. Markiere alle Vorkommen einer atomaren Formel , falls Teilformel in vorkommt. 2. Wenn es in Teilformeln der Form gibt und markiert sind, gib “unerf ¨ullbar” aus und stoppe. Wenn es in Teilformeln der Form markiert sind und nicht, markiere gibt, alle Vorkommen von . Wiederhole, bis keine der beiden Formelarten mehr vorkommt. 3. Gib “erf ¨ullbar” aus. Atomformeln sind mit Markierte 1 belegt: gdw. hat eine Markierung. 46 Resolutionskalkül Aufgabe: Unerf ¨ullbarkeit einer Formelmenge (Anwendungen: Tautologie? Folgt aus ?) Seien Klauseln. ist Resolvent von und , falls es ein Literal und gibt mit und . ( ist , wenn und , wenn ) Leere Menge als Resolvent: , unerf ¨ullbar. Resolutionslemma: Eine Klauselmenge ist äquivalent zu , wenn Resolvent zweier Klauseln aus ist. Res ist Resolvent zweier Klauseln in Res , Res . Res Res , Res Res Resolutionssatz der Aussagenlogik: Eine Klauselmenge ist unerf ¨ullbar genau dann, wenn Res . Korrektheit: keine erf ¨ullbare Formelmenge wird als unerf ¨ullbar “erkannt”. Vollständigkeit: alle unerf ¨ullbaren Formelmengen werden erkannt. 47 Resolution, Beispiel Zu zeigen: , also ? (deMorgan) als Klauselmenge: Wozu Resolution? enthält die gleichen positiven wie negativen Literale, ist aber weder g ¨ultig noch unerf ¨ullbar. Beweis: Geben Sie und an, ist nicht Element davon. 48 Prädikatenlogik 1. Stufe Erweiterung der Aussagenlogik um den Ausdruck von Eigenschaften von Objekten. Beispiel: genau dann, wenn alle in auch Element von sind und alle in auch in . Beispiel: “Alle Menschen sind sterblich” “Sokrates ist ein Mensch” Neu sind Variablen, Funktionen und Prädikate, sowie Quantoren. 49 Syntax der Prädikatenlogik Variablen: Funktionssymbole: ¨ Pradikatssymbole: ist die Stelligkeit, Unterscheidungsindex Terme: 1. Jede Variable ist ein Term. 2. Sei ein Funktionssymbol mitStelligkeit und sei Terme, dann ist ein Term. en “Nullstellige” Funktionen werden als Konstanten bezeichnet. Formeln: ädikatssymbol mit 1. Seien Terme und ein Pr der Stelligkeit , dann ist eine Formel. und eine Formel, dann sind 2. Sei eine Variable und Formeln. und heissen Quantoren, gelesen “f ¨ur alle” und “es gibt ein ... so, dass” 3. Seien Formeln, dann auch , , , , . 50 Prädikatenlogik Beispiel: 1. “Alle Menschen sind sterblich”: 2. “Sokrates ist ein Mensch”: sokrates gebundene / freie Variablen: innerhalb / ausserhalb des Wirkungsbereichs eines Quantors. ist in gebunden und frei in . Geschlossene Formel: keine freie Variable. ist eine geschlossene Formel, eine offene. 51 Semantik der Prädikatenlogik besteht aus einer bel., Eine Struktur nicht leeren Grundmenge , dem Grundbereich, Universum, und der Abbildung , Interpretation, die jedem -stelligen Prädikatensymbol (im Definitionsbereich von ) ein -stelliges Prädikat (= stellige Relation) über , jedem -stelligen Funktionssymbol (im Definiti onsbreich von ) eine -stellige Funktion auf und jeder Variable Element von (im Definitionsbreich von zuordnet. ) ein heisst zu einer Formel passend, wenn auf allen Variablen, Funktionssymbolen und Prädikatensymbolen in definiert ist. 52 Semantik der PL Sei eine Formel, ( ) f ¨ur Terme: eine zu falls Variable, falls : : ( passende Struktur. ( . ( ) f ¨ur Formeln: falls ( : : falls f ¨ur ein sonst : falls f ¨ur alle sonst sonst ( falls falls falls ( gilt: gilt: Dabei ist Struktur die bis auf diejenige identisch ist: , und wie in der Aussagenlogik... alternative Schreibweise f ¨ur : mit 53 Semantik der PL, Begriffe Falls f ¨ur “ erf ¨ullt und ( ) = 1, dann . , gilt in , ist Modell f ¨ur .” Falls f ¨ur alle passenden “ ist g ¨ultig.” heisst erf ¨ullbar, falls sonst unerf ¨ullbar. gilt: ( ) = 1, dann . mindestens ein Modell hat, 54 Übung: Formulierung in PL 1. “P. ist Anhänger der logischen Grammatik-Schule und spricht mit allen Kollegen, die keine Generativisten sind.” 2. “Q. vertritt die Lexikalisch-Funktionale Grammatik und diskutiert mit jedem, der ¨uber formale Grundlagen arbeitet.” 3. “R. ist Duden-Redakteur, formale Grundlagen können ihm gestohlen bleiben, aber er spricht gern mit jedem ohne Ansehen seiner grammatiktheoretischen Präferenzen.” 4. “S. ist Government & Binding-Theoretiker und spricht mit seinesgleichen.” 5. “T. hängt der Head-Driven Phrase Structure Grammar an, redet aber mit allen Generativisten.” 6. “Alle Anhänger der LFG, HPSG und GB sind Generativisten.” 7. “Logiker und Generativisten beschäftigen sich mit formaler Sprachbeschreibung.” 8. “Eine Unterhaltung findet statt, wenn zwei (verschiedene) Leute miteinander reden.” 55 Lösungen (Bem.: wenn “spricht mit” heissen soll “spricht nur mit”, wird aus den Implikationen ein !) 1. Logiker(p) x ( Generativist(x) SprichtMit(p,x)) 2. LFG(q) x (Formalist(x) SprichtMit(q,x)) 3. Duden(r) Formalist(q) x (SprichtMit(r,x)) 4. GB(s) x (GB(x) SprichtMit(s, x)) x (Generativist(x) SprichtMit(t,x)) 5. HPSG(t) 6. x ( (LFG(x) HPSG(x) GB(x)) Formalist(x)) 7. x ( (Logiker(x) Generativist(x)) Formalist(x)) 8. x y ((SprichtMit(x,y) SprichtMit(y,x) Unterhaltung(x,x) Unterhaltung(y,y)) Unterhaltung(x,y)) ( z ( Unterhaltung(z,z))) 56 Äquivalenzen Seien und (a) Formeln. (b) Falls nicht frei in vorkommt: (a) (b) (c) (d) (a) (b) (a) (b) NICHT äquivalent sind: Beweis durch Gegenbeispiele... 57 Substitution etc. Sei eine Formel, eine Variable und ein Term. Dann ist diejenige Formel, in der in jedes freie Vorkommen von durch ersetzt wird. ist eine Substitution. Überf ¨uhrungslemma: Gebundene Umbenennung: Sei eine Formel ( nicht in vor. Dann: ), komme ¨ Zu jeder Formel existiert aquivalente Formel in bereinigter Form, d.h. keine Variable kommt sowohl frei als auch gebunden vor, und hinter verschiedenen Quantoren stehen verschiedene Variablen. 58 Anwendung: Logikprogramme Logikprogramm: Sequenz von Klauseln der Form: ist Kopf, der Rest Rumpf der Klausel, , entspricht wenn und erf ¨ullt sind, dann auch Klausel mit leerem Rumpf: Fakt: Klausel mit leerem Kopf: Frage : ) 59 Anwendung: Eigenschaften von Relationen ein reflexives Prädikat: ein transitives: ein symmetrisches: Die schlechte Nachricht: Antisymmetrie ist nicht in Prädikatenlogik erster Stufe darstellbar. Formulierungen wie: setzen Identität als Prädikat voraus; das ist aber ohne Einf ¨uhrung eines Quantors “es gibt genau ein...” nicht möglich. Die Formel: dr ¨uckt nur aus, dass eine Äquivalenzrelation auf der Grundmenge sein muss, damit gilt. Identität und Äquivalenz können in der Prädikatenlogik nicht unterschieden werden! 60 Grammatiken als Logikprogramme kontextfreie Grammatikregeln: non-terminal body, z.B. s np, vp. det [the]. noun [cat]. np det, noun. vp trans verb, np. noun [dog]. intrans verb. intrans verb [sleeps]. vp trans verb [chases]. beschreiben eine formale Sprache. ( ist hier nicht mit der logischen Implikation zu verwechseln!) Der Rumpf (die rechte Seite) einer Regel kann aus einem Terminalsymbol (entsprechend den Wörtern einer nat ¨urlichen Sprache) oder einer Folge von Nichtterminalsymbolen (entsprechend den Wortklassen/– arten) bestehen. Eine Grammatik besteht aus den endlichen Mengen der Terminalen, der Nichtterminalen und der Regeln, sowie einem der Nichtterminalen, dass als Startsymbol ausgezeichnet wird, hier . Ein Wort einer von einer Grammatik erzeugten Sprache ist eine Folge von Terminalsymbolen, die durch Anwendung der Regeln aus dem Startsymbol abgeleitet werden können. 61 Grammatiken als Logikprogramm kf. Regel in Klauselform (die sind Variablen f ¨ur Wortpositionen): Das Lexikon: ! " # $ Der Satz: “the cat chases the dog” wird codiert als: '& # %! & *) # $( ) -,. # +!$ , '/ # %! / 0 '2 # 1 Test, ob der Satz grammatikalisch ist: 62 34.5 62 Definite Clause Grammars Kontextfreie Grammatiken f ¨ur nat ¨urliche Sprachen nicht adäquat (...) Erweiterung der kf. Grammatikregeln: Nicht-Terminale sind komplexe Terme mit Varia oder # blen: Zusätzliche Argumente dienen zum Aufbau des Parsebaumes. Auf der rechten Regelseite sind Funktionsaufrufe erlaubt: noun(N) [W], rootform(W,N), is noun(N) . Als Logikprogramm: 3 Diese Transformationen können von den meisten PROLOG-Interpretern automatisch durchgef ¨uhrt werden. 63 Erweiterungen Lexikon Statt noun(N) [dog] f ¨ur jedes Wort der Kategorie `noun': noun(N) [N], is noun(N) und is noun(...) f ¨ur alle Wörter. (Zusätzlichge Argumente und Prozeduren möglich) Kontextabhängigkeit: Kongruenz Einf ¨ugen eines zusätzlichen Arguments f ¨ur jede Eigenschaft, die kongruieren soll: is determiner(every, singular) is determiner(all, plural) – ebenso in allen Grammatikregeln, in denen Artikel vorkommen, Kongruenz wird durch Verwendung von Variablen erzwungen: noun phrase(Number, np(Det,Noun)) determiner(Number, Det), noun(Number, Noun). 64 Termunifikation in der Prädikatenlogik Um das Resolutionskalk ¨ul auf die Prädikatenlogik anzuwenden, m ¨ussen nicht nur die Formeln in KNF umgeformt, sondern auch geeignete Substitutionen f ¨ur die Variablen ausgef ¨uhrt werden, um die Literale möglichst zu vereinfachen. Dieser Vorgang heisst Termunifikation. Def: (allgemeinster) Unifikator Eine Substitution ist ein Unifikator einer endlichen Menge von Literalen L , wenn . ist ein allgemeinster Unifikator von L, wenn f ¨ur jeden anderen Unifikator gilt: es gibt mit (d.h. f ¨ur alle Formeln F gilt ) Beispiel: wird durch unifiziert. 65 Unifikationsalgorithmus: Eingabe: nichtleere Literalmenge L ; L ; solange L : Durchlaufe L , bis sich (von links nach rechts gelesen) zwei Literale darin in mindestens einem Zeichen unterscheiden. Wenn keines der beiden Zeichen eine Variable ist, stoppe mit “nicht unifizierbar”. sonst: sei die Variable, der andere Term; wenn in vorkommt, stoppe mit “nicht unifizierbar”. sonst: ; L Gib als allgemeinsten Unifikator aus. Probleme der prädikatenlogischen Resolution: Explosion der Kombinationsmöglichkeiten, Auswahl der Substitutionen, etc. Abhilfe: Strategien, Restriktionen: Bedingungen, unter denen zwei Klauseln resolviert werden können. 66 Merkmallogik Grundmenge: Merkmalstrukturen (feature structures), Mengen aus Namen (labels) (f ¨ur Merkmale, Attribute) und deren Werten. Formal: partielle Funktion von Merkmalen auf Werte. Notation: name: wert Werte selbst können wieder Merkmalstrukturen sein: cat: agreement: person: number: dieselben Werte können von mehreren Attributen geteilt werden, dh., es kann auf einen einmal definierten Wert verwiesen werden (reentrance, structure sharing, Koreferenz, Koindizierung): person: f: number: g: Dabei sind zirkuläre Verweise nicht erlaubt! 67 Grundbegriffe atomare Merkmalstrukturen: einfache Symbole wie , , ... komplexe Ms.: name: wert leere Ms., auch Variable: Extraktion: Sei eine Ms., eines ihrer Attribute. Dann bezeichnet den Wert von in . person: Bsp.: , dann (person) . number: Definitions- und Wertebereich wie bei Funktionen: Definitionsbereich, Urbild: dom( ) = person number Wertebereich, Bild: range( ) = Ein Pfad innerhalb einer Ms. ist eine Folge von Attri buten: agreement person Die Extraktion kann auch auf Pfade angewendet werden... 68 Merkmalstrukturen als Graphen cat: subject: agreement: agreement: person: (Abb. geborgt von Martin Volk) Merkmalstrukturen entsprechen den Knoten, Merkmalsnamen den Kanten. 69 Subsumption Ordnungsrelation : , wenn weniger (oder dieselbe) Information enthält als . ist allgemeiner, spezieller. Shieber: gdw. f ¨ur alle dom und f ¨ur alle Pfade mit subsummiert ( wird von subsummiert), wenn f ¨ur alle Attribute in gilt, dass ihre Werte von denen in subsummiert werden. F ¨ur atomare Strukturen gilt: und gdw. Die leere Struktur subsummiert alle anderen. Beispiele: cat: Mit der Relation cat: agreement: genus: bilden Ms. einen Verband! 70 Unifikation Unifikation bildet aus zwei vertr¨ aglichen Merkmalstrukturen eine neue, die von beiden subsummiert wird: gdw. ist die allgemeinste Struktur mit: und Beispiel: number: person: person: number: Unifikation zwischen nicht verträglichen Strukturen scheitert, d.h. liefert den Wert fail oder . Beispiel: number: number: fail 71 Eigenschaften der Unifikation neutrales Element: Die Verbandseigenschaften: 1. Kommutativität: 2. Assoziativität: 3. Idempotenz: Unterschiede zur Termunifikation: Mengen vs. N-Tupel, dh. Reihenfolge in der Termunifikation entscheidend. Stelligkeit: eine Eigenschaft wie Kongruenz m ¨ußte in Prädikatenlogik mit fester Anzahl von Parametern definiert werden. Identität und Gleichheit lassen sich in Merkmalstrukturen ausdr ¨ucken... 72 Unifikation mit Identität und Gleichheit bei Identität (Koreferenzierung) agreement: number: subject: agreement: subject: agreement: person: subject: bei Gleichheit: agreement: subject: agreement: number: agreement: number: subject: agreement: person: agreement: number: person: agreement: number: subject: agreement: number: person: 73 Unifikation, Erweiterungen Disjunktion aufwendig... Mengen Negation zwei Arten: closed/open World Typisierte Merkmalstrukturen Wohlgeformtheit Typenhierarchien... 74 Inferenz, Schlussfolgerung Kalk ¨ul: Logik + syntaktische Ableitung: Prämisse: Aussage, die als wahr angenommen wird. Schluss (Konklusion): Aussage, die aus der Wahrheit der Prämisse folgt. G ¨ultigkeit eines Arguments: Es gibt keine Belegung/Struktur, unter der die Prämisse wahr, aber der Schluss falsch wäre. Syntaktisch: (Prämisse Schluss) ist g ¨ultig. g ¨ultige Regel z.B.: (Modus Ponens) “Wenn es regnet, gehe ich ins Kino” “Es regnet” Beispiel: “Ich gehe ins Kino” ung ¨ultige Regeln z.B.: und 75 Weitere Regeln (Modus Tollens) “Wenn es regnet, gehe ich ins Kino” “ich gehe nicht ins Kino” Beispiel: “Es regnet nicht” “Sie trinkt Tee oder Kaffee” Beispiel: “Sie trinkt keinen Kaffee” “Sie trinkt Tee” “Sie trinkt Tee” “Sie trinkt Tee, Beispiel: oder draussen vor der T ¨ur faucht ein gr ¨uner Drachen” 76 Arten der Inferenz Deduktion: von Klassen auf Exemplare schliessen: alle Menschen sind sterblich, Sokrates ist ein Mensch Sokrates ist sterblich unsichere Inferenzen: Induktion: Generalisierung, Analogiebildung; von Exemplaren auf die Gesamtheit: Sokrates ist sterblich, Sokrates ist ein Mensch alle Menschen sind sterblich Abduktion: Klassenzuordnung anhand von beobachteten Eigenschaften: alle Menschen sind sterblich, Sokrates ist sterblich Sokrates ist ein Mensch. Gegenbeispiele f ¨ur diese Formen der Inferenz? 77 Modell, Denotation schon bekannt aus der Prädikatenlogik: mit als Grundmenge, UniStruktur versum, und als Interpretation aller verwendeten (nicht-logischen) Symbole als Funktionen, Relationen oder Konstanten in , Formeln als 0 oder 1. Oft davon getrennt betrachtet: Belegungsfunktion . f ¨ur Variablen : Die Interpretation eines logischen Ausdrucks (Term oder Formel) heisst auch Denotat ( “denotationale Semantik”). Schreibweise: , Eine Struktur ist ein Modell f ¨ur eine Formelmenge , gdw. jedes Element von in wahr ist. Eine Formel folgt aus einer Formelmenge , gdw. in jedem Modell von wahr ist. 78 Theorien Eine Theorie T ist ein Menge von Formeln, die unter Folgerung abgeschlossen ist, d.h. jede Formel, die aus einer oder mehreren der Formeln in T folgt, ist selbst in T. Modelltheoretische Definition: T::= axiomatische Methode: Menge von Formeln vorgegeben mit: T::= Cons es gibt so dass aus T::= Cons folgt ist g ¨ultig 79 Eigenschaften formaler Systeme Konsistenz: Es können nicht gleichzeitig eine Aussage und deren Negation abgeleitet werden. Inkonsistente Theorien haben kein Modell! Wenn Inkonsistenz bewiesen werden soll: Widerspruch ableiten. Wenn Konsistenz bewiesen werden soll: Modell angeben. ¨ Unabhangigkeit: eine Frage der Eleganz: ist die Menge der Axiome minimal, d.h. lässt sich keines der Axiome durch andere ausdr ¨ucken? Korrektheit: Es können keine “unerw ¨unschten” Aussagen abgeleitet werden. , dann Wenn 80 Eigenschaften formaler Systeme II ¨ Vollstandigkeit: Es werden alle “erw ¨unschten” Aussagen abgeleitet. Wenn , dann weitere Verwendungen des Begriffs: formal vollständig (jede Aussage kann bewiesen oder widerlegt werden) semantisch vollständig in Bezug auf ein Modell (alle im Modell wahren Aussagen können abgeleitet werden) Bedauerlicherweise sind interessante Systeme oft unvollständig: Diagonalisierungsargument... 81 Axiomatisierung von Stringkonkatenation Alphabet: Menge von Symbolen String, Zeichenkette: Folge von Symbolen Konkatenation: Aneinanderreihung, zweistellige Ope ration “,” auf einer Menge von Zeichenketten. : Zeichenkette der Länge 0. Axiomatisierung ohne leeren String (Halbgruppe) 1. Abgeschlossenheit: 2. Assoziativität: Beispiel f ¨ur ein Modell daf ¨ur: besteht aus einer geraden Anzahl von 'a's und / oder 'b's . Axiomatisierung mit leerem String (Monoid) 1. Abgeschlossenheit: 2. Assoziativität: 3. neutrales Element: 82 Axiomatisierung der Mengentheorie Mehrere Möglichkeiten, hier Zermelo-Fränkel. Vorausgesetzte Relation: “ist Element von” 1. Extensionalität: Wenn und dieselben Elemente haben, gilt . 2. Regularität / Begr ¨undung: es ein mit: F ¨ur jede nicht leere Menge gibt es gibt kein mit und 3. Leere Menge: Es gibt eine Menge ohne Elemente. 4. Ungeordnetes Paar: und Mengen sind, gibt es eine Menge Wenn so, dass f ¨ ur alle gilt: gdw. oder , d.h. existiert. 5. Vereinigung: es ein so, dass gilt: F ¨ur alle gibt gibt ein mit . gdw. es 6. Teilmenge/Potenzmenge: gibt es ein so, dass f ¨ur alle F ¨ ur jedes gdw. (f ¨ur alle : ). gilt: 7. Ersetzung: Sei eine Funktion und eine Menge. Dann ist beschränkt auf eine der Wertebereich von Menge. D.h., es gibt so, dass f ¨ur alle gilt: gdw. es ein gibt mit: 8. Unendlichkeit: Es gibt eine Menge so, dass es ein gibt mit und, wenn , dann . 9. Auswahl: Jede Menge von nicht leeren Mengen hat eine Auswahlfunktion: eine Funktion, die aus jeder der Mengen ein Element bestimmt. (nicht allgemein als Axiom akzeptiert, ist aber konsistent mit den ¨ubrigen und ermöglicht einfachere Beweise) 83 Axiomatisierung der Prädikatenlogik Axiome: 1. 2. 3. 4. eine Formel, in der frei vorkommt Inferenzregeln: 1. Modus Ponens : 2. , falls nicht in vorkommt. Warum Axiome und Regeln? Axiome sind g ¨ultig! Regeln ermöglichen, aus bereits erf ¨ullten Formeln weitere herzuleiten. 84 formale Semantik Nat ¨urlichsprachliche Äusserungen haben nicht prinzipiell einen Wahrheitswert. Ob “Es schneit” wahr oder falsch ist, hängt von den Umständen ab, unter denen die Äusserung gemacht wird. Tarski: “Schnee ist weiss” ist genau dann wahr, wenn Schnee weiss ist. Aufgabe der formalen Semantik: Angaben der Bedingungen, unter denen eine nat ¨urlichsprachliche Äusserung wahr oder falsch wird. Feststellung der Referenzen von Ausdr ¨ucken auf Objekte der Welt ... 85 Logiken für die Semantik natürlicher Sprache Probleme der Merkmalslogik: Darstellung semantischen Eigenschaften ist gut möglich, geeignete Schlussverfahren (ausser Typenverträglichkeit) stehen aber nicht zur Verf ¨ugung Probleme der Prädikatenlogik: Ausdrucksmächtigkeit z.B. Gleichheit: kann nicht von Äquivalenzklassenbildung unterschieden werden. Wie konstruiert man die Repräsentation? Kompositionalität bei Zeit und Modalität: Intension vs. Extension 86 Intension vs. Extension Modalausdr ¨ucke: “Peter ist der B ¨urgermeister” “Maria will Peter heiraten” “Maria will den B ¨urgermeister heiraten” ? Temporaladverbien: “Gestern haben wir frischen Fisch gekauft” “Heute essen wir, was wir gestern gekauft haben” “Heute essen wir frischen Fisch” ? 87 Kripke-Semantik Mögliche-Welten-Semantik: sei eine Grundmenge, eine Folge/Menge von Weltzuständen (InformationsZustände, zeitlich geordnet) Denotat von im einfachen Modell im Kripke-Modell Term: Element von Formel Element von Nebenbedingung: eine einmal wahre Formel bleibt in allen folgenden Zuständen wahr. 88 Kripke-Semantik, formal Weltzustände + zeitliche Ordnung : partiell geordnete Menge, Kripke-Frame P entspricht Die Interpretation einer Aussage derjenigen Teilmenge von , in der wahr ist. Die o.a. Nebenbedingung bewirkt, dass solche Teilmengen unter abgeschlossen sind (Filter von P). Eine Kripke-Valuierung ist eine Abbildung von der Menge der Aussagen auf die Menge der Filter von P, Ein Kripke-Modell ist ein Paar M = P . M : ist wahr im Zustand im Modell M, d.h. und ... M nicht M gdw. f ¨ur alle mit ( kann nie mehr verifiziert werden....) gdw. f ¨ur alle mit M gilt: wenn M , dann M (wenn wahr ist, muss auch weiterhin wahr sein...) 89 Modal- und Temporallogik Kripke: Mögliche-Welten-Semantik, Abbildung einer Aussage nicht auf die zwei-elementige Menge , sondern auf eine Folge (oder einen Baum) ihrer Elemente. Modallogik: Zwei neue Operatoren: : notwendig , : möglich intuitive Bedeutung: gilt immer in allen Welten, gilt wenigstens einmal in einer Welt (in allen Welten). Temporallogiken: Interpretation der Modaloperatoren als zeitliche (auf die Zukunft bezogene) Operatoren, der Semantik auf diskrete Zeitzustände: : immer, : irgendwann einmal. Erweiterung auf Vergangenheit... weitere Operatoren... 90 Temporale Operatoren und ihre Semantik next i i+1 A j i i eventually A always until atnext i ... A i A i B B ... j ... j i B i A B " 0 * . 4 4 0 1 /. - - ## " * 3 0 " 2 " + 2 , & & , ) % & ) ##$!" ## " * + *" # !" # ! !( ' 91 Beschreibungslogiken Aussagen ¨uber einstellige Prädikate (= Konzepte, Menge von Objekten), ind viduelle Objekte (= Instanzen) und zweistellige Prädikate( = Rollen). Operatoren zur Definition von Konzepten und Rollen: Beschr.L. Präd.L. Semantik 92 Beschreibungslogiken Axiome: Aussagen ¨uber die Zusammenhänge zwischen Konzepten (T-Box, terminologische Aussagen) und ¨uber die Konzeptzugehörigkeit von Objekten (Abox, assertionale Aussagen). T-Box Axiom Semantik A-box Axiom Semantik 93 Prädikate, Mengen, Funktionen Prädikate als Mengen: Mengen als Funktionen: charakteristische Funktion " ! wenn $ !# wenn 94 Typtheorie, Motivation Informal: Unterscheidung zwischen verschiedenen Objekten z.B. Terme und Formeln, Prädikate und Funktionen mit einer, zwei oder mehr Stellen 'einfache' Elemente, Mengen Relationen in bestimmten Mengen Sprache: Valenzrahmen von Verben: schenken, verschenken glauben, vermuten 95 Typtheorie, formal Die Menge der Typen ist definiert als: 1. ist ein Typ (Objekte) 2. ist ein Typ (Wahrheitswerte) 3. wenn und Typen sind, dann auch Die Definition kann auf n-Tupel ausgedehnt werden, dann ist es aber sinnvoller, f ¨ur Funktionen einen zus ätzlichen zweistelligen Typoperator einzusetzen: . Damit können Funktionen als spezielle Paare unterschieden werden. Eine typisierte (formale) Sprache ist eine Sprache, bei der jedem wohlgeformten Ausdruck ein Typ zugewiesen werden kann. bezeichnet die Menge der Denotate der Ausdr ¨ucke vom Typ . Sei eine Grundmenge, dann: und Oder, bei n-Tupeln: , und 96 Beispiele: prädikatenlogische Formalisierung = Peter, Maria, ein Buch , Prädikate Schenken und Verschenken. Peter schnarcht (0) Schnarchen(Peter) Peter verschenkt ein Buch ... (1) Verschenken(Peter, ein Buch) Maria schenkt Peter ein Buch... (2) Schenken(Maria, Peter, ein Buch) Typ von Schnarchen: Typ von Verschenken: von Schenken? Maria vermutet, dass Peter ihr ein Buch schenkt... Maria vermutet stark, dass Peter ihr ein Buch schenkt... Maria vermutet sehr stark, dass Peter ihr ein Buch schenkt... 97 Beispiele Mengentheorie: : Menge aller Elemente und Teilmengen einer Menge : : : : : : : 98 Typregel Funktionsapplikation: Sei vom Typ und Dann ist vom Typ . Beispiele: len) Sei Sei vom Typ . (die Menge der nat ¨urlichen Zah- ... Typ von f : ... Typ von f : 99 Lambda-Operator Church (1941): Notation f ¨ur Definition und Anwendung von Funktionen. Statt “sei mit (Abstraktion) Alternative Schreibweisen: ”: Anwendung: statt f(4) (und Def. wie oben) Auswertung, Ersetzung der Variable durch das Argument ( -Konversion) Der -Operator bindet eine Variable wie ein Quantor! 100 Lambda-Abstraktion, formal Syntax Sei eine Variable vom Typ , ein Ausdruck vom Typ , in dem nicht gebunden vorkommt. Dann ist ein Ausdruck vom Typ . Semantik Sei eine Variable vom Typ , ein Ausdruck vom Typ , in dem nicht gebunden vorkommt, eine Funktion von nach dann ist mit: f ¨ur alle in : und = bis auf , 101 Lambda-Abstraktion, Beispiel Denotation von Verben: Bruno raucht. ... Rauchen(Bruno) Rauchen Rauchen Sei mit: Anna, Bruno, Clara , Rauchen Anna Rauchen 102 Die Sprache TL, Syntax Typisierte Logik: versammelt Prädikatenlogik, Typen, -Operator und Identität: Symbole: Operatoren Quantoren zu jedem Typ eine Menge von Variablen zu jedem Typ eine Menge von Konstanten der Lambda-Operator das Gleichheitssymbol Man nehme Klammern nach Belieben: (, ), [, ], ... Die Menge der Typen, : wenn und in und sind, dann auch 103 Die Sprache TL, Syntax, Ausdrücke Die Menge der Ausdr ¨ucke vom Typ , F ¨ur alle Typen , : Alle Konstanten und Variablen vom Typ sind Ele mente von . Wenn Wenn Wenn und auch: Wenn in . Wenn und und in und und in , dann ist , dann ist in . . in sind (also Formeln), dann . in ist, dann sind sind, dann ist in und . Viel aussagekräftiger als Prädikatenlogik: Prädikate und Funktionen höherer Ordnung, Quantifikation ¨uber beliebige Ausdr ¨ucke... 104 Die Sprache TL, Semantik Typen Sei eine Grundmenge, die ”Diskursdomäne”. Die möglichen Denotate von Ausdr ¨ucken der Typen sind: Ausdr ¨ucke Tatsächliche Denotate von Ausdr ¨ucken in einem mit einer Variablenbelegung . Model ersetzt hier und ist ”nur” eine Belegung der Konstanten, keine Interpretation von Prädikaten- und Funktionssymbolen mehr (die werden mit Hilfe des Lambda-Operators ”anonym” definiert) 105 TL, Semantik von Ausdrücken Sei ein Ausdruck in TL, dann ist das Denotat von bez. und , wie folgt definiert: Sei eine nicht-logische Konstante, dann: . Sei eine Variable, dann: . (Abstraktion) , nicht gebunden in , Sei , eine Funktion von nach dann ist mit: f ¨ur alle in : und = bis auf , . (Konversion) Sei , , dann: . 106 TL, Semantik von Ausdrücken II Seien und in , dann: . und , dann: gdw. f ¨ur alle Variablenbelegungen , die ausser auf mit identisch sind, gilt: . und: gdw. f ¨ur mindestens eine Variablenbelegungen , die ausser auf mit identisch sind, gilt: . Sei Seien und in , dann: gdw. . 107 Lambda-Kalkül, Weitere Anwendung des Lambda-Operators: das Lambda-Kalk ¨ul. Unterschied zu TL: keine logischen Operatoren, nicht typisiert; daf ¨ur Axiomatisierung. Syntax von : Vokabular: Variablen , , Klammern; syntaktische Regeln: Wenn Wenn Wenn . , dann auch in , dann auch in , dann ist Axiomatisierung durch , ist ersetzt ist. . eine Formel. , worin jedes Auftreten von ist reflexiv, symmetrisch und transitiv. Wenn , dann , und Anwendungen: Grundlage der Funktionstheorie, Charakterisierung von Berechenbarkeit, Syntax (Lisp) und Semantik von Programmiersprachen etc. Auch die Prädikatenlogik kann komplett im Lambda-Kalk ¨ul definiert werden... 108 Linguistische Anwendungen Kompositionale Analyse von formalen Ausdr ¨ucken höherer Ordnung kompositionale Semantik nat ¨urlicher Sprache. Beispiele: Denotation von Verben: intransitiv, Abb. des Subjekts auf einen Wahrheitswert: transitiv, Abb. von Subjekt und Objekt auf Ww.: , oder: Adverben - gesuchte Funktion muss ein VerbDenotat auf ein Verb-Denotat abbilden: Bsp: schnell allgemein: Weitere Beispiele: Lohnstein, [PMW] 109 Montague: Intensionale Logik Kombination von allen bisher eingef ¨uhrten Konzepten: Aussagenlogik: logische Operatoren, Wahrheitswerte Prädikatenlogik: Terme, Quantoren Modallogik: mögliche Welten, Informationszustände; Operatoren (notwendig), (möglich) Temporallogik: zeitlicher Verlauf, Zeitpunkte; Operatoren P (Past), F (Future) Lambda-Operator: Abstraktion über Variablen beliebigen Typs Unterscheidung zwischen Intension und Extension (Formalisierung siehe Lohnstein oder [PMW]) Modelle dazu: B äume von ”einfachen Modellen”, die mit Indizes f ¨ur die ”mögliche Welt” und den Zeitpunkt versehen sind. 110 Intension und Extension Frege: Sinn und Bedeutung Der Abendstern, der Morgenstern vs. die Venus ... Die Königin von England vs. Elisabeth, Victoria, .... Intension als Funktion von Indizes ( , = mögliche Welt und Zeitpunkt) auf Menge von Extensionen (Individuen). Neue Operatoren: Intensor : Sei ein Ausdruck mit dem Denotat . die Intension von Dann ist am Index Extensor : Umkehrfunktion von : Nicht umgekehrt: Extension gibt es nur zu bestimmtem Index, Intension ermöglicht, an jedem Index die Extension zu bestimmen. zusätzlicher Typ : Sei vom Typ , dann ist vom Typ . Sei vom Typ , dann ist vom Typ . 111 Aufgabe: Versuchen Sie, Ausdrcke der Intensionalen Logik fr folgende zwei Stze zu finden. Geben Sie ein Modell dafr an. Es besteht die entfernte Chance, dass sich nichts von allem, was folgt, je ereignet hat; Chance bestehen entfernt mit folgen P ereignen viel wahrscheinlicher ist jedoch, dass es sich, falls es sich je ereignet haben sollte, nie wieder ereignen wird. (Peter Ustinov, Der Alte Mann und Mr. Smith) wahrscheinlicher Pereignen Fereignen Probleme: und können noch nicht bestimmt werden, m ¨ussen aber identisch sein (sollten vielleicht als eine Variable abstrahiert werden). 'viel' ist noch nicht integriert. Die inhaltliche Interpretation w ¨urde eine Modellierung von 'entfernte Chance' und 'viel wahrscheinlicher' erfordern, so dass entschieden werden kann, was davon wirklich grösser ist. 112 Axiomatisierung von Stringkonkatenation Alphabet: endliche, nicht-leere Menge von Symbolen. String, Zeichenkette: Folge von Symbolen Konkatenation: Aneinanderreihung, zweistellige Operation “,” auf einer Menge von Zeichenketten. : Zeichenkette der Länge 0. Axiomatisierung ohne leeren String (Halbgruppe) 1. Abgeschlossenheit: 2. Assoziativität: Beispiel f ¨ur ein Modell daf ¨ur: besteht aus einer geraden Anzahl von 'a's und / oder 'b's . Axiomatisierung mit leerem String (Monoid) 1. Abgeschlossenheit: 2. Assoziativität: 3. neutrales Element: Schreibweise: statt auch oder nur . 113 Wörter über Alphabeten Sei ein Alphabet, dann ist die Menge aller end¨ lichen Worter, die sich durch Aneinanderreihung der Elemente von bilden lassen, die Menge der Wörter ¨uber . Dazu gehört auch das leere Wort, . ist die Menge der nicht-leeren Wörter ¨uber . Bsp: . . ¨ Die Lange eines Wortes , , ist die Anzahl der Zeichen, aus denen es besteht. Sei ein Element eines Alphabets. bezeichnet das Wort der Länge aus lauter s. Eine (formale) Sprache ist eine Menge von Wörtern. Bsp: 114 Grammatik Definition: Eine (Phrasenstruktur-)Grammatik ist ein 4-Tupel, mit folgenden Eigenschaften: ist eine endliche Menge, die Variablen, oder NichtTerminalsymbole. ist ein Alphabet, das Terminalalphabet, die Termi . nalsymbole. ist eine endliche Menge von Regeln, Produktionen der Form mit und , d.h. ein Wort, das mindestens aus einem Nicht-Terminalsymbol besteht, kann durch ein beliebiges Wort ersetzt werden. von ist das Startsymbol, ein besonderes Element . ——————— Eine Grammatik ist ein deduktives System: Axiome und Inferenzregeln. Das einzige Axiom einer Grammatik ist das Startsymbol, die Regeln sind die Produktionen. 115 formale Sprache ist die Relation in mit: gdw. mit und . “ geht unter unmittelbar in ¨uber ” ist die reflexive und transitive H ¨ulle von , wenn gilt: oder es gibt ein mit , . . und Eine Grammatik erzeugt ein Wort , wenn gilt: Die Sprache der Grammatik ist die Menge der Wörter, die von erzeugt werden. Eine Folge von Wörtern und von . mit , heisst Ableitung 116 Beispiel S NP VP VP N N I-V T-V D S, NP, VP, T-V, I-V, D, N [the], [cat], [dog], [sleeps], [chases] NP VP, D N, T-V NP, I-V, [dog], [cat], [sleeps], [chases], [the], S. 117 Erkennungsproblem Problem Ist ein gegebenes Objekt Element einer Menge? Ein Problem ist entscheidbar, wenn in einer endlichen Anzahl von Berechnungsschritten festgestellt werden kann, ob eine Eingabe zur Menge gehört oder nicht. Ein Problem ist semi-entscheidbar, wenn in einer endlichen Anzahl von Berechnungsschritten festgestellt werden kann, ob eine Eingabe zur Menge gehört, oder wenn in einer endlichen Anzahl von Berechnungsschritten festgestellt werden kann, ob eine Eingabe nicht zur Menge gehört! Erkennungsproblem oder Wortproblem Ist ein Wort Element einer Sprache ? 118 Bäume , und Kanten, Ein Baum besteht aus Knoten, , wobei jeder Knoten maximal einen Vorgänger und beliebig, aber endlich viele Nachfolger hat: mit F ¨ur alle : es gibt maximal ein . Ausserdem ist irreflexiv und intransitiv, d.h. es darf keine zirkuläre Folge von Paaren in geben. Ein Knoten ohne Vorgänger heisst Wurzel, ohne Nachfolger Blatt des Baumes. ——————— Ableitungen in Grammatiken, bei deren Regeln immer nur ein einzelnes Nichtterminalsymbol auf der linken Seite steht, kann man einen Syntaxbaum zuordnen. Die Wurzel ist dann mit dem Startsymbol, die inneren Knoten sind mit den verwendeten Nichtterminalsymbolen, die Blätter mit den Terminalsymbolen beschriftet. 119 Beispiel (Links-)Ableitung (d.h., das jeweils am weitesten links stehende Nichtterminal wird ersetzt): S NP VP D N VP [the] N VP [the] [cat] VP [the] [cat] T-V NP [the] [cat] [chases] NP [the] [cat] [chases] D N [the] [cat] [chases] [the] N [the] [cat] [chases] [the] [dog] S NP D VP NP N T-V the cat chases D N the dog 120 Syntaxbäume Auch eine andere Ableitung (z.B. mit NP VP NP T-V NP) hätte denselben Syntxbaum ergeben... Es gilt: , gdw. es gibt einen Syntaxbaum mit an den Blättern, gdw. es gibt eine Linksableitung f ¨ur mehrdeutige Grammatik: f ¨ur dasselbe Wort gibt es mehrere Syntaxbäume. Beispiel: NP PP, NP D N, VP mit S NP VP, NP VP PP, VP V NP . S NP S VP NP VP NP VP V V Ich sah NP PP die Frau mit dem Fernglas Ich NP sah PP die Frau mit dem Fernglas 121 Chomsky-Hierarchie Je nach Form der Regeln lassen sich Grammatiken einem (maximalen) Typ zuordnen: Typ 0: Allgemeine Phrasenstrukturgrammatik, keinerlei Beschränkungen Typ 1: kontextsensitive Grammatik: F ¨ur alle Regeln in gilt: Typ 2 kontextfreie Grammatik: F ¨ur alle Regeln in gilt, dass Nichtterminal ist, d.h. . . ein einzelnes Typ 3 ¨ Grammatik: regulare F ¨ur alle Regeln in gilt, dass ein einziges Terminal oder ein Terminal, gefolgt von einem Nicht terminal ist, d.h., Eine Sprache ist vom Typ X, wenn sie von einer Grammatik vom Typ X erzeugt wird. Es gilt: Typ 3 Typ 2 Typ 1 Typ 0. 122 Beispiele Typ 1 Typ 2 Typ 3 Beispiel: arithmetische Ausdr ¨ucke: ... Grammatik dazu: P = S T, T (T + T), T T T, T Z, Z Z Z Z , Z Z 0, Z 1 2 3 4 5 6 7 8 9 . 123 Automaten Ein Automat ist eine abstrakte Berechnungsmaschine, mit einer Menge von Eingaben und einem Verhalten dazu. Eingaben: diskret (nicht kontinuierlich), Folgen von Zeichen eines Alphabets. ¨ Innere Struktur: endliche Menge von Zustanden. Ausgabe: Annahme oder Ablehnung einer Eingabe. Verhältnis von Automaten und formalen Sprachen: Automat kann als Akzeptant einer Sprache (und als ”Ablehner” ihres Komplements) betrachtet werden. 124 Endliche Automaten, DFAs Ein deterministischer endlicher Automat (deterministic finite Automaton, DFA) liest eine endliche Folge von Zeichen nacheinander von links nach rechts ein, hält nach dem letzten Zeichen an und gibt ”akzeptiert” oder ”abgelehnt” aus. Zu jedem Zeitpunkt befindet sich der Automat in einem von einer endlichen Anzahl von Zuständen. Es gibt einen Startzustand und eine Menge von Endzuständen. a a b a b b q Berechnungsschritte: wenn in einem bestimmten Zustand ein bestimmtes Zeichen gelesen wird, wird in einen bestimmten Zustand ¨ubergegangen. Bsp: 125 Endliche Automaten Definition: Ein deterministischer endlicher Automat ist ein 5 Tupel mit: eine endliche Menge von Zuständen, ein Alphabet, eine Funktion von nach , die Zustands ¨ubergangsfunktion, der Startzustand, die Endzustände. Beispiel: DFA mit Zuständen , Zustands ¨ubergangsfunktion Startzustand , Endzustand . Zustands ¨ubergangsdiagramm: b a b q_0 q_1 a , 126 Endliche Automaten Situation eines Automaten: ”Schnappschuss”, Position des Einlesekopfes auf der Eingabe und Zustand des Automatens. Sei . Eine Situation ist ein Tripel , wobei und So definierte Situationen m ¨ussen nicht erreichbar sein... Relation ”erzeugt in einem Schritt” zwischen Situationen, : es gibt ein mit , gdw. . und , wenn reflexive, transitive H ¨ulle dazu: in keinem oder mehr Schritten erzeugt. ——————— Nicht-Deterministische Automaten, NFAs: statt Funktion Relation . Akzeptanz einer Sprache: wenn ein Pfad im Zustand ¨ubergangsdiagramm existiert... Beide Arten endlicher Automaten akzeptieren dieselbe Klasse von Sprachen, nämlich die regulären Sprachen... 127 reguläre Sprachen Def.: Seien Dann heisst gilt: und Mengen von Zeichenketten. Konkatenation von , wenn und und Definition: regul¨ are Sprache Sei ein Alphabet. Dann gilt: ist eine reguläre Sprache. F ¨ur alle ist eine reguläre Sprache. Wenn und reguläre Sprachen sind, dann auch , und . 128 reguläre Ausdrücke Reguläre Ausdr ¨ucke sind eine Meta-Notation f ¨ur Wörter. Definition: regul¨ are Ausdr ¨ucke Sei ein Alphabet. Dann gilt: ist ein regulärer Ausdruck. ist ein regulärer Ausdruck. F ¨ur alle ist ein regulärer Ausdruck. Wenn und reguläre Ausdr ¨ucke sind, dann auch , und . entspricht: “ entweder ein Ausdruck oder ein Ausdruck ”. Bsp: die Sprache, die der Beispiel-DFA akzeptiert: Es gilt: Die Sprachen, die durch eine Typ-3-Grammatik beschrieben, einen endlichen Automaten (deterministisch oder nicht) akzeptiert und einen regulären Ausdruck beschrieben werden, gehören derselben Klasse an. 129 Pumping-Lema für reguläre Sprachen Sei eine reguläre Sprache. eine Zahl Dann gibt es mit lassen n, so dass gilt: alle W örter mit: sich zerlegen in f ¨ur alle gilt: . Beweis: Es gibt einen Automaten , der akzeptiert. Sei die Anzahl der Zustände in . durchläuft Bei Verarbeitung von mit Zustände. Diese können nicht alle verschieden sein (es gibt nur Zustände). Also durchläuft eine Schleife. Wähle so, dass der Zustand nach und derselbe ist. , Wenn also , dann auch , etc. 130 Anwendung: Das Pumping-Lemma ist zu gebrauchen, um zu zeigen, dass eine Sprache nicht regulär ist: Bsp.: . Annahme: sei regulär. Es gibt mit den Eigenschaften wie oben. der Länge . Man nehme das Wort Die Zerlegung muss erf ¨ullen, dass nicht leer ist, und nur aus s besteht. Dann m ¨usste sowohl aus dem Wort entfernt werden können, als auch beliebig oft eingef ¨ugt werden. $ Es gilt aber: . Also war die Annahme falsch. 131 Eigenschaften regulärer Sprachen Die Klasse ist abgeschlossen unter Vereinigung Komplement Schnitt Konkatenation Stern (Kleene) Nat ¨urliche Sprachen Pumpinglemma... Reguläre Sprachen? 132 kontextfreie Sprachen: Normalformen Zur Erinnerung: Kontextfreie Sprachen sind diejenigen, die von Grammatiken erzeugt werden, die auf allen linken Regelseiten nur je ein Nichtterminalsymbol haben. Aufgrund der Bedingung f ¨ur Sprachen vom Typ 1, die linke Seite jeder Regel muss k ¨urzer sein als die rechte, kann in diesen Sprachen nicht abgeleitet werden. Es gilt aber: jede kontextfreie Grammatik , die Regeln der Form enthält, kann in eine äquivalente Grammatik ohne solche umgeformt wer Regeln den, so dass gilt: . Dazu wird zerlegt in und . Dann werden alle Regeln der Form aus ent fernt und f ¨ur alle Regeln der Form die Regel eingef ¨ugt. 133 kontextfreie Sprachen: Normalformen Definition: Eine epsilon-freie, kontextfreie Grammatik ist in Chomsky-Normalform, CNF, wenn alle Regeln entweder die Form oder haben. Zu jeder kf G gibt es eine äquivalente in CNF: Eliminierung von Regeln der Form : Falls es eine Menge von Nichtterminalen gibt mit , ersetze alle durch B. Dann Nummerierung der Nichtterminalen so, dass gilt: aus folgt , also . Jetzt wird diese Folge von Nichtterminalen von hin ten abgearbeitet: f ¨ur werden al le Regeln der Form eliminiert; f ¨ur die Regeln werden die Regeln hinzugef ¨ugt. Eliminierung von Regeln der Form : F ¨ur jedes Terminal wird ein neues Nichtterminal sowie einer Regel eingef ¨ugt. Dann wird jedes Vorkommen von auf einer rechten Seite (länger als 1) durch ersetzt. : bleibt noch: Regeln der Form F ¨ur jede dieser Regeln werden neue Variablen und Regeln eingef ¨ugt. 134 kontextfreie Sprachen: Kellerautomaten, PDAs Sei $ . Problem: DFAs und NFAs haben kein “Gedächtnis”, beim Lesen von $ kann nur auf die Zustände zur ¨uckgegriffen werden, aber die sind endlich. Lösung: Kellerautomaten: Ein Kellerautomat liest ebenfalls ein Eingabeband von links nach rechts, aber auch in jedem Schritt das obere Symbol eines “Kellers” (stack). In Abhängigkeit vom Zustand, vom Eingabesymbol und vom Kellersymbol wird in den neuen Zustand ¨ubergegangen und ein neues Kellersymbol geschrieben. a a b q a b b B A # 135 Kellerautomaten Definition: Ein nichtdeterministischer Kellerautomat (Pushdown Automata, PDA) ist ein 6-Tupel mit: eine endliche Menge von Zuständen, ein Alphabet, das Eingabealphabet, ein Alphabet, das Kelleralphabet, eine Relation von nach , die Zustands ¨ubergangsrelation, der Startzustand, das unterste Kellerzeichen. 136 Kellerautomaten a a b a b b q_1 B A # a a b q_2 a b b A A # 137 Kellerautomaten Situation eines PDA: Position des Lesekopfes, Zustand und Kellerinhalt: . “erzeugt in einem Schritt”: gdw. es , und gibt mit: . und “erzeugt”, : die reflexive, transitive H ¨ulle von Akzeptanz eines Eingabestrings durch einen PDA: 1. Die Eingabe ist vollständig abgearbeitet, 2. der Keller ist leer. (Alternativ kann man auch Endzustände definieren...) Ein PDA akzeptiert eine Sprache gilt: f ¨ur , wenn alle gibt es ein mit: 138 kontextfreie Sprachen und Kellerautomaten Ein endlicher Automat ist ein Kellerautomat mit einem leeren Kelleralphabet. Reguläre Sprachen können also auch durch Kellerautomaten erkannt werden. Ansonsten gilt: eine Sprache ist (maximal) kontextfrei gdw. wenn sie von einem nichtdeterministischen Kellerautomaten erkannt wird. Deterministischer Kellerautomat: statt Relation Funktion , statt leerem Keller definierte Endzustände. Die deterministischen kontextfreien Sprachen sind eine echte Teilmenge der kontextfreien... 139 Abschlusseigenschaften von kontextfreien Sprachen Die Klasse ist abgeschlossen unter Vereinigung Konkatenation Stern (Kleene), nicht aber unter Schnitt, Gegenbeispiel: und , : nicht kontextfrei. Komplement Beweis durch Widerspruch: seien zwei Sprachen und ¨uber gegeben. Wenn die Komplemente und kontextfrei wären, dann auch ihre Vereini gung . Deren Komplement ist laut deMorgan'schem Gesetz aber gerade und nicht notwendig kontextfrei. 140 weiter: kontextfreie Sprachen Aber: Der Schnitt einer regulären Sprache mit einer kontextfreien ist kontextfrei. Anwendung: Beweis, dass eine Sprache nicht kontextfrei ist: finde regulär und bewiesenermassen nicht kf mit . Es gibt unentscheidbare Probleme im Zusammenhang mit kontextfreien Grammatiken, z.B. ob zwei Grammatiken dieselbe Sprache erzeugen... (das heisst nicht, dass das nie entschieden werden, sondern nur, dass es keine allgemeing ¨ultige Rechenvorschrift daf ¨ur geben kann!) 141 Anwendung: Natürliche Sprache kontextfrei? Eher nicht... Methode: Nachweis Abhängigkei von kreuzweisen ten wie in . z.Bsp. im Schweizerdeutschen und Holländischen: Wir wollen dem Kind dem Nachbarn den Garten umzugraben zu helfen erlauben. ... 142 Turingmaschine a b 0 1 q Das Band ist unendlich und kann gelesen und beschrieben werden, der Schreiblesekopf kann in jedem Schritt um ein Feld nach rechts oder links versetzt werden oder stehen bleiben. Das Eingabealphabet ist eine Teilmenge des Arbeitsalphabets. 143 Turingmaschine, formal Definition Eine Turingmaschine ist ein 7-Tupel mit: die endliche Menge der Zustände, das Eingabealphabet, das Arbeitsalphabet, die Zustands ¨ubergangs funktion, steht f ¨ur links, neutral oder rechts (Bewegung des Kopfes), der Startzustand, das Blank - Zeichen f ¨ur noch nicht besuchte Bandfelder, die Menge der Endzustände. Die Situation (Konfiguration) einer Turingmaschine ist ein Wort 144 kontextsensitive Sprachen ¨ Eine nichtdeterministische linear beschrankte Turingmaschine (linear bounded Automaton, LBA) ist eine Turingmaschine, die sich nicht ¨uber den Teil des Bandes, auf dem die Eingabe steht, hinausbewegt (dazu muss das letzte Zeichen der Eingabe besonders markiert werden): und alle Situationen F ¨ur alle . mit gilt: ( ist das markierte letzte Zeichen ) Die von nichtdeterministischen linear beschränkten TMs akzeptierten Sprachen sind (maximal) kontextsensitiv. Die Frage, ob LBAs und deterministische LBAs äquivalent sind, ist noch unentschieden! Typ-1-Sprachen sind unter Schnitt, Vereinigung, Komplement, Konkatenation und Stern-Operation abgeschlossen. 145 rekursiv aufzählbare Sprachen Allgemeine Turingmaschinen akzeptieren Typ-0¨ Sprachen, auch rekursiv aufzahlbar genannt. Nichtdeterministische Turingmaschinen können durch deterministische simuliert werden (durchsuche nach einem festen Schema den Berechnungsbaum...), die beiden Automatensorten sind äquivalent. Entscheidbar (decidable): Eine Menge heisst entscheidbar, wenn ihre charakteristische Funktion berechenbar ist. Semi-entscheidbar (semi-decidable): Eine Menge heisst semi-entscheidbar, wenn ihre charakteristische Funktion f ¨ur ihre Elemente berechenbar ist. F ¨ur andere Objekte kann diese Funktion undefiniert sein. Eine Sprache ist semi-entscheidbar, wenn sie rekursiv aufzählbar ist. Das Wortproblem (ist ein gegebenes Wort Element der Sprache?) ist f ¨ur diese Sprachen nicht entscheidbar (da die Turingmaschine evt. nicht anhält). Eine Sprache, die selbst Turing-akzeptierbar ist und deren Komplement ebenfalls, ist entscheidbar. 146 Spezielles Halteproblem Jede lässt sich als Wort ¨uber Turingmaschine kodieren: L, R, N seien 0, 1, bzw. 2; Durchnumerierung der Elemente der Alphabete, des Startzustands und des Leerzeichens (beginnend bei 3), dann Binärdarstellung davon. als Wort aus den Regeln der Form Binärdarstellungen der Symbole, getrennt von #, beginnend mit ##. Diese Codierung lässt sich wiederum auf ein Wort ¨uber abbilden (wie?). Sei eine beliebige feste Turingmaschine. "! !# falls eine TM codiert sonst Dann heisst die Sprache mit angesetzt auf hält. spezielles Halteproblem oder Selbstanwendbarkeitsproblem. Dieses Problem ist nicht entscheidbar! Die Turingmaschine , die sich auf der Eingabe so verhält wie die TM auf x, heisst Universelle Turingmaschine. 147 Berechenbarkeitsbegriff Eine (partielle) Funktion ist intuitiv berechenbar, wenn es eine Rechenvorschrift gibt, die auf den Argumenten, auf denen die Funktion definiert ist, nach endlich vielen Schritten den Funktionswert liefert. So eine Rechenvorschrift heisst Algorithmus: endlich beschreibbar, mechanisch ausf ¨uhrbar, deterministisch, endet auf definierten Eingaben. Formale Definitionen der Berechenbarkeit: Turingmaschine, -Rekursivität, WHILE-Programme, GOTOProgramme, ... Church'sche These: Diese Formalisierungen erfassen genau den intuitiven Berechenbarkeitsbegriff. 148 Berechenbarkeit Sind folgende Beispiele berechenbar? , falls ein Anfangst ¨uck der Dezimalbruchentwicklung von ist, 0 sonst. (ja) , falls irgendwo in der Dezimalbruchentwicklung von vorkommt, 0 sonst. (evt. nein, möglicherweise ist aber soo zufällig, dass Ziffernfolge darin vorkommt. Dann ist jede .) , falls mal 7 in der Dezimalbruchentwicklung von vorkommt, 0 sonst. (ja. Entweder gibt es beliebig lange 7er-Folgen, oder es gibt daf ¨ur eine obere Grenze...) 149 O-Notation Mit der O-Notation kann der Berechnungsaufwand f ¨ur einen Algorithmus unabhängig von einer bestimmten Programmiersprache oder Rechnerarchitektur angegeben werden. Angegeben wird eine obere Schranke, konstante Faktoren werden ignoriert. F ¨ur eine Funktion ist definiert: es gibt und , so dass f ¨ur alle gilt: Beispiel: 150 Komplexitätstheorie In der Komplexitätstheorie wird versucht, den Berechnungsaufwand f ¨ur die Lösung von Problemen (i.e. das Wortproblem f ¨ur formale Sprachen) abzuschätzen. Eine obere Grenze lässt sich durch die Angabe eines Algorithmus bestimmen, eine untere Grenze ist immer , die Länge der Eingabe. Probleme lassen sich in Komplexitätsklassen einordnen, neue Probleme können durch Reduktion auf bekannte ebenfalls klassifiziert werden. 151 Komplexitätsklassen P (tractable): Ein Problem kann mit polynomialem Zeitaufwand bzgl. der Länge der Eingabe gelöst werden. NP-vollständig (NP-complete): Ein Problem ist ¨ NP-vollstandig, wenn es (noch?) nicht mit polynomialem Zeitaufwand gelöst werden kann. NP-hart (NP-hard): Ein Problem ist NP-hart, wenn es mindestens das Zeitverhalten wie ein NPvollständiges Problem hat. co-NP-hart (co-NP-hard): Ein Problem ist co-NPhart, falls das komplementäre Problem NP-hart ist. PSPACE-vollständig (PSPACE-complete): Ein ¨ Problem ist PSPACE-vollstandig, falls es NPvollständig ist und polynomialen Speicheraufwand hat. P NP P = NP ? Die meisten NP-vollständigen Probleme hängen so zusammen, dass entweder jedes oder keines von ihnen doch polynomial gelöst werden kann. 152 Reduzierbarkeit Das Problem 3SAT: Gegeben: eine aussagenlogische Formel in konjunktiver Normalform mit höchstens 3 Literalen pro Klausel. Ist erf ¨ullbar? Das Problem VertexCover: Gegeben: ein endlicher Graph und eine Zahl . Gibt es eine Teilmenge der Knoten von mit maximal Elementen, so dass mindestens ein Endpunt jeder Kante von darin enthalten ist? 3SAT und VertexCover sind als NP-vollständig bekannt. Durch Reduktion auf 3SAT oder VertexCover lassen sich auch andere Probleme als NP-vollständig charakterisieren... 153 Statistik: Überblick Beschreibende Statistik: Auswertung von Experimenten und Stichproben Wahrscheinlichkeitsrechnung: Schl ¨usse aus gegebenen Wahrscheinlichkeiten, Hilfsmittel: Kombinatorik Beurteilende Statistik: Schl ¨usse aus Experimenten, Beurteilung von exp. Ergebnissen (machen wir nicht) Linguistische Anwendungen: Spracherkennung Textretrival probabilistische Grammatiken: z.B. Disambiguierung Problem: woher Daten? 154 Systemevaluierung Bsp:Text Retrieval: entspricht ein gefundenes Dokument der Anfrage? Eventualitätstabelle zur Klassifikation von Beobachtungen (a + b + c + d = n, echte positive, positive Entscheidung; echte negative, negative Entscheidung): 'Ja' richtig ist richtig ist 'Nein' , false pos. gefunden a, , Treffer b, , false neg. d, , true neg. nicht gef. c, Weitere Masse Precision Recall Fallout 155 Beschreibende Statistik ¨ Statistische Erhebung: Bestimmung der Auspragung eines Merkmals bei allen Individuen einer Grundgesamtheit. qualitative vs. quantitative Merkmale, diskrete vs. stetige qualitative Merkmale... Beispiele: Geschlecht/ Gewicht aller Neugeborenen an einem Tag in einem Krankenhaus Anzahl der Wörter in jedem Artikel einer Ausgabe einer Tageszeitung Anzahl des Vorkommens von bestimmten Wörtern in einem Text-Korpus 156 Begriffe ¨ absolute Haufigkeit: Anzahl des Vorkommens einer Ausprägung. ¨ relative Haufigkeit: absolute H. / Anzahl der Individuen ¨ Haufigkeitsverteilung: Funktion von allen Ausprägungen eines Merkmals auf Häufigkeiten. Zentralwert: Bedingung: Ausprägungen geordnet. Der Zentralwert ist diejenige Ausprägung, f ¨ur die gilt: es liegen nicht mehr als die Hälfte der Erhebungswerte darunter oder dar ¨uber. arithmetisches Mittel von Erhebungswerten : Bedingung: quantitatives Merkmal. Varianz, Streuung (mittlere quadratische Abweichung): Standardabweichung: Quadratwurzel aus Varianz 157 Zufallsexperimente Zufallsvariable : unsicherer Ausgang eines Zufallsexperiments mit endlicher Zahl möglicher Ausg änge , Ausgangsmenge oder Ereignisraum . Bsp: Werfen einer M ¨unze, Ziehung der Lottozahlen, Alter des nächsten Passanten. Jede Teilmenge von heisst Ereignis, die einzelnen Elemente auch Elementarereignisse. Das Komplement eines Ereignisses heisst Gegenereignis . ¨ relative Haufigkeit eines Ausgangs, Eintreten von E Versuche. : Bemerkung zum Übergang zur Wahrscheinlichkeitsrechnung: es gelten gleiche Gesetzmässigkeiten, aber W'keitsrechnung asst l̈ sich nicht statistisch begr ¨unden. Daher axiomatische Einf ¨uhrung mit gegebenen Wahrscheinlichkeiten der Elementarereignisse. 158 Axiome der Wahrscheinlichkeit (Kolmogoroff) Wahrscheinlichkeit: Sei ein Ereignisraum mit den Elementarereignissen . Wahrscheinlichkeitsverteilung: (1) Funktion (2) mit heisst Wahrscheinlichkeit von . Sei ein Ereignis mit Ereignisraum wie oben. Wahrscheinlichkeit von : ; , falls , falls (3) Folgerungen daraus: f ¨ur alle Ereignisse A, B gilt: ( und heissen unvereinbar) 159 Gleichverteilung Gleichverteilung: W'keitsverteilung, bei der alle Elementarereignisse die gleiche W'keit haben. Zufallsexperimente mit Gleichverteilung heissen Laplace-Experimente. F ¨ur Laplace-Experimente gilt f ¨ur Ereignis : Anzahl der g ¨unstigen Ausgänge Anzahl der möglichen Ausgänge Beispiele: : Augenzahl bei Wurf eines fairen (idealen) W ¨urfels. : Augenzahl bei Wurf von zwei fairen W ¨urfeln gleichzeitig. 160 Kombinatorik Produktregel zur Bestimmung möglicher Kombinationen: Sei folgendes Lexikon gegeben: die, keine, sch önen, gr ¨unen, schnellen, Hunde, Katzen, Mäuse . Wieviele NPs lassen sich unter Verwendung der Regel NP Det Adj N daraus bilden? # NP = # Det # Adj # N. Geordnete Stichprobe mit Zur ¨ucklegen, -mal eines von Elementen ziehen: Möglichkeiten. Geordnete Stichprobe ohne Zur ¨ucklegen: Geordnete Vollerhebung (Permutation): Ungeordnete Stichprobe ohne Zur ¨ucklegen (Bsp: Lottozahlen): Binomialkoeffizient, ”n ¨uber k”: 161 Bedingte Wahrscheinlichkeiten Sonst: Wie kann man gilt nur wenn . bestimmen? Bedingte relative Häufigkeit: Durchf ¨uhrungen, mal Ereignis , davon ¨ mal auch , dann ist die relative Haufigkeit von bez ¨uglich , , auch . Bedingte Wahrscheinlichkeit: Gegeben: Ereignisse und , $ , dann heisst die durch bedingte Wahrscheinlichkeit von Wahrscheinlichkeit von bezgl. . Allgemeiner Multiplikationssatz: $ dann oder 162 Beispiel Wenn sich jemand noch genau erinnert, dass eines der beiden Kinder seiner Cousine ein Junge ist, wie gross ist dann die Wahrscheinlichkeit, dass beides Jungen sind? (P(Junge) = P(Mädchen) = 0.5). Gesucht: P1 Junge(2 Jungen) Lösung Ohne Information: P(2 Jungen) = 1/4 P(2 Mädchen)= 1/4 P(Junge/Mädchen) = 1/2 P(A) = P(1 Junge) = 1/4 + 1/2 = 3/4 P(B) = P(2 Jungen), P(A B) = P(B) Mit der Information, dass ein Kind ein Junge ist: P1 Junge(2 Jungen) = P(2 Jungen) / P(1 Junge) = 1/4 / 3/4 = 1/3 163 Weiter: bedingte W'keiten Seien und Dann gilt: Ereignisse mit $ $ . verallgemeinert, Satz von Bayes: Seien die den Ereignisraum Ereignisse, zerlegen, d.h. , und f ¨ur . Sei . Dann gilt f ¨ur mit : ¨ Zwei heissen wenn gilt: Ereignisse unabh angig, (und ). Spezieller Multiplikationssatz: Sind und unabhängig, dann gilt: 164 bedingte W'keiten, linguistisch Wortfolgen: " ! kleine ! der !# Schweine ! Hund Sei P(kleine der ) = P( Schweine der ). P = P( der kleine Hund ) = P(der) P(kleine der) P( Hund der kleine) P = P( der Schweine Hund ) = P(der) P(Schweine der) P( Hund der Schweine) P P , falls P( Hund der kleine) P( Hund der Schweine) 165 Zufallsvariablen Stochastische Variable oder Zufallsvariable : Abbildung eines Ereignisraumes auf reelle Zahlen. Das Ereignis wird mit bezeichnet. diskrete Zufallsvariablen , Sei eine Wahrscheinlichkeitsverteilung ¨uber eine Zufallsvariable über , die die Werte annimmt. Dann ist die Abbildung mit die Wahrscheinlichkeitsverteilung von . Erwartungswert einer diskreten Zufallsvariablen (entspricht arithmetischem Mittel): Varianz : 166 Zufallsvariablen stetige Zufallsvariablen Die Wahrscheinlichkeit, dass der Wert einer stetigen Zufallsvariablen genau eine reelle Zahl annimmt, geht gegen 0. Deshalb wird die summierte Wahrscheinlichkeit von betrachtet: heisst auch Verteilungsfunktion (und ist die Ableitung davon). Erwartungswert: Varianz : 167 Zufallsvariablen mehrdimensionale Zufallsvariablen Sei ein Ereignisraum, eine W'keitsverteilung dar ¨uber, und Zufallsvariablen dar ¨uber mit den Werten bzw. . Dann ist die Abbildung die gemeinsame Wahrscheinlichkeitsverteilung oder -funktion von und . Gilt f ¨ur alle : dann sind und ¨ unabhangig. 168 spezielle W'keitsverteilungen Binomialverteilung Bernoulli-Experimente: Experimente mit nur zwei Ausgängen. Bernoulli-Variable: Zufallsvariable, bei der der eine Ausgang den Wert 0, der andere den Wert 1 erhält. Bernoullische Formel: Sei die Wahrscheinlichkeit f ¨ur den Ausgang 1 eines B.-Experiments. Dann ist die W'keit, dass bei Ausf ¨uhrungen -mal der Ausgang 1 eintritt: Sei eine Zufallsvariable, Werte 0, 1, 2, ..., die die n , annehmen kann, mit heisst binomialverteilt mit Parametern und . Es gilt: . Binomialverteilung ist abhängig von der Anzahl der Versuche! Betrachtung von : Verschiebung des Erwartungswerts auf 0, Streckung von k um und von um . 169 Gauss-Funktionen, Normalverteilung die eulersche Zahl: Gauss-Funktion: Graph von ist eine Glockenkurve... Näherung f ¨ur Binomialverteilung f ¨ur mit und Gauss'sche Summenfunktion: Sei -verteilt, dann gilt f ¨ur gen ¨ugend grosses : Normalverteilung Zufallsvariable mit f ¨ur alle reellen Zahlen heisst normalverteilt mit Erwartungswert und Varianz ( -verteilt). 170 Stochastische Prozesse Ein stochastischer oder Zufallsprozess ist eine Folge von Zufallsvariablen ¨uber demselben Ereignisraum. ¨ Die möglichen Ausgänge heissen auch Zust des ande Prozesses, der Prozess ist im Zustand zum Zeit punkt . Die sind nicht zwingend unabhängig voneinander! Zufallsprozesse können ¨uber diskrete oder stetige Zeitparameter und ¨uber diskrete oder stetige Zufallsvariablen betrachtet werden, hier aber nur diskrete Zeitschritte und endliche Ausgangsmengen. Vollständige Charakterisierung eines Zufallsprozesses: Wahrscheinlichkeit f ¨ur alle Ausgänge f ¨ur den Anfangszustand. f ¨ur jeden folgenden die be Zustand dingten W'keiten 171 N-Gramm-Modelle Annahme: nur die letzten Wörter haben Einfluss auf die Wahrscheinlichkeit des nächsten. Gebräuch lich ist : Trigramm-Modelle. Wahrscheinlichkeit f ¨ur ein Wort nach der Wortfol ge : Die Wahrscheinlichkeit f ¨ur eine Wortfolge beträgt dann: 172 Markov-Kette Eine Markov-Kette ist ein Zufallsprozess, bei dem die Wahrscheinlichkeit des nächsten Zustands nur vom aktuellen abhängt. Die Markov-Eigenschaft ist also: Beispiel: schönen 1/2 die 2 4 grünen 1 1/2 keine 3 5 Hunde 7 Katzen 8 schnellen 6 10 1 Satzende 9 Wiesen Sei die Kante zwischen 5 und 9 mit 0.98 gewichtet und die zwischen 6 und 9 mit 0.02. 173 Stochastische Matrix Sei eine (endliche) Markov-Kette mit Zuständen gegeben. Die Übergangswahrscheinlichkeiten von Zustand in können in einer , d.h. Übergangsmatrix dargestellt werden: mit f ¨ur Ein und Vektor heisst Wahrscheinlichkeitsvektor, und kann z.B. f ¨ur den ersten einer Markov-Kette gelten. Dann Zustand gilt: . Der initiale Wahrscheinlichkeitsvektor zusammen mit der Übergangsmatrix bestimmen eine Markov-Kette vollständig, d.h. die Wahrscheinlichkeiten, dass sich der Prozess an einem best. Zeitpunkt in einem best. befindet, können daraus errechnet werZustand den: 174 Beispielmatrix F ¨ur das Beispiel zur Markov-Kette kann man folgende Zustands ¨ubergangs-Wahrscheinlichkeits-Matrix aufstellen: 175 Matrix-Multiplikation Matrizen. Wir brauchen nur quadratische, d.h. und Matrizen mit den Elementen Seien und , , die Zeile, die Spalte. Dann ist das Produkt definiert als Matrix mit (Das ist das Produkt aus dem -ten Zeilenvektor und dem -ten Spaltenvektor ) Produkt aus Matrix .. und Vektor .. ( -stellig): 176 Markov-Modelle Sei jeder Zustand einer Markov-Kette mit einer endlichen Menge von Signalen verbunden. Nach jedem Zustands ¨ubergang wird eines der zum aktuellen Zustand gehörenden Signale ausgegeben. Die Zufallsvariable repräsentiert dieses Signal zum Zeitpunkt . Ein Markov-Modell (erster Ordnung) besteht aus: einer endliche Menge von Zuständen einem Signal-Alphabet einer -Zustands ¨ubergangs-Matrix mit mit der Wahreiner -Signal-Matrix scheinlichkeit Zustands-Signal-Paar, dass gegeben wird. und initialer Vektor einem f ¨ur jedes im Zustand aus- mit die Wahrscheinlichkeit, dass zur Zeit das Sei Signal ausgegeben wird. Der Vektor enthält diese Wahrscheinlichkeiten f ¨ur alle . 177 Hidden Markov Models, HMMs Wenn keine Beobachtung der Zustände möglich ist, sondern nur die Signale beobachtet werden können, liegt ein Hidden Markov Model (HMM) vor. eine Folge von beobachteten Signalen Sei und die unbekannte Folge von Zuständen. Die beste Schätzung f ¨ur S ist die Folge mit dem grössten Wert f ¨ur Laut Bayes'schem Satz gilt: nicht von abhängt, können wir auch maximieren. und da heisst Signalmodell, Sprachmodell. 178 Anwendungen für HMMs 1. Schätzung der Wahrscheinlichkeit einer Signalfolge (Identifikation einer Sprache), 2. Bestimmung der wahrscheinlichsten Zustandsfolge, die zu einer Signalfolge gef ¨uhrt hat: Tagging Signale: Wörter eines Eingabetextes Zustände: Mengen von Wortarten Aufgabe: finde die wahrscheinlichste Folge von Wortartmengen, die den Wörtern zugeordnet werden können. Spracherkennung Signale: (Repräsentation der) akustischen Signale Zustände: mögliche Wörter Aufgabe: finde die wahrscheinlichste Folge von Wörtern, die die akustischen Signale hervorgerufen haben 3. Bestimmung der Parameter 179 1. Sei Dann: und das ist viel zu aufwendig! wie aufwendig? . und: 180 Der Vorwärts-Algorithmus Vorwärts-Variablen: Wahrscheinlichkeit, zum Zeit punkt im Zustand zu sein und die Signalfolge bis dahin beobachtet zu haben. . und Begr ¨undung (Markov-Annahme im zweiten Schritt): Aufwand: 181 Der R ¨uckwärts-Algorithmus R ¨uckwärts-Variablen: Wahrscheinlichkeit, zum Zeit punkt im Zustand gewesen zu sein und die Si von da an beobachtet zu haben. gnalfolge Definiere f ¨ur . . weil: 182 Der Vorwärts-R ¨uckwärts-Algorithmus Wahrscheinlichkeit, zum Zeitpunkt im Zustand zu sein, wenn O die gesamte beobachtete Sequenz von Zeit bis ist: Vorwärts-R ¨uckwärts-Variablen: 183 Datenstruktur Trellis Ein Trellis ist ein Graph mit je einem Knoten f ¨ur jeden Zustand an jedem Zeitpunkt. Jeder Knoten zum Zeitpunkt ist mit den Knoten zu den Zeitpunkten und verbunden. Die Knoten werden mit Variablen attributiert, in denen Werte akkumuliert werden können (z.B. Vorwärtsvariablen). Wenn eine passende Gleichung vorliegt, können aus den Werten f ¨ur die f ¨ur berechnet werden. Beispiel: Zustand n Knoten_j_t: {k_i_t-1 | i=1,..,n} {k_i_t+1 | i=1,..,n} alpha beta... 3 2 1 1 2 3 T Zeit 184 2. Bestimmung von Def.: max ist der maximale Wert von ist derjenige Wert von , mit dem Def.: arg max maximal wird. Viterbi-Algorithmus Gesucht: Variablen max max mit: der Wahrscheinlichkeit wahrscheinlichsten Zu der standsfolge von Zeit bis mit am Zeitpunkt und beobachteter Signalfolge . Der Vektor bezeichnet den Vorgänger vom Zu stand im Pfad zu . Unterschied zu Vorwärts-Algorithmus: Maxima statt Summen. Gleiche Komplexität 185 Viterbi-Algorithmus Es gilt: max max arg max arg max , " ( & &" & * max ' & " $% ( # & &" ' ' & & # &" $% ' $% # !" ! max max % - ' ( max max Die Begr ¨undung f ¨ur ( ( max max $% # ) max ( max ( " + max ) 186 Viterbi-Algorithmus : 187 Stochastisches Tagging 1. Einem Wort wird das wahrscheinlichste Tag, d.h. dasjenige, mit dem es im Trainingsset am häufigsten assoziert war, zugeordnet. Zu 90 % korrekt (Englisch, nach Allen 1995) Nachteil: kann unzulässige Folgen von Tags ergeben 2. Wahrscheinlichkeit einer Folge von Tags, Tag-NGramme, Viterbi-Algorithmus 3. HMMs, Kombination von Worthäufigkeit und TagFolgen-Wahrscheinlichkeit, Viterbi-Algorithmus; jedes Wort ist unabhängig von den anderen Wörtern, aber hängt von den vorigen Tags ab. Unbekannte Wörter: morphologische Information, Prefixe, Suffixe Menge von Default-Tags (offene Wortklassen), dann davon nach W'keit im N-Gramm davor auswählen W'keit aller Tags im Tagset am Ende des entsprechenden N-Gramms (ungeeignet f ¨ur grosse Tagsets) 188 Tagging, Beispiel (deRose 1988) 2. Variante: (n-best) Tag-N-Gramme “The man still saw her “ the man still saw her Art N Adv N PsPr V N V... V Pst Pr Dat Häufigkeiten bei 4017 Bigrammen: N Pr Dat PsPr Adv V V Pst Art 186 0 0 8 1 8 N 40 1 3 40 9 66 Pr Dat 7 3 16 164 109 16 PsPr 176 0 0 5 1 1 Adv 5 3 16 164 109 16 V 22 694 146 98 9 1 V pst 11 584 143 160 2 1 . 9 186 313 2 313 59 91 1. Schritt, (Art) (eindeutig). 2. Schritt, möglich: Art - N und Art - V, beide expandieren (obwohl W'keit f. Art - V sehr gering). 3. Schritt, usw. besten Pfad zu jedem Tag aufheben, hier (Art - N - N), (Art - N - V) und (Art - N - Adv). 189 3. Parameterbestimmung für HMMs Aufgabe: Bestimmung von Anfangsw'keiten ,Übergangsw'keiten und Signalw'keiten f ¨ur ein HMM. 1. Fall: Annotierte Trainingsdaten liegen vor, d.h. Signal- und Zustandsfolge sind bekannt. Dann können die relativen Häufigkeiten als Schätzwerte verwendet werden. Problem: ”sparse Data”, spärliche Daten. 2. Fall: Es gibt nur rohe Trainingsdaten, d.h. nur die Signalfolge ist bekannt. Es werden Iterationsgleichungen definiert, die in jedem Schritt bessere Schätzwerte liefern. 190 Spärliche Daten Problem: manche Phänomene sind so selten, dass sie im Trainingsset gar nicht auftreten. Lösungen: Smoothing f ¨ur Trigramme Bigramme und Unigramme hinzuziehen und gewichten: mit ... "(' ) +*-, ! #"$ %& ! . , " “relativ“ hoch. 191 Parameterschätzungen durch Iteration Baum-Welch-Verfahren oder Vorwärts-R ¨uckwärtsWiedereinschätzungsalgorithmus: Definiere W'keiten: ) ! ' #" $ &%(' ! ' *) + d.h. gemeinsame W'keit, dass zum Zeitpunkt Zu ) * -, stand und zum Zeitpunk Zustand vorlag unter der Bedingung, dass die Signalfolge beob ) achtet wurde (von Zeit bis ). Es gilt: . / 2 143 "5) 176 ) 8 & %(' 1$9 :%' 0 2143 "5) 176 )8 &%(' 1$9 :%' 0 ; "=<>) 2143 "5) 176 )8 &%(' 0 192 weiter: Baum-Welch Weil: + ' + ' + 1 + 1 1 + ' 1 1 + 0 . *, ' , 1 9 ' , * ' 1 1 3 *, 1 6 , , ' * ' , * ' ' , ' ' * ' ' * ' * ' ' , ' + ' + ' * ' *, ' , - ' * ' Diese heissen ebenfalls Vorwärts-R ¨uckwärtsvariablen, und hängen mit den wie folgt zusammen: ' ' ' ; , , ' * ' * ) ' , 193 weiter: Baum-Welch Wir haben also: ; * - W'keit, im Zustand zu starten von ; * ; * - erwartete Anzahl von Übergängen , nach - erwartete Anzahl von Übergängen aus - erwartete Anzahl von Ausgaben * , des Signals im Zustand Die gesuchten Iterationsgleichungen: ) . ' ;( ' ' ;( ' ; (' 8 ) ; (' * 3 *, wobei die Summen über von 1 bis der , und 6 *, immer 1 ergeben m ¨ussen. + Es kann gezeigt werden, dass mit jedem Schritt steigt oder die Parameter gleich bleiben. 194 stochastische kontextfreie Grammatik Eine kontextfreie Grammatik -; ist ein 4-Tupel, mit Nicht-Terminalsymbolen , ; Terminalsymbolen , 9 Regeln der Form (mit und dem Startsymbol . 9 ; Warum Wahrscheinlichkeiten dazu? Wertung von Hypothesen (z.B. bei Spracherkennung), Auswahl des wahrscheinlichsten Ergebnisses (Parsing), fr ¨uhzeitiges Ausschalten unwahrscheinlicher Analyseversuche (Parsing, Effizienzsteigerung) 195 stochastische kontextfreie Grammatik Eine stochastische oder probabilistische kontextfreie ; Grammatik ist ein 5-Tupel, , ; mit wie vorher und eine Funktion von nach [0,1] mit 9 ' ) Die Summe der Wahrscheinlichkeiten f ¨ur die Regeln mit einem bestimmten Nichtterminal auf der linken Seite muss 1 sein. Beispiel: ) . . Hans ¨ schlaft ¨ standig . ) . ) . ) . Wahrscheinlichkeit einer Zeichenfolge: Summe der W'keiten der Parseb äume dazu. W'keit eines Parsebaums: W'keit der erzeugenden Linksableitung 196 Wahrscheinlichkeit einer Ableitung Wahrscheinlichkeit einer Linksableitung: Seien die Regeln durchnummeriert und die Ableitung repräsentiert durch die Folge der verwendeten Re geln. Sei eine Zufallsvariable, die von der Regel bestimmt wird, die in Schritt verwendet wurde. Dann ist eine Linksableitung ein stochastischer Pro mit der Regelmenge der Grammatik zess als Zustandsmenge. Die W'keit einer Linksableitung ist: ' 1 ' ' ' * ' ' * * ' * ' * * ' ' * * * ' * ' nötig: alle Faktoren, d.h. alle bedingten W'keiten f ¨ur jede Regel. Annahme, Regeln unabhängig von vorangegangenen Ableitungsschritten: ' also * ' ' * * ' * * ' ' ' * * 197 Parsingbeispiel Grammatik: ) ) . . . . . ) . 'mit dem Fernglas' ) . 'sieht' . 'Dame' . 'Frau' ) . 'die' ) . 0.2 0.8 NP 1 D 0.8 N S 0.7 0.2 1 VP 0.3 PP 0.3 0.7 V 198 Lesarten von 'Die Dame sieht die Frau mit dem Fernglas' I: S NP D VP NP N V NP D PP N Die Dame sieht die Frau mit dem Fernglas II: S NP D VP VP N PP V NP D N Die Dame sieht die Frau mit dem Fernglas 199 Die Ableitungen ¨uber (ohne lexikalische Ersetzungen): I: (S, NP VP, D N VP, D N V NP, D N V NP PP, D N V D N PP) = (1, 4, 2, 5, 4) II: (S, NP VP, D N VP, D N VP PP, D N V NP PP, D N V D N PP) = (1, 4, 3, 2, 4) Welche davon ist wahrscheinlicher? ) ' ' ) 1 1 1 . . 1 1 . . . 1 1. 1 . . . . ' ' . ) 200 Notationen zu Parsebäumen : der am weitesten links stehende Nichtterminal Knoten von wird durch ersetzt, linker Knoten und Wurzel m ¨ussen dabei das gleiche Nichtterminal als Label tragen. : Label des Knotens . : Wurzel von . : “yield“ des Baumes , Ergebnis der Regelanwendung, generierter String. : Label des am weitesten links stehenden Knoten in . 201 Korrespondenz zu partiellen Parsebäumen Regel entspricht Teilbaum mit Wurzel und Knoten . ' Sei der Teilbaum zu , die Folge * * . Dabei ist der Teilbäume der Ableitung der vollständige Parsebaum. Dann ist die Wahrscheinlichkeit eines Parsebaums: ' ' ! ' ! Gesucht: Extraktor-Funktion , die die relevanten Eigenschaften von zur W'keitbestimmung extrahiert, mit: und das ist der Label des am weitesten links stehen ' den Knotens im Ergebnis von , . 202 Ein Parser für SKFGs Adaption des Viterbi-Algorithmus, Variante des CYK" " Parsers, Zeitkomplexität , . Speicherkomplexität ' ' $ ' , G in CNF (Analyse-W'keiten bleiben erhalten). Akkumulator * , Knoten , Nichtterminale * . Jeder Knoten bestimmt einen Teilstring mit den ' Stringpositionen , sei dieser Teilstring. Die dazu inverse Funktion (nur partiell definiert!) bestimmt aus einem Teilstring denjenigen Parsebaumknoten, der am nächsten zur Wurzel liegt. * max . ) ' ' W'keit des wahrscheinlichsten Baums mit ' max Der Baum selbst ist: arg max * ' ' ' : 203 weiter: Parser 3 , * ' , * * =3 * ' Sei Konstruktion des Parsebaums, bottom-up: 1. Initialisierung ) ) 2. Rekursion ) * ' * , max * ' * , ' ' right ' ' , * , , , 3 * * left ' - right arg max 3. Rekonstruktion, left 3 * * . 3 ' * wenn sonst wenn sonst . 204 weiter Parser Begr ¨undungen Initialisierung: Die Nichtterminale, die die Terminale erzeugen, erhalten die W'keiten der lexikalischen Regeln. Rekursion: sammeln die Indizes der rechten Seiten der ver wendeten Regeln auf, speichert die String-Position zwischen und . * , wird aus den W'keiten f ¨ur und berechnet: max ' , max 1 max 1 max * , ' * * ' ' , 205 Parse, Initialisierung Indizes des Eingabestrings: 0die 1 Dame 2 sieht 3 die 4 Frau 5 mit dem Fernglas6 Initialisierung: t i * 1 S 2 NP 3 VP 4 PP 5 V 6 N 7 D die 1 1 Dame 2 0.4 sieht 3 1 die 4 1 Frau 5 mit ...6 0.6 1 206 ' max für NP und VP NP, r 0 t 1 , 3 * , , 2 3 4 1 2 3 5 6 ! " 4 5 6 VP, r 0 1 2 3 4 5 6 t 1 2 3 4 5 6 # $ # ") * ## #% $(#& max ' max ' ) $*+, 207 Parameterschätzungen für prob. Grammatiken wenn ein annotierter Korpus vorliegt: relative Häufigkeiten verwenden, Achtung bei spärlichen Daten wenn nicht: – Zuerst alle g ¨ultigen Parsebäume erzeugen, dann eine Gleichverteilung f ¨ur alle Bäume pro Satz annehmen. Häufigkeitszählung der verwendeten Regeln (nach linkem Symbol), gewichtet mit der W'keit des Baumes: ergibt neue Verteilung f ¨ur die Regeln, daraus neue Verteilung f ¨ur die Bäume; das kann beliebig wiederholt werden. Problem: Komplexität, Anzahl der Parsebäume exponentiell zur Stringlänge. – Inside-Outside-Algorithmus 208 Parameterschätzungen für prob. Grammatiken Inside-Outside-Algorithmus Idee: Verwende die aktuellen W'keiten der Regeln, um davon abhängige andere Masse einzuschätzen. Ziel: Finde die Menge von Regel-W'keiten, mit denen es am ehesten möglich ist, den Trainings-Korpus zu generieren. Die Variablen: * Die Inside-W'keit schätzt die W'keit * * * dass abgeleitet wird, vorliegt. wenn * schätzt die W'keit Die Outside-W'keit * dass die o.a. Zeichenkette von wenn vorliegt. abgeleitet wird, 209 Inside-Variablen-Initialisierung: ) ) * ) 3 ' * Inside-Variablen-Rekursion * ) ' , . 3 * , 1 , 1 Outside-Variablen-Rekursion , * ' ) ) 3 , 3 , 1 * * 1 , , 1 1 Komplexität f ¨ur beide Variablen , - #.- + . )( $ "' $ "' $ "' $ )( '" $ "' '" "# $ $ $ "# ! ! $ $ &% &% * * " " "# ! ! ! ! $ 210 Herleitung Inside: Outside: 211 Wiedereinschätzungsgleichung Idee: 3+* 3 , * ' ' * , * mit: * ' * * ) ' * ' * * , * * * die Wahrscheinlichkeit des Strings , die W'keit des Strings und das Vorkommen des Nicht * terminals ind dessen Ableitung. * * , ) ' ) 123 * ' ) * 21 3 * * , 1 , 1 212 Stochastische Verfahren für Semantik Beispiel: R.Bonnema, R.Bod, R. Scha: A DOP Model for Semantic Interpretation, ACL '97 http://earth.let.uva.nl/ bonnema/acl-DOP-sem/acl-DOPsem.html Idee:Data-oriented Processing auf Semantik erweitern 1. Was ist DOP? Korpus mit syntaktisch annotierten, d.h. gelabel ten Bäumen, als Operation darauf Komposition . Neue Eingabe wird analysiert, indem vorhandene Teilbäume komponiert werden. Model: Einschätzung der W'keit, dass ein Teibaum an einer bestimmten Stelle eingestzt wird: An zahl der Vorkommen von im Korpus / Anzahl aller Teilbäume mit dem gleichen Wurzellabel: ' W'keit einer Ableitung: * ' * * W'keit eines Baumes, der -te Teilbaum in der Ableitung von Baum : ' * * 2. Erweiterung um semantische Annotationen Gewählter Semantik-Formalismus: Extensionale Typentheorie (Prädikatenlogik höherer Ordnung, Typen, -Abstraktion) Jeder syntaktisch annotierte Knoten wird jetzt ebenfalls semantisch annotiert: (pre-)lexikalische mit typen-logischer Formel, die die Bedeutung repräsentiert. nicht-lexikalische mit Formel-Schema, mit dem man die Formeln der Tochterknoten zusammensetzen kann. Problem: kompositionale Semantik angenommen Modifikation der Komposition bz. Extraktion: Wenn ein Teilbaum extrahiert wird, wird das entstehende Blatt im Oberbaum mit einer Unifikationsvariablen gelabelt. Bei Komposition wird sie mit der Formal am eingef ¨ugten Wurzelknoten unifiziert. 3. Statistisches Modell gleich dem syntaktischen: ' W'keit einer Ableitung: ' * ' * * * Interpretation eines Strings: Semantische Annotation der Wurzel des Parsebaums. 3 W'keit einer Interpretation, diejenigen Parses, die eine äquivalente Interpretation liefern: % ' * *