Folien zur Vorlesung ”Mathematische Grundlagen der

Werbung
Folien zur Vorlesung ”Mathematische Grundlagen
der Computerlinguistik”
Susanne Schacht
Arbeitsgruppe Computerlinguistik, Universit ät Freiburg
Friedrichstr. 50, D-79098 Freiburg, Germany
e-mail: [email protected]
WS 1997/98
Die Vorlesung spricht Themen sowohl der mathematischen Grundlagen der Linguistik als auch der formalen
Grundlagen der maschinellen Sprachverarbeitung an. Die Veranstaltung besteht aus den vier Bl öcken Algebra,
Logik, formale Sprachen und Komplexität, sowie Statistik. Die Betonung liegt dabei jeweils auf m öglichen
Anwendungen für die Computerlinguistik.
1
Inhalt
1. Mengentheorie und Algebra
(a) Einführung;Mengen und Relationen
(b) Funktionen
(c) Algebraische Strukturen: Gruppen, Partiell geordnete Mengen, Verb ände
2. Logik, formale Systeme
(a) Aussagenlogik
(b) Prädikatenlogik
(c) Formale Systeme, Inferenz
(d) Nicht-Standard-Logiken
(e) Merkmalslogik, Unifikation
(f) Typtheorie, Lambda-Kalkül, Montague-Semantik
3. Theoretische Informatik
(a) Formale Grammatiken, Chomsky-Hierarchie
(b) Sprachen und Automaten
(c) Berechenbarkeit und Komplexität
4. Statistik
(a) Grundbegriffe
1
(c) Hidden Markov Modelle
(d) Anwendung: Tagging
(e) Anwendung: Parsing
(f) Bits and Pieces
2
Literatur
2.1
Lehrbuch/Script
1. Barbara H. Partee, Alice ter Meulen & Robert Wall: Mathematical Methods in Linguistics, 1990 (Partee
et al., 1990).
Das Buch deckt ca. 3/4 der Vorlesung ab. Es setzt keine mathematischen Grundkenntnisse voraus und
betont die Anwendungen der vorgestellten Formalismen.
2. Brigitte Krenn und Christer Samuelsson: The Linguist's Guide to Statistics (Krenn & Samuelsson, 1997).
http://www.coli.uni-sb.de/ christer/stat cl.ps
Sehr gründliche Einführung in Wahrscheinlichkeitstheorie und alle m öglichen Anwendungen von Statistik
in der Linguistik. Leider noch Lücken an einigen Stellen, ausführliche Literaturliste.
3. Eugene Charniak: Statistical Language Learning, 1993 (Charniak, 1993)
Nur bedingt empfehlenswert, mathematisch eher dünn, als Anwendungen nur Tagging, Parsing und
Grammatik-Inferenz.
2.2
zusätzliche Literatur zu den einzelnen Themen
1. Algebra
2. Logik
Zur Einführung in Aussagen- und Prädikatenlogik: (Schöning, 1987)
Merkmalslogik, Unifikation: (Shieber, 1986)
Anwendung Semantik: (Lohnstein, 1997), Montague-Semantik gründlich:
3. formale Sprachen, Berechenbarkeit Komplexit ät
Einführung in die Theoretische Informatik: (U. Sch öning, 1997)
Komplexität und Natürliche Sprache: (Barton et al., 1987), Komplexit ät einzelner Grammatikformalismen
und Parsingalgorithmen: (Barton, 1985), (Johnson, 1989), (Neuhaus & Br öker, 1997)
4. Wahrscheinlichkeitsrechnung und Statistik
Zur Motivation von statistischen Methoden: (Abney, 1996a)
Stochastische Grammatiken: TAGs: (Schabes, 1992) HPSG: (Brew, 1995) Merkmalsgrammatiken: (Abney, 1996b)
Sparse Data: (Samuelsson, 1996) Semantik: (Bonnema et al., 1997)
Literatur
Abney, Steven (1996a). Statistical methods and linguistics. In Judith Klavans & Philip Resnik (Eds.), The
Balancing Act. MIT Press, Cambridge, MA.
Abney, Steven (1996b). Stochastic Attribute-Value Grammars. unpublished.
Language. Cambridge, MA, London: Bradford, MIT Press.
Barton, G. Edward (1985). On the complexity of id/lp parsing. Computational Linguistics, 11(4):205–218.
Bonnema, Remko, Rens Bod & Remko Scha (1997). A DOP model for semantic interpretation. In ACL/EACL
1997 Proceedings, pp. 159 – 167. Madrid, Spain: ACL. http://earth.let.uva.nl/ bonnema/acl-DOP-sem/aclDOP-sem.html.
Brew, Chris (1995). Stochastic hpsg. In ACL'95 – 33rd Annual Meeting of the Association for Computational
Linguistics.
Charniak, Eugene (1993). Statistical Language Learning. Cambridge, MA: MIT Press.
Johnson, M. (1989). The computational complexity of Tomita's algorithm. In Proceedings of the 1st Int'l.
Workshop on Parsing Technologies (IWPT'89). Carnegie-Mellon University, Pittsburgh, PA, 1989, pp.203208.
Krenn, Brigitte & Christer Samuelsson (1997).
sb.de/christer/stat cl.ps.
The Linguist's Guide to Statistics.
http://www.coli.uni-
Lohnstein, Horts (1997). Formale Semantik und Natürliche Sprache. Westdeutscher Verlag.
Neuhaus, P. & N. Bröker (1997). The complexity of recognition of linguistically adequate dependency grammars. In ACL-97/EACL-97 – Proc. of the 35rd Annual Meeting of the Association for Computational Linguistics and the 8th Conf. of the European Chapter of the Association for Computational Linguistics.
Partee, B. H., A. ter Meulen & R. E. Wall (1990). Mathematical Methods in Linguistics, Vol. 30. Studies in
Linguistics and Philosophy. Dordrecht, NL: Kluwer Academic Press.
Samuelsson, Christer (1996). Handling sparse data by successive abstraction. In Proceedings of the 16th
International Conference on Computational Linguistics, ICCL 1996.
Schabes, Yves (1992). Stochastic lexicalized tree-adjoining grammars. In COLING '92 - Proceedings 15th
Int'l. Conference on Computational Linguistics, pp. 426–432.
Schöning, Uwe (1987). Logik für Informatiker. Mannheim: BI Wissenschaftsverlag.
Shieber, Stuart M. (1986). An introduction to unification-based approaches to grammar. Lecture Notes 4.
Stanford, CA: CLSI.
U. Schöning (1997). Theoretische Informatik kurz gefasst (3 ed.). Heidelberg: Spektrum Akademischer Verlag.
1
Warum?
was?
Linguistik
Computerlinguistik
Algebra
exakte formale Beschreibungen von:
u. Logik
Syntax u. Semantik zusätzlich Weltwissen
Theoretische
Aufwandsabschätzungen,
Informatik
Berechenbarkeit
quantitative
“Performanz”:
Statistik
Linguistik
kogn. Modellierung
techn. P.-Steigerung
2
Mengen
Eine Menge ist eine (ungeordnete) Sammlung
von unterscheidbaren Objekten, ihren Elementen.
– das können auch Mengen sein!
Eine Menge ist wohl-definiert, wenn nach einem
klaren Prinzip entschieden werden kann, ob ein
Objekt Element einer Menge ist oder nicht.
Schreibweise:
f ¨ur Mengen,
Grossbuchstaben
f ¨ur Elemente.
Kleinbuchstaben leere Menge: ist / ist nicht Element von bzw.
:
3
Beschreibungen für Mengen
1. Listen-Notation, Aufzählung:
2. Charakteristische Eigenschaft, Beschreibung:
gerade
Russells Paradox...
3. Verfahren zur Generierung der Elemente:
1. 4 ist Element der Menge .
ist,
2. wenn x Element der Menge dann auch x + 3.
3. nichts sonst ist Element der Menge .
¨
Identitat:
genau dann, wenn alle in auch Element
von sind und alle in auch in .
¨
Kardinalitat:
Anzahl der Elemente einer Menge:
oder # Wenn
eine nat ¨urliche Zahl ist, heisst endlich,
sonst unendlich. Beispiel?
4
Mengenoperationen
genau dann,
wenn alle Elemente
Teilmenge:
von auch Elemente von sind.
F ¨ur alle Mengen gilt:
echte Teilmenge:
gdw.
und und
disjunkte Mengen: Zwei (mehrere) Mengen
heissen
disjunkt, wenn kein x Element von und ist.
Potenzmenge:
Schnitt:
Differenz:
Vereinigung:
, Menge aller Teilmengen von , alle Elemente von
oder
, Menge aller Elemente von
and
.
.
und
Komplement:
immer in Bezug auf Grundmenge / Universum :
.
5
Verknüpfungseigenschaften
Idempotenz
(a)
(b)
Kommutativität
(b)
(a)
Assoziativität
(a) (b) Distributivität
(a)
(b)
Identitätsgesetze
(a)
(b)
(c)
(d)
Komplementgesetze
(b)
(a)
(c) (d)
DeMorgans Gesetze
(a) (b) Konsistenz
(a)
gdw.
(b)
gdw.
6
Tupel
geordnetes Paar, mengentheoretische Definition:
mit der Eigenschaft Kartesisches Produkt:
.
und
Projektion
auf erste / zweite Koordinate von
:
bzw. Erweiterung auf n-Tupel möglich...
7
Relationen
(zweistellige) Relationen: Beziehungen zwischen
(zwei) Objekten.
Relation
von nach ;
, in .
falls Definitionsbereich, domain:
und es gibt ein
so, dass Wertebereich, range:
und es gibt ein so, dass Schreibweise: Komplement von
Inverse:
identische Abbildung in
.
oder
:
:
8
Eigenschaften von Relationen
¨
Reflexivitat:
f ¨ur alle
, d.h.
Symmetrie:
f ¨ur alle
– nicht reflexiv: nicht alle
von .
– irreflexiv: kein
,
.
,
.
.
– nicht
symmetrisch: nicht f ¨ur alle
auch
.
– asymmetrisch:
nie sowohl
als auch
(also auch irreflexiv).
– antisymmetrisch:
wenn
und
, dann .
¨
Transitivitat:
f ¨ur alle
– nicht transitiv: nicht f ¨ur alle ...
– intransitiv: f ¨ur keine ...
.
9
Beispiel
in der Menge der Artikel (RelativproRelation
nomen) und Substantive:
gdw. eines
der beiden
ist Artikel, das an
dere Substantiv und
und kongruieren in Kasus,
Numerus und Genus
irreflexiv
symmetrisch
nicht transitiv
Überpr ¨ufung durch Relationstafel:
zur Reflexivität betrachte die Diagonale...
zur Symmetrie: sind die Einträge an der Diagonale
gespiegelt?
zur Transitivität: nachrechnen...
10
Äquivalenzrelationen
Relationen, die
reflexiv
symmetrisch
transitiv
¨
sind, heissen Aquivalenzrelationen.
Sie zerlegen ihren Definitionsbereich in disjunkte Teilmengen, die
¨
Aquivalenzklassen.
Schreibweise:
Äquivalenzklasse von :
ist äquivalent zu
:
(auch: kongruent)
Beispiel: Relation in der Menge der nat ¨urlichen
Zahlen (mit 0):
gdw. und hinterlassen bei der Division
durch 4 den gleichen Rest.
11
Ordnungsrelationen
Transitive Relationen heissen Ordnungsrelationen.
partielle Ordnung,
:
– transitiv, d.h. wenn
– reflexiv, d.h. f ¨ur alle
.
– antisymmetrisch,
d.h. wenn
.
totale Ordnung:
vergleichbar:
alle
strikte Ordnung,
– transitiv
– irreflexiv
– asymmetrisch
oder
, dann
.
.
, dann
12
Beispiele
Partielle Ordnungsrelationen lassen sich in sog.
Hasse-Diagrammen darstellen:
und teilt
4
6
2
3
5
1
Totale Ordnungen bilden eine Kette, betrachte
Hasse-Diagramm von
und teilt
Sei eine Ordnungsrelation in gegeben.
heisst untere Grenze, wenn es kein
gibt
mit
.
ist kleinstes Element von , wenn f ¨ur alle
gilt:
.
¨
obere Grenze und grosstes
Element entsprechend...
wohlgeordnet: jede Teilmenge hat kleinstes Element...
13
Übung: Teilmengen
seien Mengen.
Zu zeigen ist: wenn
dann auch
Beweis:
F ¨ur alle Elemente
einer Menge
, die Teilmenge
einer Menge ist, gilt, dass auch Element von ist. (Definition der Teilmenge)
f ¨ur alle Dies gilt auch f ¨ur alle Elemente in
Teilmengen von ,
auch Teilmengen
somit sind alle Teilmengen von
von ,
f ¨ur alle
und damit Element von
menge)
f ¨ur alle
. (Definition der Potenz
Damit
sind alle Elemente von
, also gilt:
Gilt auch die Umkehrung?
auch Element von
14
Funktionen (= Abbildungen)
Eine Relation von nach heisst
partielle Funktion gdw.
wenn
und
, dann .
D.h., ein
wird auf höchstens ein
abgebildet.
Schreibweise:
;
Argumente,
Werte.
heisst auch Urbild,
und es gibt mit Bild von F,
Urbild von .
oft Kleinbuchstaben
(totale) Funktion von f ¨ur Funktionen
nach : jedes
...
Beispiel: Sei eine Menge von lexikalischen
Schl ¨usseln, die Menge der Einträge.
Ist mit Eintrag zu eine Funktion?
15
Eigenschaften von Funktionen
surjektiv:
“jedem Element von
ist ein Urbild zugeordnet”
injektiv: Eins-zu-eins-Abbildung,
d.h.:
, dann .
wenn “verschiedene Argumente haben verschiedene
Funktionswerte.”
bijektiv: injektiv und surjektiv
“jedem Element von ist genau ein Urbild
zugeordnet”
16
Übungen zu Funktionseigenschaften
Sei oder falsch?
. Sind die folgenden Aussagen wahr
1. ist genau dann bijektiv, wenn
ist.
umkehrbar
jedes 2. Ist surjektiv, so hat
stens ein Bild .
minde-
3. Hat
jedes mindestens ein Bild , so ist surjektiv.
4. Gibt es zu jedem mit , so ist
5. Gibt
es zu jedem
, so ist injektiv.
höchstens ein
injektiv.
ein mit 6. ist genau dann
bijektiv, wenn zu jedem
genau ein
existiert mit .
7. ist genau dann
bijektiv, wenn zu jedem
genau ein existiert mit .
8. Ist bijektiv, so gibt
es zu jedem
höchstens ein mit .
1, 2, 5, 7, 8 sind wahr, die anderen falsch.
1. Ist bijektiv, so
gibt es zu jedem
höchstens ein
mit .
2. Folgt aus f ¨ur alle dass , dann ist injektiv.
,
3. Sind und endlich und ist injektiv, dann
ist auch bijektiv.
4. ist stets surjektiv.
5. Gilt
, so kann
nicht bijektiv sein.
6. Ist surjektiv und die Umkehrrelation von eine injektive Abbildung, so ist auch injektiv.
7. Ist injektiv und die Umkehrrelation von
eine surjektive Abbildung, so ist bijektiv.
8. Ist surjektiv und nicht injektiv, so ist die
Umkehrrelation eine surjektive, nicht injektive Funktion.
9. Ist
Bijektion
, so ist jede Injektion auch eine
10. Jede Injektion lässt sich durch Einschränkung des Wertebereichs zu einer
Bijektion machen.
1, 2, 4, 5, 6, 7, 10 sind wahr, die anderen falsch.
17
Verknüpfung von Funktionen
Komposition, Verkn ¨upfung
Gegeben:
dann:
mit (Achtung: Schreibrichtung...)
Sei
gegeben. Dann gilt:
und f ¨ur bijektive
:
und
mehrstellige Funktionen: mit Hilfe von Tupeln...
18
Beispiel Komposition
Gegeben: Mengen von Sätzen in nat ¨urlichen Sprachen: englisch, deutsch, spanisch.
Ausserdem Funktionen:
,
,
,
Wie ¨ubersetze ich einen deutschen Satz in einen
englischen?
zuerst deutsch nach spanisch, dann spanisch nach
englisch:
Wie viele einzelne Übersetzungsfunktionen
braucht
man, um Übersetzer f ¨ur Sprachen zu konstruieren?
Wenn nicht mehr als zwei Schritte vorgenommen
werden sollen?
19
Mengen mit unendlicher Kardinalität
¨
Zwei (endliche) Mengen heissen aquivalent,
wenn
sie
die gleiche
Anzahl
von Elementen haben :
gdw.
Zwei Mengen sind äquivalent, wenn zwischen ihnen
eine bijektive Abbildung existiert.
Eine Menge ist unendlich, wenn sie zu einer ihrer
echten Teilmengen äquivalent ist.
Beispiel:
von N auf
Abbildung
? Auf die Menge der ganzen Zahlen?
¨
Mengen, die aquivalent
sind zur Menge der Nat ¨urlichen Zahlen N, heissen aufzählbar.
Kardinalität dieser Mengen: (Aleph)
Noch “grössere” Mengen?
20
Prinzip der vollständigen Induktion
Ziel: eine allgemeine Aussage über Elemente
aufzählbarer Mengen zu beweisen.
Vorgehensweise:
1. A(1), Induktionsanfang: Beweis f ¨ur das erste Element.
2. A(k)
A(k+1), Induktionsschritt:
(a) Annahme: Aussage gelte f ¨ur die ersten Elemente.
(b) Zeige, dass daraus Aussage ¨uber . Element
folgt.
3. Induktionsschluss: Daraus folgt, dass die Aussage
f ¨ur alle Elemente gilt!
21
Beispiel
Behauptung:
Die Anzahl der Elemente
der Potenzmenge einer
endlichen Menge
ist gleich 2 hoch der Anzahl der
Elemente von
Beweis durch Induktion über die Anzahl der Elemente von A:
1. Induktionsanfang:
Dann
ist
2. Induktionsschritt:
habe
genau ein Element, .
, und hat zwei Elemente,
(a) Annahme: Sei (b) Sei
.
Dann gilt:
,
d.h. alle Teilmengen
von erweitert um ,
d.h. genau
mehr Mengen.
Daraus folgt:
3. Induktionsschluss:
Daraus folgt, dass
Mengen gilt.
f ¨ur alle endlichen
22
überaufzählbare Mengen
Theorem von Cantor:
die Potenzmenge einer Menge hat eine grössere Kardinalität als die Menge selbst. Beweis durch Widerspruch:
Annahme: es existiert bijektive
Sei .
Es muss
mit geben.
Ist Element von ?
Daraus folgt: N
.
N
Diagonalisierungsargument (Gödel):
N
, dann muss es eine Möglichkeit geben,
Wenn N
N
systematisch hinzuschreiben.
Sei diese Folge von Mengen .
.
Sei Es gibt kein mit , kann nicht in der Liste
stehen, also kann es diese Liste gar nicht geben.
23
Algebren
Eine algebraische
Struktur oder Algebra A ist eine
Menge zusammen
mit einer oder mehreren Ope f ¨ur ):
rationen ( A
Beschränkungen: die Stelligkeit jeder Operation
muss endlich sein; jede Anwendung
der Operationen
ergibt genau ein Element aus .
Gegeben:
Axiom 1 Abgeschlossenheit:
ist unter abgeschlossen,
d.h. f ¨ur alle existiert ein
mit .
Axiom 2 Eindeutigkeit:
Wenn und , dann ist eine
Unterstruktur
/ Subalgebra
vom
gdw.
und abgeschlossen bez.
24
Eigenschaften von Operationen
Gegeben: eine Operation
F ¨ur alle :
in
.
¨
Assoziativitat
assoziativ: Addition, Multiplikation; nicht-assoziativ:
Subtraktion, Division
¨
Kommutativitat
kommutativ: Multiplikation, ...; nicht kommutativ:
Subtraktion, ...
Idempotenz
idempotent: Schnittmengenbildung, ...
¨ zusätzlich: zweite Operation
Distributivitat
Multiplikation distribuiert ¨uber Addition, aber nicht
umgekehrt
25
spezielle Elemente
links- bzw. rechtsneutrales Element, neutrales Element
bzw. Komposition von Funktionen
: identi
sche Abbildung , bzw.
; 0 ist rechtsneutral
f ¨ur Subtraktion ...
,
Bei kommutativen Operationen gilt neutrales Element. (Kommutativität hinreichend,
nicht notwendig)
Wenn ein neutrales Element existiert, ist es eindeutig! Beweis...
inverse Elemente
Gegeben neutrales Element .
F ¨ur existiert rechts-(links-)inverses El. ,
wenn
bzw. heisst inverses Element von .
Wenn invers zu , dann auch zu !
Beispiele?
26
Verknüpfungstafeln
Zeigen von Eigenschaften: “durchrechnen”
z.B. mit Verkn ¨upfungstafeln:
Bsp: Addition modulo 4 in
0
1
2
3
0
0
1
2
3
1
1
2
3
0
2
2
3
0
1
3
3
0
1
2
abgeschlossen, kommutativ, inverse Elemente, neutrales Element...
27
Morphismen
Abbildungen zwischen Algebren,
Anzahl der Operationen!
,B
Sei A Morphismus: Funktion mit
,
A
B. Gleiche
heisst verkn ¨upfungstreu.
Isomorphismus:
verkn ¨upfungstreue, bijektive Funktion
A und B heissen isomorph, wenn es einen Isomorphismus zwischen ihnen gibt.
Automorphismus:
Isomorphismus von A auf sich selbst,
z.B. identische Abbildung
28
Gruppen
Eine Struktur G ist eine Gruppe, wenn gilt:
G1: G ist eine Algebra
(d.h. ist vollständig definiert
und ist unter abgeschlossen)
G2: ist assoziativ
G3: enthält ein neutrales Element
G4: Jedes Element in hat ein inverses.
Bsp: positive rationale
und Multiplikation, Ad Zahlen
, gerade Zahlen und Addition modulo 4 in
dition.
Abelsche Gruppe: zusätzlich kommutativ.
29
Gruppen II
Untergruppe: Subalgebra und selbst Gruppe
Ordnung einer Struktur: Anzahl der Elemente der
Menge
Die Ordnung jeder Untergruppe einer endlichen
Gruppe G teilt die Ordnung von G.
,
Beispiel: Addition modulo 4 in
G Untergruppen:
Alle Subalgebren von endlichen Gruppen sind
ebenfalls Gruppen, d.h., nur Abgeschlossenheit
muss gezeigt werden...
Der Schnitt zweier Untergruppen ist wieder eine Untergruppe.
Halbgruppen: nur G1 + G2
Monoide: G1, G2 + G3
Abelsches Monoid: kommutatives Monoid
30
Integritätsringe
D
ist ein Integritätsring, wenn gilt:
ist Abelsche Gruppe mit neutralem Element 0
ist Abelsches Monoid mit neutralem Element
(Distributivgesetz)
F ¨ur alle .
(K ¨urzungsregel)
und , dann .
Wenn Beispiel: Ganze Zahlen, Addition und Multiplikation
Ordnungsrelation f ¨ur Integritätsring D, gdw.
f ¨ur alle D:
1. Additionsgesetz:
und
wenn , dann 2. Multiplikationsgesetz:
wenn und
, dann .
.
3. Trichotomiegesetz:
entweder ,
oder .
wohlgeordnet: wenn jede nicht-leere Teilmenge ein
kleinstes Element enthält.
31
Posets
Partiell geordnete Menge (poset):
eine Menge
und eine reflexive, antisymmetrische
und transitive Relation (partielle Ordnungsrelation)
darin.
Kette:
vollständig
(total) geordnete Menge oder
f¨
ur alle .
Sei
.
heisst
untere
Grenze
von
,
wenn
es
kein
gibt mit
.
ist Infimum (greatest
lower
bound) von , inf ,
wenn f ¨ur alle
gilt:
.
Umkehrung der Relation erhält die Eigenschaften
des Posets.
heisst
obere Grenze von , wenn es kein
gibt mit
.
ist Supremum
(least upper
bound) von , sup ,
wenn f ¨ur alle
gilt:
.
Supremum und Infimum sind immer eindeutig!
32
Verbände
Zwei Hinleitungen:
1. durch Posets:
Ein Poset
ist
ein
Verband,
wenn
sup
und
inf f ¨ur alle existieren.
2. als algebraische Struktur:
Zwei neue (binäre) Operationen auf :
inf sup (meet) und (join).
Eigenschaften eines Verbandes:
Idempotenz
Kommutativität
Assoziativität
Absorption
33
Aussagen
Atomare Aussagen, die wahr oder falsch sein
können:
“ Paris liegt in Frankreich ”
“ Essig schmeckt sauer ”
nicht: “ Paris ” oder “ in Frankreich ”
Syntax der Aussagenlogik
Atomare Formeln:
;
Formeln induktiv definiert:
1. Alle atomaren Formeln sind Formeln.
2. F ¨ur alle Formeln
und
sind
(Konjunkti
on) und (Disjunktion) Formeln.
3. F ¨ur jede Formel
Abk ¨urzungen:
f ¨ur
f ¨ur f ¨ur Notationsvarianten:
, f ¨ur
,
& f ¨ur
ist
(Negation) eine Formel.
,
,
34
Bedeutung
Zuordnung einer “Bedeutung”, Interpretation:
Semantik der Aussagenlogik
Menge der Wahrheitswerte:
,
D Teilmenge der atomaren Formeln,
Belegung: D
,
falls und 1. sonst
falls oder 2. sonst
falls 3. sonst
entspricht “und”,
dem einschliesslichen “oder”,
“wenn ..., dann ...”,
“ genau dann ..., wenn ...”.
35
Wahrheitstafeln
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
0
1
0
1
0
1
0
1
0
1
0
1
0
0
0
1
0
1
0
1
0
1
1
1
1
1
0
1
1
0
0
1
und
da
oder
falls
sonst
falls
sonst
falls
sonst
falls
sonst
falls
sonst
Sei
Dann:
36
Beispiel
.
37
Definitionen
Sei
eine Formel und
eine Belegung.
heisst zu F passend,
falls f ¨ur alle in vorkommenden Formeln definiert
ist.
heisst Modell f ¨ur F, geschrieben ,
falls .
heisst erf ¨ullbar,
falls es mindestens ein Modell f ¨ur
unerf ¨ullbar).
gibt (sonst ist
heisst g ¨ultig oder Tautologie, geschrieben ,
falls jede zu passende Belegung ein Modell f ¨ur
ist.
folgt aus , wenn f ¨ur jede Belegung , die zu
und passt, gilt:
wenn Modell f ¨ur ist, ist auch Modell f ¨ur .
Bemerkung: dies ist die semantische Entsprechung
der
Implikation!
folgt aus
genau dann, wenn
eine Tautologie ist.
38
Satz, Beweis,...
ist g ¨ultig genau dann, wenn
unerf ¨ullbar ist.
Beweis:
ist g ¨ultig gdw. jede passende Belegung ist Modell
f ¨ur
gdw. jede dieser Belegungen ist kein Modell f ¨ur
gdw. hat kein Modell, ist also unerf ¨ullbar.
F ¨ur Belegungen
und gilt: gdw.
und
auf allen atomaren Formeln in
übereinstimmen.
Beweis durch Induktion ¨uber den Formelaufbau:
Behauptung gelte f ¨ur
und , zu zeigen:
Behauptung gilt auch f ¨ur
,
und ...
39
Äquivalenz, Ersetzbarkeit
¨
Zwei Formeln
und
heissen aquivalent,
,
falls f ¨ur alle zu und
passenden Belegungen
gilt: Ersetzbarkeitstheorem
Seien zwei Formeln und äquivalent, eine Formel mit mindestens einem Vorkommen
der
Teilformel
. Dann ist
aus
geäquivalent zu , wenn
bildet wird, indem darin (mindestens einmal) durch
ersetzt wird.
(Beweis durch Induktion)
Äquivalenzregeln und Ersetzbarkeitstheorem ermöglichen Umformung von Formeln in Normalformen...
40
Äquivalenzregeln
Idempotenz
(a) (b)
Kommutativität
(a) Assoziativität
(a) (b) Distributivität
(a) (b) Absorption
(a) Doppelnegation
(b) (b) DeMorgans Gesetze
(a) Tautologieregeln
(a) , falls
(b) , falls
Unerf ¨ullbarkeitsregeln
(a) , falls
(b) , falls
(b) Tautologie
Tautologie
unerf ¨ullbar
unerf ¨ullbar
41
Beispiele
“Wenn die Sonne scheint, gehe ich schwimmen. Da
es regnet, gehe ich nicht zum Schwimmen”
“Wenn das Kind Fieber oder Husten
reichen den Arzt, dann rufen wir ihn”
hat und wir er-
Auflösung von
deMorgan
deMorgan
Distr.Ges.
Distr.Ges. + Ass.Ges.
Komm.Ges.
“Wenn das Kind Fieber hat, dann rufen wir den Arzt,
wenn wir ihn erreichen, und, wenn wir ihn erreichen,
dann rufen wir ihn, wenn das Kind hustet”
42
Übung: Umformungen
Zu zeigen: zu jeder Formel gibt es eine
äquivalente
Formel, die nur die Operatoren und
enthält.
Zu zeigen: nicht zu jeder Formel gibt es eine äqui
valente Formel, die nur die Operatoren
und
enthält.
43
Normalformen
Ein Literal ist eine atomare Formel oder deren Negation.
ist in konjunktiver Normalform (KNF), wenn sie eine “Konjunktion von Disjunktionen von Literalen” ist.
D.h., sie hat die Form:
oder auch
Mengenschreibweise (Mengen von Klauseln):
ist in disjunktiver Normalform (DNF), wenn sie eine “Disjunktion von Konjunktionen von Literalen” ist.
D.h., sie hat die Form:
oder auch
Induktionsbeweis, dass diese Formeln f ¨ur jede Formel existieren, liefert Konstruktionsverfahren daf ¨ur.
Aber: exponentielle Verlängerung...
44
Diätvorschriften
“Wenn ich kein Bier trinke, habe ich immer Fisch.”
“Wenn ich Bier und Fisch zur selben Mahlzeit habe,
verzichte ich auf Eiscreme.”
“Wenn ich Eiscreme habe oder Bier meide, dann
r ¨uhre ich den Fisch nicht an”
Formel:
Warhheitstafel:
B F E ( B F) (B F) ..
E (E
B) ..
F
0 0 0
0
0
1
1
1
0 0 1
1
0
1
1
0
0 1 0
0
0
1
1
1
0 1 1
1
0
1
1
0
1 0 0
1
0
1
0
1
1 0 1
1
1
1
0
1
1 1 0
1
0
1
1
0
1 1 1
1
1
0
1
1
Also: G
0
0
0
0
1
1
0
0
45
Hornformeln
Hornformel: Formel in KNF, deren Disjunktionen
höchstens ein positives Literal enthalten.
Beispiel:
Umformung in Konjunktionen von Implikationen:
Test auf Erf ¨ullbarkeit: Eingabe: Hornformel F
1. Markiere
alle Vorkommen
einer atomaren Formel
, falls Teilformel in vorkommt.
2. Wenn
es in Teilformeln
der Form gibt und
markiert sind, gib “unerf ¨ullbar”
aus und stoppe.
Wenn es in
Teilformeln der Form
markiert sind und nicht, markiere
gibt,
alle Vorkommen von .
Wiederhole, bis keine der beiden Formelarten
mehr vorkommt.
3. Gib “erf ¨ullbar”
aus.
Atomformeln sind mit
Markierte
1 belegt: gdw.
hat eine Markierung.
46
Resolutionskalkül
Aufgabe: Unerf ¨ullbarkeit einer Formelmenge
(Anwendungen: Tautologie? Folgt aus
?)
Seien
Klauseln. ist Resolvent
von und
, falls es ein
Literal
und
gibt mit und .
( ist
, wenn und , wenn )
Leere Menge als Resolvent: , unerf ¨ullbar.
Resolutionslemma:
Eine Klauselmenge ist äquivalent zu
, wenn
Resolvent zweier Klauseln aus ist.
Res ist Resolvent zweier Klauseln in
Res , Res .
Res Res ,
Res Res Resolutionssatz der Aussagenlogik:
Eine Klauselmenge
ist unerf ¨ullbar genau dann,
wenn
Res .
Korrektheit: keine erf ¨ullbare Formelmenge wird als
unerf ¨ullbar “erkannt”.
Vollständigkeit: alle unerf ¨ullbaren Formelmengen
werden erkannt.
47
Resolution, Beispiel
Zu zeigen: , also ?
(deMorgan)
als Klauselmenge:
Wozu Resolution?
enthält die gleichen positiven wie negativen Literale,
ist aber weder
g ¨ultig noch unerf
¨ullbar. Beweis: Geben
Sie
und
an, ist nicht Element
davon.
48
Prädikatenlogik 1. Stufe
Erweiterung der Aussagenlogik um den Ausdruck von
Eigenschaften von Objekten.
Beispiel:
genau dann, wenn alle in auch Element
von sind und alle in auch in .
Beispiel:
“Alle Menschen sind sterblich”
“Sokrates ist ein Mensch”
Neu sind Variablen, Funktionen und Prädikate, sowie
Quantoren.
49
Syntax der Prädikatenlogik
Variablen:
Funktionssymbole: ¨
Pradikatssymbole:
ist die Stelligkeit, Unterscheidungsindex
Terme:
1. Jede Variable ist ein Term.
2. Sei ein
Funktionssymbol mitStelligkeit
und sei
Terme, dann ist ein Term.
en “Nullstellige” Funktionen werden als Konstanten bezeichnet.
Formeln:
ädikatssymbol mit
1. Seien Terme und ein Pr
der Stelligkeit , dann ist eine Formel.
und eine Formel, dann sind
2. Sei
eine Variable
und Formeln.
und heissen Quantoren, gelesen “f ¨ur alle” und
“es gibt ein ... so, dass”
3. Seien
Formeln, dann auch
,
,
,
,
.
50
Prädikatenlogik
Beispiel:
1. “Alle Menschen sind sterblich”:
2. “Sokrates ist ein Mensch”: sokrates
gebundene / freie Variablen: innerhalb / ausserhalb
des Wirkungsbereichs eines Quantors.
ist in
gebunden und frei in
.
Geschlossene Formel: keine freie Variable.
ist eine geschlossene Formel,
eine offene.
51
Semantik der Prädikatenlogik
besteht aus einer bel.,
Eine Struktur
nicht leeren Grundmenge , dem Grundbereich,
Universum, und der Abbildung , Interpretation, die
jedem -stelligen Prädikatensymbol (im Definitionsbereich von ) ein -stelliges Prädikat (= stellige Relation)
über ,
jedem -stelligen
Funktionssymbol (im Definiti
onsbreich von ) eine -stellige Funktion auf
und
jeder Variable
Element
von (im Definitionsbreich von
zuordnet.
) ein
heisst zu einer Formel
passend, wenn
auf
allen Variablen, Funktionssymbolen und Prädikatensymbolen in definiert ist.
52
Semantik der PL
Sei eine Formel,
( ) f ¨ur Terme:
eine zu
falls Variable, falls :
:
(
passende Struktur.
(
.
( ) f ¨ur Formeln:
falls
(
:
:
falls f ¨ur ein
sonst
:
falls f ¨ur alle
sonst
sonst
(
falls
falls
falls (
gilt:
gilt:
Dabei ist
Struktur
die bis auf
diejenige
identisch ist:
, und wie in der Aussagenlogik...
alternative Schreibweise f ¨ur :
mit
53
Semantik der PL, Begriffe
Falls f ¨ur
“ erf ¨ullt
und
( ) = 1, dann .
, gilt in , ist Modell f ¨ur .”
Falls f ¨ur alle passenden
“ ist g ¨ultig.”
heisst erf ¨ullbar, falls
sonst unerf ¨ullbar.
gilt:
( ) = 1, dann .
mindestens ein Modell hat,
54
Übung: Formulierung in PL
1. “P. ist Anhänger der logischen Grammatik-Schule
und spricht mit allen Kollegen, die keine Generativisten sind.”
2. “Q. vertritt die Lexikalisch-Funktionale Grammatik
und diskutiert mit jedem, der ¨uber formale Grundlagen arbeitet.”
3. “R. ist Duden-Redakteur, formale Grundlagen
können ihm gestohlen bleiben, aber er spricht gern
mit jedem ohne Ansehen seiner grammatiktheoretischen Präferenzen.”
4. “S. ist Government & Binding-Theoretiker und
spricht mit seinesgleichen.”
5. “T. hängt der Head-Driven Phrase Structure Grammar an, redet aber mit allen Generativisten.”
6. “Alle Anhänger der LFG, HPSG und GB sind Generativisten.”
7. “Logiker und Generativisten beschäftigen sich mit
formaler Sprachbeschreibung.”
8. “Eine Unterhaltung findet statt, wenn zwei (verschiedene) Leute miteinander reden.”
55
Lösungen
(Bem.: wenn “spricht mit” heissen soll “spricht nur
mit”, wird aus den Implikationen ein !)
1. Logiker(p)
x ( Generativist(x) SprichtMit(p,x))
2. LFG(q)
x (Formalist(x) SprichtMit(q,x))
3. Duden(r)
Formalist(q)
x (SprichtMit(r,x))
4. GB(s)
x (GB(x) SprichtMit(s, x))
x (Generativist(x) SprichtMit(t,x))
5. HPSG(t)
6. x ( (LFG(x) HPSG(x) GB(x)) Formalist(x))
7. x ( (Logiker(x) Generativist(x)) Formalist(x))
8. x y ((SprichtMit(x,y) SprichtMit(y,x)
Unterhaltung(x,x)
Unterhaltung(y,y))
Unterhaltung(x,y))
( z ( Unterhaltung(z,z)))
56
Äquivalenzen
Seien
und
(a)
Formeln.
(b)
Falls nicht frei in vorkommt:
(a) (b) (c) (d) (a) (b) (a)
(b)
NICHT äquivalent sind:
Beweis durch Gegenbeispiele...
57
Substitution etc.
Sei eine Formel, eine Variable und ein Term.
Dann ist
diejenige
Formel, in der in
jedes
freie Vorkommen von durch ersetzt wird.
ist eine Substitution.
Überf ¨uhrungslemma:
Gebundene Umbenennung:
Sei
eine Formel ( nicht in vor. Dann:
),
komme
¨
Zu jeder Formel existiert aquivalente
Formel in bereinigter Form, d.h. keine Variable kommt sowohl frei als
auch gebunden vor, und hinter verschiedenen Quantoren stehen verschiedene Variablen.
58
Anwendung: Logikprogramme
Logikprogramm: Sequenz von Klauseln der Form:
ist Kopf, der Rest Rumpf der Klausel,
,
entspricht wenn und erf ¨ullt sind, dann auch
Klausel mit leerem Rumpf: Fakt:
Klausel mit leerem Kopf: Frage :
)
59
Anwendung: Eigenschaften von
Relationen
ein reflexives Prädikat:
ein transitives:
ein symmetrisches:
Die schlechte Nachricht: Antisymmetrie ist nicht in
Prädikatenlogik erster Stufe darstellbar.
Formulierungen wie:
setzen Identität als Prädikat voraus; das ist aber
ohne Einf ¨uhrung eines Quantors “es gibt genau
ein...” nicht möglich.
Die Formel:
dr ¨uckt nur aus, dass eine Äquivalenzrelation
auf der Grundmenge sein muss, damit
gilt. Identität und Äquivalenz können in der Prädikatenlogik nicht unterschieden werden!
60
Grammatiken als Logikprogramme
kontextfreie Grammatikregeln:
non-terminal
body, z.B.
s np, vp.
det [the].
noun [cat].
np det, noun.
vp trans verb, np. noun
[dog].
intrans verb. intrans verb
[sleeps].
vp
trans verb
[chases].
beschreiben eine formale Sprache.
( ist hier nicht mit der logischen Implikation zu verwechseln!)
Der Rumpf (die rechte Seite) einer Regel kann aus einem Terminalsymbol (entsprechend den Wörtern einer nat ¨urlichen Sprache) oder einer Folge von Nichtterminalsymbolen (entsprechend den Wortklassen/–
arten) bestehen.
Eine Grammatik besteht aus den endlichen Mengen
der Terminalen, der Nichtterminalen und der Regeln,
sowie einem der Nichtterminalen, dass als Startsymbol ausgezeichnet wird, hier .
Ein Wort einer von einer Grammatik erzeugten Sprache ist eine Folge von Terminalsymbolen, die durch
Anwendung der Regeln aus dem Startsymbol abgeleitet werden können.
61
Grammatiken als Logikprogramm
kf. Regel in Klauselform
(die sind Variablen f ¨ur Wortpositionen):
Das Lexikon:
!
"
#
$
Der Satz: “the cat chases the dog” wird codiert als:
'& # %!
& *) # $(
) -,. # +!$ , '/ # %!
/ 0
'2 #
1
Test, ob der Satz grammatikalisch ist:
62 34.5
62
Definite Clause Grammars
Kontextfreie Grammatiken f ¨ur nat ¨urliche Sprachen
nicht adäquat (...)
Erweiterung der kf. Grammatikregeln:
Nicht-Terminale sind komplexe Terme mit Varia oder #
blen: Zusätzliche Argumente dienen zum Aufbau des
Parsebaumes.
Auf der rechten Regelseite sind Funktionsaufrufe
erlaubt:
noun(N)
[W], rootform(W,N), is noun(N) .
Als Logikprogramm:
3 Diese Transformationen können von den meisten
PROLOG-Interpretern automatisch durchgef ¨uhrt
werden.
63
Erweiterungen
Lexikon
Statt
noun(N)
[dog]
f ¨ur jedes Wort der Kategorie `noun':
noun(N)
[N], is noun(N)
und is noun(...) f ¨ur alle Wörter.
(Zusätzlichge Argumente und Prozeduren möglich)
Kontextabhängigkeit: Kongruenz
Einf ¨ugen eines zusätzlichen Arguments f ¨ur jede Eigenschaft, die kongruieren soll:
is determiner(every, singular)
is determiner(all, plural)
– ebenso in allen Grammatikregeln, in denen Artikel
vorkommen, Kongruenz wird durch Verwendung von
Variablen erzwungen:
noun phrase(Number, np(Det,Noun))
determiner(Number, Det), noun(Number, Noun).
64
Termunifikation in der Prädikatenlogik
Um das Resolutionskalk ¨ul auf die Prädikatenlogik anzuwenden, m ¨ussen nicht nur die Formeln in KNF
umgeformt, sondern auch geeignete Substitutionen
f ¨ur die Variablen ausgef ¨uhrt werden, um die Literale möglichst zu vereinfachen. Dieser Vorgang heisst
Termunifikation.
Def: (allgemeinster) Unifikator
Eine Substitution ist ein Unifikator
einer endlichen
Menge
von
Literalen
L
, wenn .
ist ein allgemeinster Unifikator
von L, wenn f ¨ur
jeden
anderen Unifikator gilt: es gibt
mit (d.h. f ¨ur alle Formeln F gilt )
Beispiel:
wird durch
unifiziert.
65
Unifikationsalgorithmus:
Eingabe: nichtleere Literalmenge L
;
L ;
solange L :
Durchlaufe L , bis sich (von links nach rechts
gelesen) zwei Literale darin in mindestens einem
Zeichen unterscheiden.
Wenn keines der beiden Zeichen eine Variable ist,
stoppe mit “nicht unifizierbar”.
sonst:
sei die Variable, der andere Term; wenn in vorkommt, stoppe mit “nicht unifizierbar”.
sonst:
;
L Gib als allgemeinsten Unifikator aus.
Probleme der prädikatenlogischen Resolution: Explosion der Kombinationsmöglichkeiten, Auswahl der
Substitutionen, etc.
Abhilfe: Strategien, Restriktionen: Bedingungen, unter denen zwei Klauseln resolviert werden können.
66
Merkmallogik
Grundmenge: Merkmalstrukturen (feature structures), Mengen aus Namen (labels) (f ¨ur Merkmale, Attribute) und deren Werten.
Formal: partielle Funktion von Merkmalen auf Werte.
Notation: name: wert
Werte selbst können wieder Merkmalstrukturen
sein:
cat:
agreement: person:
number: dieselben Werte können von mehreren Attributen
geteilt werden, dh., es kann auf einen einmal definierten Wert verwiesen werden (reentrance, structure sharing, Koreferenz, Koindizierung):
person: f:
number: g: Dabei sind zirkuläre Verweise nicht erlaubt!
67
Grundbegriffe
atomare Merkmalstrukturen:
einfache Symbole wie , , ...
komplexe Ms.: name: wert
leere Ms., auch Variable:
Extraktion:
Sei eine
Ms., eines ihrer Attribute. Dann bezeichnet den Wert von in .
person:
Bsp.: , dann (person) .
number: Definitions- und Wertebereich wie bei Funktionen:
Definitionsbereich, Urbild: dom( ) = person number
Wertebereich, Bild: range( ) =
Ein Pfad innerhalb einer Ms.
ist eine Folge von Attri
buten: agreement person
Die Extraktion kann auch auf Pfade angewendet werden...
68
Merkmalstrukturen als Graphen
cat:
subject:
agreement: agreement: person: (Abb. geborgt von Martin Volk)
Merkmalstrukturen entsprechen den Knoten, Merkmalsnamen den Kanten.
69
Subsumption
Ordnungsrelation :
, wenn
weniger (oder dieselbe)
Information
enthält als . ist allgemeiner,
spezieller.
Shieber:
gdw. f ¨ur alle dom und f ¨ur alle Pfade
mit subsummiert
(
wird von
subsummiert),
wenn f ¨ur alle
Attribute in gilt, dass ihre Werte von
denen in
subsummiert werden.
F ¨ur atomare Strukturen gilt: und
gdw. Die leere Struktur subsummiert alle anderen.
Beispiele:
cat:
Mit der Relation
cat:
agreement: genus: bilden Ms. einen Verband!
70
Unifikation
Unifikation bildet aus zwei vertr¨
aglichen Merkmalstrukturen eine neue, die von beiden subsummiert
wird:
gdw.
ist die allgemeinste
Struktur mit:
und
Beispiel:
number: person:
person:
number: Unifikation zwischen nicht verträglichen Strukturen
scheitert, d.h. liefert den Wert fail oder .
Beispiel:
number: number:
fail
71
Eigenschaften der Unifikation
neutrales Element:
Die Verbandseigenschaften:
1. Kommutativität:
2. Assoziativität:
3. Idempotenz:
Unterschiede zur Termunifikation:
Mengen vs. N-Tupel, dh. Reihenfolge in der Termunifikation entscheidend.
Stelligkeit: eine Eigenschaft wie Kongruenz m ¨ußte
in Prädikatenlogik mit fester Anzahl von Parametern definiert werden.
Identität und Gleichheit lassen sich in Merkmalstrukturen ausdr ¨ucken...
72
Unifikation mit Identität und Gleichheit
bei Identität (Koreferenzierung)
agreement: number: subject:
agreement: subject: agreement: person:
subject:
bei Gleichheit:
agreement:
subject:
agreement:
number: agreement: number: subject: agreement: person:
agreement: number: person:
agreement: number: subject:
agreement:
number: person:
73
Unifikation, Erweiterungen
Disjunktion
aufwendig...
Mengen
Negation
zwei Arten: closed/open World
Typisierte Merkmalstrukturen
Wohlgeformtheit
Typenhierarchien...
74
Inferenz, Schlussfolgerung
Kalk ¨ul: Logik + syntaktische Ableitung:
Prämisse: Aussage, die als wahr angenommen wird.
Schluss (Konklusion): Aussage, die aus der Wahrheit
der Prämisse folgt.
G ¨ultigkeit eines Arguments:
Es gibt keine Belegung/Struktur, unter der die
Prämisse wahr, aber der Schluss falsch wäre.
Syntaktisch: (Prämisse
Schluss) ist g ¨ultig.
g ¨ultige Regel z.B.:
(Modus Ponens)
“Wenn es regnet, gehe ich ins Kino”
“Es regnet”
Beispiel:
“Ich gehe ins Kino”
ung ¨ultige Regeln z.B.:
und
75
Weitere Regeln
(Modus Tollens)
“Wenn es regnet, gehe ich ins Kino”
“ich gehe nicht ins Kino”
Beispiel:
“Es regnet nicht”
“Sie trinkt Tee oder Kaffee”
Beispiel: “Sie trinkt keinen Kaffee”
“Sie trinkt Tee”
“Sie trinkt Tee”
“Sie trinkt Tee,
Beispiel:
oder draussen vor der T ¨ur faucht
ein gr ¨uner Drachen”
76
Arten der Inferenz
Deduktion: von Klassen auf Exemplare schliessen:
alle Menschen sind sterblich, Sokrates ist ein Mensch
Sokrates ist sterblich
unsichere Inferenzen:
Induktion: Generalisierung, Analogiebildung; von Exemplaren auf die Gesamtheit:
Sokrates ist sterblich, Sokrates ist ein Mensch
alle Menschen sind sterblich
Abduktion: Klassenzuordnung anhand von beobachteten Eigenschaften:
alle Menschen sind sterblich, Sokrates ist sterblich
Sokrates ist ein Mensch.
Gegenbeispiele f ¨ur diese Formen der Inferenz?
77
Modell, Denotation
schon bekannt aus der Prädikatenlogik:
mit als Grundmenge, UniStruktur
versum, und als Interpretation aller verwendeten
(nicht-logischen) Symbole als Funktionen, Relationen oder Konstanten in , Formeln als 0 oder 1.
Oft davon getrennt
betrachtet: Belegungsfunktion
.
f ¨ur Variablen : Die Interpretation eines logischen Ausdrucks
(Term
oder Formel) heisst auch Denotat ( “denotationale
Semantik”).
Schreibweise:
, Eine Struktur ist ein Modell f ¨ur eine Formelmenge
, gdw. jedes Element von in wahr ist.
Eine Formel folgt aus einer Formelmenge , gdw.
in jedem Modell von wahr ist.
78
Theorien
Eine Theorie T ist ein Menge von Formeln, die unter
Folgerung abgeschlossen ist, d.h. jede Formel, die
aus einer oder mehreren der Formeln in T folgt, ist
selbst in T.
Modelltheoretische Definition:
T::=
axiomatische Methode:
Menge von Formeln vorgegeben mit:
T::= Cons es gibt
so dass aus T::= Cons folgt
ist g ¨ultig
79
Eigenschaften formaler Systeme
Konsistenz:
Es können nicht gleichzeitig eine Aussage und deren
Negation abgeleitet werden.
Inkonsistente Theorien haben kein Modell!
Wenn Inkonsistenz bewiesen werden soll: Widerspruch ableiten.
Wenn Konsistenz bewiesen werden soll: Modell angeben.
¨
Unabhangigkeit:
eine Frage der Eleganz: ist die Menge der Axiome minimal, d.h. lässt sich keines der Axiome durch andere
ausdr ¨ucken?
Korrektheit:
Es können keine “unerw ¨unschten” Aussagen abgeleitet werden.
, dann
Wenn
80
Eigenschaften formaler Systeme II
¨
Vollstandigkeit:
Es werden alle “erw ¨unschten” Aussagen abgeleitet.
Wenn
, dann
weitere Verwendungen des Begriffs:
formal vollständig (jede Aussage kann bewiesen
oder widerlegt werden)
semantisch vollständig in Bezug auf ein Modell (alle im Modell wahren Aussagen können abgeleitet
werden)
Bedauerlicherweise sind interessante Systeme oft
unvollständig:
Diagonalisierungsargument...
81
Axiomatisierung von
Stringkonkatenation
Alphabet: Menge von Symbolen
String, Zeichenkette: Folge von Symbolen
Konkatenation: Aneinanderreihung,
zweistellige Ope
ration “,” auf einer Menge von Zeichenketten.
: Zeichenkette der Länge 0.
Axiomatisierung ohne leeren String (Halbgruppe)
1. Abgeschlossenheit:
2. Assoziativität:
Beispiel f ¨ur ein Modell daf ¨ur:
besteht aus einer geraden Anzahl von 'a's und / oder 'b's .
Axiomatisierung mit leerem String (Monoid)
1. Abgeschlossenheit:
2. Assoziativität:
3. neutrales Element:
82
Axiomatisierung der Mengentheorie
Mehrere Möglichkeiten, hier Zermelo-Fränkel.
Vorausgesetzte Relation: “ist Element von”
1. Extensionalität:
Wenn
und dieselben Elemente haben,
gilt .
2. Regularität / Begr ¨undung:
es ein
mit:
F ¨ur jede nicht
leere
Menge gibt
es gibt kein mit
und
3. Leere Menge:
Es gibt eine Menge ohne Elemente.
4. Ungeordnetes Paar:
und Mengen
sind,
gibt es eine
Menge
Wenn
so, dass f ¨
ur alle gilt:
gdw.
oder
, d.h.
existiert.
5. Vereinigung:
es ein
so, dass gilt:
F ¨ur alle gibt
gibt ein
mit
.
gdw. es
6. Teilmenge/Potenzmenge:
gibt
es
ein
so,
dass f ¨ur alle
F
¨
ur
jedes
gdw.
(f ¨ur alle :
).
gilt:
7. Ersetzung:
Sei
eine Funktion und eine Menge. Dann
ist
beschränkt auf
eine
der Wertebereich von
Menge. D.h., es gibt so, dass
f ¨ur alle gilt:
gdw. es ein gibt mit: 8. Unendlichkeit:
Es
gibt eine Menge
so, dass
es ein
gibt mit
und, wenn
, dann .
9. Auswahl:
Jede Menge von nicht leeren Mengen hat eine
Auswahlfunktion: eine Funktion, die aus jeder der
Mengen ein Element bestimmt.
(nicht allgemein als Axiom akzeptiert, ist aber konsistent mit den ¨ubrigen und ermöglicht einfachere
Beweise)
83
Axiomatisierung der Prädikatenlogik
Axiome:
1. 2. 3. 4. eine Formel, in der frei vorkommt
Inferenzregeln:
1. Modus
Ponens :
2.
, falls
nicht in
vorkommt.
Warum Axiome und Regeln?
Axiome sind g ¨ultig!
Regeln ermöglichen, aus bereits erf ¨ullten Formeln
weitere herzuleiten.
84
formale Semantik
Nat ¨urlichsprachliche Äusserungen haben nicht prinzipiell einen Wahrheitswert.
Ob “Es schneit” wahr oder falsch ist, hängt von den
Umständen ab, unter denen die Äusserung gemacht
wird.
Tarski: “Schnee ist weiss” ist genau dann wahr, wenn
Schnee weiss ist.
Aufgabe der formalen Semantik:
Angaben der Bedingungen, unter denen eine
nat ¨urlichsprachliche Äusserung wahr oder falsch
wird.
Feststellung der Referenzen von Ausdr ¨ucken auf
Objekte der Welt
...
85
Logiken für die Semantik natürlicher
Sprache
Probleme der Merkmalslogik:
Darstellung semantischen Eigenschaften ist gut
möglich, geeignete Schlussverfahren (ausser Typenverträglichkeit) stehen aber nicht zur Verf ¨ugung
Probleme der Prädikatenlogik:
Ausdrucksmächtigkeit
z.B. Gleichheit: kann nicht von Äquivalenzklassenbildung unterschieden werden.
Wie konstruiert man die Repräsentation?
Kompositionalität bei Zeit und Modalität: Intension
vs. Extension
86
Intension vs. Extension
Modalausdr ¨ucke:
“Peter ist der B ¨urgermeister”
“Maria will Peter heiraten”
“Maria will den B ¨urgermeister heiraten” ?
Temporaladverbien:
“Gestern haben wir frischen Fisch gekauft”
“Heute essen wir, was wir gestern gekauft haben”
“Heute essen wir frischen Fisch” ?
87
Kripke-Semantik
Mögliche-Welten-Semantik:
sei eine Grundmenge,
eine Folge/Menge von Weltzuständen (InformationsZustände, zeitlich geordnet)
Denotat von im einfachen Modell im Kripke-Modell
Term:
Element von Formel
Element von
Nebenbedingung: eine einmal wahre Formel bleibt in
allen folgenden Zuständen wahr.
88
Kripke-Semantik, formal
Weltzustände + zeitliche Ordnung :
partiell geordnete Menge, Kripke-Frame P entspricht
Die Interpretation einer Aussage derjenigen Teilmenge von , in der wahr ist. Die
o.a. Nebenbedingung bewirkt, dass solche Teilmengen unter abgeschlossen sind (Filter von P).
Eine Kripke-Valuierung ist eine Abbildung von der
Menge der Aussagen auf die Menge der Filter von P,
Ein Kripke-Modell ist ein Paar M = P
.
M : ist wahr im Zustand im Modell M, d.h.
und ...
M nicht M gdw. f ¨ur alle mit
( kann nie mehr verifiziert werden....)
gdw. f ¨ur alle mit
M gilt:
wenn M , dann M (wenn wahr ist, muss auch weiterhin wahr sein...)
89
Modal- und Temporallogik
Kripke: Mögliche-Welten-Semantik, Abbildung einer
Aussage nicht auf die zwei-elementige Menge
,
sondern auf eine Folge (oder einen Baum) ihrer Elemente.
Modallogik:
Zwei neue Operatoren:
: notwendig ,
: möglich
intuitive Bedeutung:
gilt immer in allen Welten,
gilt wenigstens einmal in einer Welt (in allen Welten).
Temporallogiken:
Interpretation der Modaloperatoren als zeitliche (auf
die Zukunft bezogene) Operatoren, der Semantik auf
diskrete Zeitzustände:
: immer,
: irgendwann einmal.
Erweiterung auf Vergangenheit...
weitere Operatoren...
90
Temporale Operatoren und ihre
Semantik
next
i i+1
A
j
i
i
eventually
A
always
until
atnext
i
...
A
i
A
i
B
B
...
j
...
j
i
B
i
A
B
"
0
*
.
4
4
0
1
/.
-
-
## " *
3
0
" 2
" +
2
,
& &
,
)
%
& ) ##$!" ## " *
+ *" # !"
#
!
!(
' 91
Beschreibungslogiken
Aussagen ¨uber einstellige Prädikate (= Konzepte, Menge von Objekten), ind
viduelle Objekte (= Instanzen) und zweistellige Prädikate( = Rollen).
Operatoren zur Definition von Konzepten und Rollen:
Beschr.L. Präd.L.
Semantik
92
Beschreibungslogiken
Axiome: Aussagen ¨uber die Zusammenhänge zwischen Konzepten (T-Box, terminologische Aussagen)
und ¨uber die Konzeptzugehörigkeit von Objekten (Abox, assertionale Aussagen).
T-Box
Axiom
Semantik
A-box
Axiom
Semantik
93
Prädikate, Mengen, Funktionen
Prädikate als Mengen:
Mengen als Funktionen:
charakteristische Funktion " ! wenn $
!# wenn
94
Typtheorie, Motivation
Informal: Unterscheidung zwischen verschiedenen
Objekten
z.B.
Terme und Formeln, Prädikate und Funktionen mit
einer, zwei oder mehr Stellen
'einfache' Elemente, Mengen
Relationen in bestimmten Mengen
Sprache: Valenzrahmen von Verben:
schenken, verschenken
glauben, vermuten
95
Typtheorie, formal
Die Menge der Typen ist definiert als:
1. ist ein Typ (Objekte)
2. ist ein Typ (Wahrheitswerte)
3. wenn
und Typen sind, dann auch Die Definition kann auf n-Tupel ausgedehnt werden,
dann ist es aber sinnvoller, f ¨ur Funktionen einen
zus
ätzlichen
zweistelligen Typoperator einzusetzen:
. Damit können Funktionen als spezielle Paare
unterschieden werden.
Eine typisierte (formale) Sprache ist eine Sprache,
bei der jedem wohlgeformten Ausdruck ein Typ zugewiesen werden kann.
bezeichnet die Menge der Denotate der Ausdr ¨ucke vom Typ .
Sei eine Grundmenge, dann:
und
Oder, bei n-Tupeln:
, und
96
Beispiele: prädikatenlogische
Formalisierung
= Peter, Maria, ein Buch ,
Prädikate Schenken und Verschenken.
Peter schnarcht
(0) Schnarchen(Peter)
Peter verschenkt ein Buch ...
(1) Verschenken(Peter, ein Buch)
Maria schenkt Peter ein Buch...
(2) Schenken(Maria, Peter, ein Buch)
Typ von Schnarchen: Typ von Verschenken: von Schenken?
Maria vermutet, dass Peter ihr ein Buch schenkt...
Maria vermutet stark, dass Peter ihr ein Buch
schenkt...
Maria vermutet sehr stark, dass Peter ihr ein Buch
schenkt...
97
Beispiele
Mengentheorie:
: Menge aller Elemente und Teilmengen
einer Menge
:
:
:
:
:
:
:
98
Typregel
Funktionsapplikation:
Sei vom Typ und
Dann ist vom Typ .
Beispiele:
len)
Sei Sei vom Typ .
(die Menge der nat ¨urlichen Zah-
... Typ von f :
... Typ von f : 99
Lambda-Operator
Church (1941): Notation f ¨ur Definition und
Anwendung von Funktionen.
Statt “sei mit (Abstraktion)
Alternative Schreibweisen: ”:
Anwendung: statt f(4) (und Def. wie oben)
Auswertung, Ersetzung der Variable durch
das Argument
( -Konversion)
Der -Operator bindet eine Variable wie ein Quantor!
100
Lambda-Abstraktion, formal
Syntax
Sei eine Variable vom Typ ,
ein Ausdruck vom Typ , in dem nicht gebunden
vorkommt.
Dann ist ein Ausdruck vom Typ
.
Semantik
Sei eine Variable
vom
Typ
,
ein Ausdruck vom
Typ , in dem nicht gebunden vorkommt,
eine Funktion von
nach
dann ist mit:
f ¨ur alle in : und = bis auf
,
101
Lambda-Abstraktion, Beispiel
Denotation von Verben:
Bruno raucht. ... Rauchen(Bruno)
Rauchen
Rauchen
Sei
mit:
Anna, Bruno, Clara ,
Rauchen
Anna
Rauchen
102
Die Sprache TL, Syntax
Typisierte Logik: versammelt Prädikatenlogik, Typen,
-Operator und Identität:
Symbole:
Operatoren
Quantoren
zu jedem Typ eine Menge von Variablen
zu jedem Typ eine Menge von Konstanten
der Lambda-Operator das Gleichheitssymbol
Man nehme Klammern nach Belieben: (, ), [, ], ...
Die Menge der Typen, :
wenn und in und
sind, dann auch 103
Die Sprache TL, Syntax, Ausdrücke
Die Menge der Ausdr ¨ucke vom Typ ,
F ¨ur alle Typen , :
Alle Konstanten und Variablen vom Typ sind Ele
mente von .
Wenn
Wenn
Wenn und
auch: Wenn
in .
Wenn
und
und
in
und
und in
, dann ist , dann ist
in
.
.
in
sind (also Formeln), dann
.
in
ist, dann sind
sind, dann ist
in
und
.
Viel aussagekräftiger als Prädikatenlogik: Prädikate und Funktionen höherer Ordnung, Quantifikation
¨uber beliebige Ausdr ¨ucke...
104
Die Sprache TL, Semantik
Typen
Sei eine Grundmenge, die ”Diskursdomäne”. Die
möglichen Denotate von Ausdr ¨ucken der Typen sind:
Ausdr ¨ucke
Tatsächliche Denotate von Ausdr ¨ucken in einem
mit einer Variablenbelegung .
Model
ersetzt hier
und ist ”nur” eine Belegung der
Konstanten, keine Interpretation von Prädikaten- und
Funktionssymbolen mehr (die werden mit Hilfe des
Lambda-Operators ”anonym” definiert)
105
TL, Semantik von Ausdrücken
Sei
ein Ausdruck in TL,
dann ist das Denotat von
bez.
und , wie folgt definiert:
Sei eine nicht-logische Konstante, dann:
.
Sei
eine Variable, dann:
.
(Abstraktion)
, nicht gebunden in ,
Sei , eine Funktion von
nach dann ist mit:
f ¨ur alle in : und = bis auf , .
(Konversion)
Sei ,
, dann:
.
106
TL, Semantik von Ausdrücken II
Seien
und in
, dann:
.
und , dann:
gdw.
f ¨ur alle Variablenbelegungen ,
die ausser auf mit identisch sind, gilt:
.
und:
gdw. f ¨ur mindestens
eine Variablenbelegungen , die ausser auf
mit identisch
sind, gilt:
.
Sei
Seien
und in , dann:
gdw. .
107
Lambda-Kalkül,
Weitere Anwendung des Lambda-Operators: das
Lambda-Kalk ¨ul. Unterschied zu TL: keine logischen
Operatoren, nicht typisiert; daf ¨ur Axiomatisierung.
Syntax von :
Vokabular: Variablen , , Klammern;
syntaktische Regeln:
Wenn
Wenn
Wenn
.
, dann auch in , dann auch
in , dann ist
Axiomatisierung
durch
, ist
ersetzt ist.
.
eine Formel.
, worin jedes Auftreten von
ist reflexiv, symmetrisch und transitiv.
Wenn
, dann
,
und
Anwendungen: Grundlage der Funktionstheorie,
Charakterisierung von Berechenbarkeit, Syntax (Lisp)
und Semantik von Programmiersprachen etc. Auch
die Prädikatenlogik kann komplett im Lambda-Kalk ¨ul
definiert werden...
108
Linguistische Anwendungen
Kompositionale Analyse von formalen Ausdr ¨ucken
höherer Ordnung
kompositionale Semantik nat ¨urlicher Sprache.
Beispiele:
Denotation von Verben:
intransitiv, Abb. des Subjekts auf einen Wahrheitswert:
transitiv, Abb. von Subjekt und Objekt auf Ww.:
, oder:
Adverben - gesuchte Funktion muss ein VerbDenotat auf ein Verb-Denotat abbilden:
Bsp:
schnell
allgemein:
Weitere Beispiele: Lohnstein, [PMW]
109
Montague: Intensionale Logik
Kombination von allen bisher eingef ¨uhrten Konzepten:
Aussagenlogik: logische Operatoren, Wahrheitswerte
Prädikatenlogik: Terme, Quantoren
Modallogik: mögliche Welten, Informationszustände;
Operatoren (notwendig), (möglich)
Temporallogik: zeitlicher Verlauf, Zeitpunkte; Operatoren P (Past), F (Future)
Lambda-Operator: Abstraktion über Variablen beliebigen Typs
Unterscheidung zwischen Intension und Extension
(Formalisierung siehe Lohnstein oder [PMW])
Modelle dazu: B äume von ”einfachen Modellen”, die
mit Indizes f ¨ur die ”mögliche Welt” und den
Zeitpunkt versehen sind.
110
Intension und Extension
Frege: Sinn und Bedeutung
Der Abendstern, der Morgenstern vs. die Venus ...
Die Königin von England vs. Elisabeth, Victoria, ....
Intension
als Funktion von Indizes
( , = mögliche Welt und Zeitpunkt)
auf Menge von Extensionen (Individuen).
Neue Operatoren: Intensor :
Sei ein Ausdruck mit dem Denotat
.
die Intension von
Dann ist am Index Extensor : Umkehrfunktion
von :
Nicht umgekehrt: Extension gibt es nur zu bestimmtem Index, Intension ermöglicht, an jedem Index die
Extension zu bestimmen.
zusätzlicher Typ :
Sei vom Typ , dann ist
vom Typ .
Sei vom Typ , dann ist
vom Typ .
111
Aufgabe:
Versuchen Sie, Ausdrcke der Intensionalen Logik fr
folgende zwei Stze zu finden. Geben Sie ein Modell
dafr an.
Es besteht die entfernte Chance, dass sich nichts von
allem, was folgt, je ereignet hat;
Chance
bestehen
entfernt
mit
folgen P ereignen viel wahrscheinlicher ist jedoch, dass es sich, falls
es sich je ereignet haben sollte, nie wieder ereignen
wird.
(Peter Ustinov, Der Alte Mann und Mr. Smith)
wahrscheinlicher Pereignen Fereignen Probleme:
und
können noch nicht bestimmt werden, m ¨ussen
aber identisch sein (sollten vielleicht als eine Variable
abstrahiert werden).
'viel' ist noch nicht integriert.
Die inhaltliche Interpretation w ¨urde eine Modellierung
von 'entfernte Chance' und 'viel wahrscheinlicher' erfordern, so dass entschieden werden kann, was davon wirklich grösser ist.
112
Axiomatisierung von
Stringkonkatenation
Alphabet: endliche, nicht-leere Menge von Symbolen.
String, Zeichenkette: Folge von Symbolen
Konkatenation: Aneinanderreihung, zweistellige Operation “,” auf einer Menge von Zeichenketten.
: Zeichenkette der Länge 0.
Axiomatisierung ohne leeren String (Halbgruppe)
1. Abgeschlossenheit:
2. Assoziativität:
Beispiel f ¨ur ein Modell daf ¨ur:
besteht
aus einer geraden Anzahl von 'a's und / oder 'b's .
Axiomatisierung mit leerem String (Monoid)
1. Abgeschlossenheit:
2. Assoziativität:
3. neutrales Element:
Schreibweise: statt
auch
oder nur
.
113
Wörter über Alphabeten
Sei ein Alphabet, dann ist
die Menge aller end¨
lichen Worter,
die sich durch Aneinanderreihung der
Elemente von bilden lassen, die Menge der Wörter
¨uber .
Dazu gehört auch das leere Wort, .
ist die Menge der nicht-leeren Wörter
¨uber .
Bsp:
.
.
¨
Die Lange
eines Wortes , , ist die Anzahl der
Zeichen, aus denen es besteht.
Sei ein Element eines Alphabets. bezeichnet das
Wort der Länge aus lauter s.
Eine (formale) Sprache ist eine Menge von Wörtern.
Bsp: 114
Grammatik
Definition:
Eine (Phrasenstruktur-)Grammatik
ist ein 4-Tupel,
mit folgenden Eigenschaften:
ist eine endliche Menge, die Variablen, oder NichtTerminalsymbole.
ist ein Alphabet, das
Terminalalphabet, die Termi
.
nalsymbole. ist eine endliche Menge von
Regeln,
Produktionen
der Form
mit und , d.h. ein Wort, das mindestens aus
einem Nicht-Terminalsymbol besteht, kann durch ein
beliebiges Wort ersetzt werden.
von ist das Startsymbol, ein besonderes Element
.
———————
Eine Grammatik ist ein deduktives System: Axiome
und Inferenzregeln. Das einzige Axiom einer Grammatik ist das Startsymbol, die Regeln sind die Produktionen.
115
formale Sprache
ist die Relation in mit:
gdw. mit und .
“ geht unter unmittelbar in ¨uber ”
ist die reflexive und transitive H ¨ulle von
, wenn gilt:
oder es gibt ein mit ,
.
.
und
Eine Grammatik
erzeugt ein Wort , wenn gilt:
Die Sprache der Grammatik
ist die Menge der Wörter, die von
erzeugt werden.
Eine Folge
von Wörtern
und von .
mit ,
heisst Ableitung
116
Beispiel
S
NP VP VP N
N
I-V T-V D
S, NP, VP, T-V, I-V, D, N
[the], [cat], [dog], [sleeps], [chases]
NP VP,
D N,
T-V NP,
I-V,
[dog],
[cat],
[sleeps],
[chases],
[the],
S.
117
Erkennungsproblem
Problem
Ist ein gegebenes Objekt Element einer Menge?
Ein Problem ist entscheidbar, wenn in einer endlichen
Anzahl von Berechnungsschritten festgestellt werden
kann, ob eine Eingabe zur Menge gehört oder nicht.
Ein Problem ist semi-entscheidbar, wenn in einer
endlichen Anzahl von Berechnungsschritten festgestellt werden kann, ob eine Eingabe zur Menge
gehört, oder wenn in einer endlichen Anzahl von Berechnungsschritten festgestellt werden kann, ob eine
Eingabe nicht zur Menge gehört!
Erkennungsproblem oder Wortproblem
Ist ein Wort Element einer Sprache ?
118
Bäume
, und Kanten,
Ein Baum besteht
aus
Knoten,
, wobei jeder Knoten maximal einen
Vorgänger und beliebig, aber endlich viele Nachfolger
hat:
mit
F ¨ur alle : es gibt maximal ein
.
Ausserdem ist irreflexiv und intransitiv, d.h. es darf
keine zirkuläre Folge von Paaren in geben.
Ein Knoten ohne Vorgänger heisst Wurzel, ohne
Nachfolger Blatt des Baumes.
———————
Ableitungen in Grammatiken, bei deren Regeln immer nur ein einzelnes Nichtterminalsymbol auf der
linken Seite steht, kann man einen Syntaxbaum zuordnen.
Die Wurzel ist dann mit dem Startsymbol, die inneren
Knoten sind mit den verwendeten Nichtterminalsymbolen, die Blätter mit den Terminalsymbolen beschriftet.
119
Beispiel
(Links-)Ableitung (d.h., das jeweils am weitesten links
stehende Nichtterminal wird ersetzt):
S NP VP D N VP [the] N VP
[the] [cat] VP [the] [cat] T-V NP
[the] [cat] [chases] NP
[the] [cat] [chases] D N
[the] [cat] [chases] [the] N
[the] [cat] [chases] [the] [dog]
S
NP
D
VP
NP
N
T-V
the
cat
chases
D
N
the
dog
120
Syntaxbäume
Auch eine andere Ableitung (z.B. mit NP VP
NP
T-V NP) hätte denselben Syntxbaum ergeben...
Es gilt:
,
gdw. es gibt einen Syntaxbaum mit an den Blättern,
gdw. es gibt eine Linksableitung f ¨ur
mehrdeutige Grammatik: f ¨ur dasselbe Wort gibt es
mehrere Syntaxbäume.
Beispiel:
NP PP, NP D N, VP
mit
S NP VP,
NP
VP PP, VP V NP .
S
NP
S
VP
NP
VP
NP
VP
V
V
Ich
sah
NP
PP
die Frau mit dem Fernglas Ich
NP
sah
PP
die Frau mit dem Fernglas
121
Chomsky-Hierarchie
Je nach Form der Regeln lassen sich Grammatiken
einem (maximalen) Typ zuordnen:
Typ 0:
Allgemeine Phrasenstrukturgrammatik, keinerlei Beschränkungen
Typ 1:
kontextsensitive Grammatik:
F ¨ur alle Regeln in gilt:
Typ 2
kontextfreie Grammatik:
F ¨ur alle Regeln in gilt, dass Nichtterminal ist, d.h. .
.
ein einzelnes
Typ 3
¨ Grammatik:
regulare
F ¨ur alle Regeln in gilt, dass ein einziges
Terminal oder ein Terminal, gefolgt
von einem Nicht
terminal ist, d.h., Eine Sprache ist vom Typ X, wenn sie von einer
Grammatik vom Typ X erzeugt wird.
Es gilt: Typ 3 Typ 2 Typ 1 Typ 0.
122
Beispiele
Typ 1
Typ 2
Typ 3
Beispiel: arithmetische Ausdr ¨ucke:
...
Grammatik dazu:
P = S T, T (T + T), T T T,
T Z, Z Z Z Z , Z Z 0,
Z
1 2 3 4 5 6 7 8 9 .
123
Automaten
Ein Automat ist eine abstrakte Berechnungsmaschine, mit einer Menge von Eingaben und einem Verhalten dazu.
Eingaben: diskret (nicht kontinuierlich), Folgen von
Zeichen eines Alphabets.
¨
Innere Struktur: endliche Menge von Zustanden.
Ausgabe: Annahme oder Ablehnung einer Eingabe.
Verhältnis von Automaten und formalen Sprachen:
Automat kann als Akzeptant einer Sprache (und als
”Ablehner” ihres Komplements) betrachtet werden.
124
Endliche Automaten, DFAs
Ein deterministischer endlicher Automat (deterministic finite Automaton, DFA) liest eine endliche Folge
von Zeichen nacheinander von links nach rechts ein,
hält nach dem letzten Zeichen an und gibt ”akzeptiert” oder ”abgelehnt” aus.
Zu jedem Zeitpunkt befindet sich der Automat in einem von einer endlichen Anzahl von Zuständen. Es
gibt einen Startzustand und eine Menge von Endzuständen.
a
a
b
a
b
b
q
Berechnungsschritte: wenn in einem bestimmten Zustand ein bestimmtes Zeichen gelesen wird, wird in
einen bestimmten Zustand ¨ubergegangen.
Bsp: 125
Endliche Automaten
Definition:
Ein deterministischer
endlicher Automat ist ein 5
Tupel mit:
eine endliche Menge von Zuständen,
ein Alphabet,
eine Funktion von nach , die Zustands ¨ubergangsfunktion,
der Startzustand,
die Endzustände.
Beispiel:
DFA mit Zuständen ,
Zustands ¨ubergangsfunktion
Startzustand , Endzustand .
Zustands ¨ubergangsdiagramm:
b
a
b
q_0
q_1
a
,
126
Endliche Automaten
Situation eines Automaten: ”Schnappschuss”,
Position des Einlesekopfes auf der Eingabe und Zustand des Automatens.
Sei
. Eine
Situation ist ein Tripel
,
wobei
und
So definierte Situationen m ¨ussen nicht erreichbar
sein...
Relation ”erzeugt in einem Schritt” zwischen Situationen, :
es gibt ein mit
,
gdw.
.
und
, wenn
reflexive, transitive H ¨ulle dazu:
in
keinem oder mehr Schritten erzeugt.
———————
Nicht-Deterministische Automaten, NFAs:
statt Funktion Relation .
Akzeptanz einer Sprache: wenn ein Pfad im Zustand ¨ubergangsdiagramm existiert...
Beide Arten endlicher Automaten akzeptieren dieselbe Klasse von Sprachen, nämlich die regulären Sprachen...
127
reguläre Sprachen
Def.: Seien
Dann heisst
gilt:
und Mengen von Zeichenketten.
Konkatenation von
, wenn
und
und Definition: regul¨
are Sprache
Sei ein Alphabet. Dann gilt:
ist eine reguläre Sprache.
F ¨ur alle
ist
eine reguläre Sprache.
Wenn und reguläre Sprachen sind, dann auch
,
und .
128
reguläre Ausdrücke
Reguläre Ausdr ¨ucke sind eine Meta-Notation f ¨ur
Wörter.
Definition: regul¨
are Ausdr ¨ucke
Sei ein Alphabet. Dann gilt:
ist ein regulärer Ausdruck.
ist ein regulärer Ausdruck.
F ¨ur alle
ist
ein regulärer Ausdruck.
Wenn
und
reguläre Ausdr ¨ucke sind, dann auch
,
und .
entspricht: “ entweder ein Ausdruck oder ein
Ausdruck ”.
Bsp:
die Sprache, die der Beispiel-DFA akzeptiert:
Es gilt: Die Sprachen, die durch
eine Typ-3-Grammatik beschrieben,
einen endlichen Automaten (deterministisch oder
nicht) akzeptiert
und einen regulären Ausdruck beschrieben
werden, gehören derselben Klasse an.
129
Pumping-Lema für reguläre Sprachen
Sei eine reguläre Sprache.
eine
Zahl
Dann gibt
es
mit
lassen
n, so dass gilt: alle
W
örter
mit:
sich zerlegen in
f ¨ur alle
gilt: .
Beweis:
Es gibt einen Automaten , der akzeptiert.
Sei die Anzahl der Zustände in .
durchläuft Bei
Verarbeitung
von
mit
Zustände.
Diese können nicht alle verschieden sein (es gibt nur
Zustände).
Also durchläuft
eine Schleife.
Wähle
so, dass der Zustand nach und derselbe ist.
,
Wenn also
,
dann
auch
, etc.
130
Anwendung:
Das Pumping-Lemma ist zu gebrauchen, um zu zeigen, dass eine Sprache nicht regulär ist:
Bsp.:
.
Annahme: sei regulär.
Es gibt mit den Eigenschaften wie oben.
der Länge .
Man nehme das Wort
Die Zerlegung muss erf ¨ullen, dass nicht leer
ist, und nur aus s besteht.
Dann m ¨usste sowohl aus dem Wort entfernt werden können, als auch beliebig oft eingef ¨ugt werden.
$
Es gilt aber:
.
Also war die Annahme falsch.
131
Eigenschaften regulärer Sprachen
Die Klasse ist abgeschlossen unter
Vereinigung
Komplement
Schnitt
Konkatenation
Stern (Kleene)
Nat ¨urliche Sprachen
Pumpinglemma...
Reguläre Sprachen?
132
kontextfreie Sprachen: Normalformen
Zur Erinnerung: Kontextfreie Sprachen sind diejenigen, die von Grammatiken erzeugt werden, die auf
allen linken Regelseiten nur je ein Nichtterminalsymbol haben.
Aufgrund der Bedingung f ¨ur Sprachen vom Typ 1, die
linke Seite jeder Regel muss k ¨urzer sein als die rechte, kann in diesen Sprachen nicht abgeleitet werden.
Es gilt aber: jede kontextfreie Grammatik , die Regeln der Form enthält, kann in eine äquivalente
Grammatik ohne solche
umgeformt wer Regeln
den, so dass gilt: .
Dazu
wird zerlegt in und
.
Dann werden alle Regeln der Form
aus ent
fernt und f ¨ur alle Regeln der Form die Regel
eingef ¨ugt.
133
kontextfreie Sprachen: Normalformen
Definition: Eine epsilon-freie, kontextfreie Grammatik
ist in Chomsky-Normalform, CNF, wenn alle Regeln entweder die Form oder haben.
Zu jeder kf G gibt es eine äquivalente in CNF:
Eliminierung von Regeln der Form :
Falls es eine Menge
von
Nichtterminalen gibt mit
, ersetze alle durch B.
Dann Nummerierung der Nichtterminalen
so, dass
gilt: aus
folgt , also .
Jetzt wird diese Folge von Nichtterminalen
von hin
ten abgearbeitet: f ¨ur werden al
le Regeln der Form
eliminiert;
f ¨ur die
Regeln
werden die Regeln
hinzugef ¨ugt.
Eliminierung von Regeln der Form
:
F ¨ur jedes Terminal wird ein neues Nichtterminal
sowie einer Regel eingef ¨ugt. Dann wird
jedes Vorkommen von auf einer rechten Seite
(länger als 1) durch ersetzt.
:
bleibt noch: Regeln der Form
F ¨ur jede dieser Regeln werden neue Variablen
und Regeln eingef ¨ugt.
134
kontextfreie Sprachen: Kellerautomaten,
PDAs
Sei $ .
Problem:
DFAs und NFAs haben kein “Gedächtnis”, beim Lesen von $ kann nur auf die Zustände zur ¨uckgegriffen
werden, aber die sind endlich.
Lösung: Kellerautomaten:
Ein Kellerautomat liest ebenfalls ein Eingabeband
von links nach rechts, aber auch in jedem Schritt das
obere Symbol eines “Kellers” (stack). In Abhängigkeit vom Zustand, vom Eingabesymbol und vom Kellersymbol wird in den neuen Zustand ¨ubergegangen
und ein neues Kellersymbol geschrieben.
a
a
b
q
a
b
b
B
A
#
135
Kellerautomaten
Definition:
Ein nichtdeterministischer Kellerautomat
(Pushdown
Automata, PDA) ist ein 6-Tupel
mit:
eine endliche Menge von Zuständen,
ein Alphabet, das Eingabealphabet,
ein Alphabet, das Kelleralphabet,
eine Relation von nach , die
Zustands ¨ubergangsrelation,
der Startzustand,
das unterste Kellerzeichen.
136
Kellerautomaten
a
a
b
a
b
b
q_1
B
A
#
a
a
b
q_2
a
b
b
A
A
#
137
Kellerautomaten
Situation eines PDA:
Position
des Lesekopfes, Zustand und Kellerinhalt:
.
“erzeugt in einem Schritt”:
gdw.
es
, und gibt mit: .
und “erzeugt”, : die reflexive, transitive H ¨ulle von
Akzeptanz eines Eingabestrings durch einen PDA:
1. Die Eingabe ist vollständig abgearbeitet,
2. der Keller ist leer.
(Alternativ kann man auch Endzustände definieren...)
Ein PDA
akzeptiert eine Sprache
gilt: f ¨ur
, wenn
alle gibt es ein mit: 138
kontextfreie Sprachen und
Kellerautomaten
Ein endlicher Automat ist ein Kellerautomat mit einem
leeren Kelleralphabet.
Reguläre Sprachen können also auch durch Kellerautomaten erkannt werden.
Ansonsten gilt: eine Sprache ist (maximal) kontextfrei
gdw. wenn sie von einem nichtdeterministischen
Kellerautomaten erkannt wird.
Deterministischer Kellerautomat: statt Relation Funktion , statt leerem Keller definierte Endzustände.
Die deterministischen kontextfreien Sprachen sind eine echte Teilmenge der kontextfreien...
139
Abschlusseigenschaften von
kontextfreien Sprachen
Die Klasse ist abgeschlossen unter
Vereinigung
Konkatenation
Stern (Kleene),
nicht aber unter
Schnitt,
Gegenbeispiel:
und ,
: nicht kontextfrei.
Komplement
Beweis durch Widerspruch:
seien zwei Sprachen und ¨uber gegeben.
Wenn die Komplemente und kontextfrei
wären, dann auch ihre Vereini
gung . Deren Komplement ist laut deMorgan'schem Gesetz aber gerade und nicht
notwendig kontextfrei.
140
weiter: kontextfreie Sprachen
Aber: Der Schnitt einer regulären Sprache mit einer
kontextfreien ist kontextfrei.
Anwendung:
Beweis, dass eine Sprache nicht kontextfrei ist:
finde regulär und bewiesenermassen nicht kf
mit .
Es gibt unentscheidbare Probleme im Zusammenhang mit kontextfreien Grammatiken, z.B. ob zwei
Grammatiken dieselbe Sprache erzeugen...
(das heisst nicht, dass das nie entschieden werden,
sondern nur, dass es keine allgemeing ¨ultige Rechenvorschrift daf ¨ur geben kann!)
141
Anwendung: Natürliche Sprache
kontextfrei?
Eher nicht...
Methode: Nachweis
Abhängigkei
von kreuzweisen
ten wie in .
z.Bsp. im Schweizerdeutschen und Holländischen:
Wir wollen dem Kind dem Nachbarn den Garten umzugraben zu helfen erlauben.
...
142
Turingmaschine
a
b
0
1
q
Das Band ist unendlich und kann gelesen und
beschrieben werden, der Schreiblesekopf kann in
jedem Schritt um ein Feld nach rechts oder links
versetzt werden oder stehen bleiben.
Das Eingabealphabet ist eine Teilmenge des
Arbeitsalphabets.
143
Turingmaschine, formal
Definition
Eine Turingmaschine ist ein 7-Tupel
mit:
die endliche Menge der Zustände,
das Eingabealphabet,
das Arbeitsalphabet,
die Zustands ¨ubergangs funktion, steht f ¨ur links, neutral oder rechts
(Bewegung des Kopfes),
der Startzustand,
das Blank - Zeichen f ¨ur noch nicht besuchte
Bandfelder,
die Menge der Endzustände.
Die Situation (Konfiguration) einer Turingmaschine ist
ein Wort 144
kontextsensitive Sprachen
¨
Eine nichtdeterministische linear beschrankte
Turingmaschine (linear bounded Automaton, LBA) ist eine
Turingmaschine, die sich nicht ¨uber den Teil des Bandes, auf dem die Eingabe steht, hinausbewegt (dazu
muss das letzte Zeichen der Eingabe besonders markiert werden):
und alle Situationen F ¨ur alle .
mit gilt:
( ist das markierte letzte Zeichen )
Die von nichtdeterministischen linear beschränkten
TMs akzeptierten Sprachen sind (maximal) kontextsensitiv.
Die Frage, ob LBAs und deterministische LBAs äquivalent sind, ist noch unentschieden!
Typ-1-Sprachen sind unter Schnitt, Vereinigung,
Komplement, Konkatenation und Stern-Operation abgeschlossen.
145
rekursiv aufzählbare Sprachen
Allgemeine Turingmaschinen akzeptieren Typ-0¨
Sprachen, auch rekursiv aufzahlbar
genannt.
Nichtdeterministische Turingmaschinen können durch
deterministische simuliert werden (durchsuche nach
einem festen Schema den Berechnungsbaum...), die
beiden Automatensorten sind äquivalent.
Entscheidbar (decidable): Eine Menge heisst
entscheidbar, wenn ihre charakteristische Funktion berechenbar ist.
Semi-entscheidbar (semi-decidable): Eine Menge heisst semi-entscheidbar, wenn ihre charakteristische Funktion f ¨ur ihre Elemente berechenbar
ist. F ¨ur andere Objekte kann diese Funktion undefiniert sein.
Eine Sprache ist semi-entscheidbar, wenn sie rekursiv aufzählbar ist.
Das Wortproblem (ist ein gegebenes Wort Element
der Sprache?) ist f ¨ur diese Sprachen nicht entscheidbar (da die Turingmaschine evt. nicht anhält).
Eine Sprache, die selbst Turing-akzeptierbar ist und
deren Komplement ebenfalls, ist entscheidbar.
146
Spezielles Halteproblem
Jede
lässt sich als Wort ¨uber
Turingmaschine
kodieren:
L, R, N seien 0, 1, bzw. 2; Durchnumerierung der
Elemente der Alphabete, des Startzustands und des
Leerzeichens (beginnend bei 3), dann Binärdarstellung davon.
als Wort aus den
Regeln der Form
Binärdarstellungen der Symbole, getrennt von #, beginnend mit ##.
Diese Codierung
lässt sich wiederum auf ein Wort
¨uber abbilden (wie?).
Sei eine beliebige feste Turingmaschine.
"!
!# falls eine TM codiert
sonst
Dann heisst die Sprache
mit
angesetzt auf hält.
spezielles Halteproblem oder Selbstanwendbarkeitsproblem.
Dieses Problem ist nicht entscheidbar!
Die Turingmaschine , die sich auf der Eingabe so verhält wie die TM
auf x, heisst Universelle
Turingmaschine.
147
Berechenbarkeitsbegriff
Eine (partielle) Funktion ist intuitiv berechenbar,
wenn es eine Rechenvorschrift gibt, die auf den Argumenten, auf denen die Funktion definiert ist, nach
endlich vielen Schritten den Funktionswert liefert.
So eine Rechenvorschrift heisst Algorithmus: endlich beschreibbar, mechanisch ausf ¨uhrbar, deterministisch, endet auf definierten Eingaben.
Formale Definitionen der Berechenbarkeit: Turingmaschine, -Rekursivität, WHILE-Programme, GOTOProgramme, ...
Church'sche These: Diese Formalisierungen erfassen genau den intuitiven Berechenbarkeitsbegriff.
148
Berechenbarkeit
Sind folgende Beispiele berechenbar?
, falls ein Anfangst ¨uck der Dezimalbruchentwicklung von ist, 0 sonst.
(ja)
, falls irgendwo in der Dezimalbruchentwicklung von vorkommt, 0 sonst.
(evt. nein, möglicherweise ist
aber soo zufällig,
dass
Ziffernfolge darin vorkommt. Dann ist
jede
.)
, falls mal 7 in der Dezimalbruchentwicklung von vorkommt, 0 sonst.
(ja. Entweder gibt es beliebig lange 7er-Folgen, oder
es gibt daf ¨ur eine obere Grenze...)
149
O-Notation
Mit der O-Notation kann der Berechnungsaufwand f ¨ur
einen Algorithmus unabhängig von einer bestimmten
Programmiersprache oder Rechnerarchitektur angegeben werden.
Angegeben wird eine obere Schranke, konstante
Faktoren werden ignoriert.
F ¨ur eine Funktion ist definiert:
es gibt und , so dass f ¨ur alle
gilt: Beispiel:
150
Komplexitätstheorie
In der Komplexitätstheorie wird versucht, den Berechnungsaufwand f ¨ur die Lösung von Problemen
(i.e. das Wortproblem f ¨ur formale Sprachen) abzuschätzen.
Eine obere Grenze lässt sich durch die Angabe eines Algorithmus bestimmen, eine untere Grenze ist
immer , die Länge der Eingabe.
Probleme lassen sich in Komplexitätsklassen einordnen, neue Probleme können durch Reduktion auf bekannte ebenfalls klassifiziert werden.
151
Komplexitätsklassen
P (tractable): Ein Problem kann mit polynomialem
Zeitaufwand bzgl. der Länge der Eingabe gelöst
werden.
NP-vollständig (NP-complete): Ein Problem ist
¨
NP-vollstandig,
wenn es (noch?) nicht mit polynomialem Zeitaufwand gelöst werden kann.
NP-hart (NP-hard): Ein Problem ist NP-hart, wenn
es mindestens das Zeitverhalten wie ein NPvollständiges Problem hat.
co-NP-hart (co-NP-hard): Ein Problem ist co-NPhart, falls das komplementäre Problem NP-hart ist.
PSPACE-vollständig (PSPACE-complete): Ein
¨
Problem ist PSPACE-vollstandig,
falls es NPvollständig ist und polynomialen Speicheraufwand
hat.
P NP
P = NP ?
Die meisten NP-vollständigen Probleme hängen so
zusammen, dass entweder jedes oder keines von ihnen doch polynomial gelöst werden kann.
152
Reduzierbarkeit
Das Problem 3SAT:
Gegeben: eine aussagenlogische Formel
in konjunktiver Normalform mit höchstens 3 Literalen pro
Klausel. Ist erf ¨ullbar?
Das Problem VertexCover:
Gegeben: ein endlicher Graph
und eine Zahl .
Gibt es eine Teilmenge der Knoten von
mit maximal Elementen, so dass mindestens ein Endpunt
jeder Kante von darin enthalten ist?
3SAT und VertexCover sind als NP-vollständig bekannt.
Durch Reduktion auf 3SAT oder VertexCover lassen
sich auch andere Probleme als NP-vollständig charakterisieren...
153
Statistik: Überblick
Beschreibende Statistik:
Auswertung von Experimenten und Stichproben
Wahrscheinlichkeitsrechnung:
Schl ¨usse aus gegebenen Wahrscheinlichkeiten,
Hilfsmittel: Kombinatorik
Beurteilende Statistik:
Schl ¨usse aus Experimenten, Beurteilung von exp.
Ergebnissen (machen wir nicht)
Linguistische Anwendungen:
Spracherkennung
Textretrival
probabilistische Grammatiken: z.B. Disambiguierung
Problem: woher Daten?
154
Systemevaluierung
Bsp:Text Retrieval: entspricht ein gefundenes Dokument der Anfrage?
Eventualitätstabelle zur Klassifikation von Beobachtungen (a + b + c + d = n, echte positive, positive Entscheidung; echte negative, negative Entscheidung):
'Ja'
richtig
ist richtig
ist
'Nein'
, false pos.
gefunden a,
,
Treffer
b,
, false neg. d, , true neg.
nicht gef. c, Weitere Masse
Precision
Recall
Fallout
155
Beschreibende Statistik
¨
Statistische Erhebung: Bestimmung der Auspragung
eines Merkmals bei allen Individuen einer Grundgesamtheit.
qualitative vs. quantitative Merkmale,
diskrete vs. stetige qualitative Merkmale...
Beispiele:
Geschlecht/ Gewicht aller Neugeborenen an einem Tag in einem Krankenhaus
Anzahl der Wörter in jedem Artikel einer Ausgabe
einer Tageszeitung
Anzahl des Vorkommens von bestimmten Wörtern
in einem Text-Korpus
156
Begriffe
¨
absolute Haufigkeit:
Anzahl des Vorkommens einer Ausprägung.
¨
relative Haufigkeit:
absolute H. / Anzahl der Individuen
¨
Haufigkeitsverteilung:
Funktion von allen Ausprägungen eines Merkmals
auf Häufigkeiten.
Zentralwert:
Bedingung: Ausprägungen geordnet. Der Zentralwert ist diejenige Ausprägung, f ¨ur die gilt: es liegen
nicht mehr als die Hälfte der Erhebungswerte darunter oder dar ¨uber.
arithmetisches
Mittel
von Erhebungswerten
:
Bedingung: quantitatives Merkmal.
Varianz, Streuung (mittlere quadratische Abweichung):
Standardabweichung: Quadratwurzel aus Varianz
157
Zufallsexperimente
Zufallsvariable : unsicherer Ausgang eines Zufallsexperiments
mit endlicher Zahl möglicher Ausg änge
, Ausgangsmenge oder Ereignisraum .
Bsp: Werfen einer M ¨unze, Ziehung der Lottozahlen,
Alter des nächsten Passanten.
Jede Teilmenge von heisst Ereignis, die einzelnen Elemente auch Elementarereignisse.
Das Komplement eines Ereignisses heisst Gegenereignis .
¨
relative Haufigkeit
eines Ausgangs,
Eintreten von E Versuche.
:
Bemerkung zum Übergang zur Wahrscheinlichkeitsrechnung: es gelten gleiche Gesetzmässigkeiten,
aber W'keitsrechnung asst
l̈
sich nicht statistisch
begr ¨unden. Daher axiomatische Einf ¨uhrung mit gegebenen Wahrscheinlichkeiten der Elementarereignisse.
158
Axiome der Wahrscheinlichkeit
(Kolmogoroff)
Wahrscheinlichkeit:
Sei
ein Ereignisraum mit den Elementarereignissen .
Wahrscheinlichkeitsverteilung:
(1)
Funktion (2)
mit
heisst Wahrscheinlichkeit von
.
Sei ein Ereignis mit Ereignisraum wie oben.
Wahrscheinlichkeit von :
;
, falls
, falls
(3)
Folgerungen daraus: f ¨ur alle Ereignisse A, B gilt:
(
und heissen unvereinbar)
159
Gleichverteilung
Gleichverteilung: W'keitsverteilung, bei der alle Elementarereignisse die gleiche W'keit haben.
Zufallsexperimente mit Gleichverteilung heissen
Laplace-Experimente.
F ¨ur Laplace-Experimente gilt f ¨ur Ereignis :
Anzahl der g ¨unstigen Ausgänge
Anzahl der möglichen Ausgänge
Beispiele:
:
Augenzahl bei Wurf eines fairen (idealen)
W ¨urfels.
: Augenzahl bei Wurf von zwei fairen W ¨urfeln
gleichzeitig.
160
Kombinatorik
Produktregel zur Bestimmung möglicher Kombinationen:
Sei folgendes Lexikon gegeben:
die, keine, sch
önen, gr ¨unen, schnellen, Hunde, Katzen, Mäuse .
Wieviele NPs lassen sich unter Verwendung der Regel NP Det Adj N daraus bilden?
# NP = # Det # Adj # N.
Geordnete Stichprobe mit Zur ¨ucklegen, -mal eines von Elementen ziehen:
Möglichkeiten.
Geordnete Stichprobe ohne Zur ¨ucklegen:
Geordnete Vollerhebung (Permutation): Ungeordnete Stichprobe ohne Zur ¨ucklegen (Bsp:
Lottozahlen):
Binomialkoeffizient, ”n ¨uber k”:
161
Bedingte Wahrscheinlichkeiten
Sonst:
Wie kann man
gilt nur wenn .
bestimmen?
Bedingte relative Häufigkeit:
Durchf ¨uhrungen, mal Ereignis , davon ¨
mal auch , dann ist die relative Haufigkeit
von
bez ¨uglich , , auch .
Bedingte Wahrscheinlichkeit:
Gegeben: Ereignisse und ,
$ , dann heisst
die durch bedingte Wahrscheinlichkeit von Wahrscheinlichkeit von bezgl. .
Allgemeiner Multiplikationssatz:
$ dann
oder
162
Beispiel
Wenn sich jemand noch genau erinnert, dass eines
der beiden Kinder seiner Cousine ein Junge ist, wie
gross ist dann die Wahrscheinlichkeit, dass beides
Jungen sind? (P(Junge) = P(Mädchen) = 0.5).
Gesucht: P1 Junge(2 Jungen)
Lösung
Ohne Information:
P(2 Jungen) = 1/4
P(2 Mädchen)= 1/4
P(Junge/Mädchen) = 1/2
P(A) = P(1 Junge) = 1/4 + 1/2 = 3/4
P(B) = P(2 Jungen), P(A B) = P(B)
Mit der Information, dass ein Kind ein Junge ist:
P1 Junge(2 Jungen) = P(2 Jungen) / P(1 Junge)
= 1/4 / 3/4 = 1/3
163
Weiter: bedingte W'keiten
Seien und Dann gilt:
Ereignisse mit
$ $ .
verallgemeinert, Satz von Bayes:
Seien die den
Ereignisraum
Ereignisse,
zerlegen,
d.h.
,
und
f ¨ur
. Sei
.
Dann gilt f ¨ur mit
:
¨
Zwei
heissen
wenn gilt:
Ereignisse
unabh
angig,
(und
).
Spezieller Multiplikationssatz:
Sind und unabhängig, dann gilt:
164
bedingte W'keiten, linguistisch
Wortfolgen:
" ! kleine !
der
!# Schweine ! Hund
Sei P(kleine
der ) = P( Schweine der ).
P = P( der kleine Hund ) =
P(der) P(kleine der) P( Hund der kleine)
P = P( der Schweine Hund ) =
P(der) P(Schweine der) P( Hund der Schweine)
P
P ,
falls P( Hund der kleine)
P( Hund der Schweine)
165
Zufallsvariablen
Stochastische Variable oder Zufallsvariable :
Abbildung eines Ereignisraumes auf reelle Zahlen.
Das Ereignis
wird mit
bezeichnet.
diskrete Zufallsvariablen
,
Sei
eine Wahrscheinlichkeitsverteilung ¨uber
eine Zufallsvariable über , die die Werte annimmt.
Dann ist die Abbildung
mit die Wahrscheinlichkeitsverteilung von
.
Erwartungswert einer diskreten Zufallsvariablen (entspricht arithmetischem Mittel):
Varianz :
166
Zufallsvariablen
stetige Zufallsvariablen
Die Wahrscheinlichkeit, dass der Wert einer
stetigen
Zufallsvariablen genau eine reelle Zahl annimmt,
geht gegen 0.
Deshalb
wird die summierte Wahrscheinlichkeit von
betrachtet:
heisst auch Verteilungsfunktion
(und ist die Ableitung davon).
Erwartungswert:
Varianz :
167
Zufallsvariablen
mehrdimensionale Zufallsvariablen
Sei ein Ereignisraum,
eine W'keitsverteilung
dar ¨uber, und
Zufallsvariablen
dar ¨uber mit den
Werten bzw. .
Dann ist die Abbildung
die gemeinsame Wahrscheinlichkeitsverteilung oder
-funktion von und .
Gilt f ¨ur alle
:
dann sind
und
¨
unabhangig.
168
spezielle W'keitsverteilungen
Binomialverteilung
Bernoulli-Experimente:
Experimente mit nur zwei Ausgängen.
Bernoulli-Variable:
Zufallsvariable, bei der der eine Ausgang den Wert 0,
der andere den Wert 1 erhält.
Bernoullische Formel:
Sei die Wahrscheinlichkeit f ¨ur den Ausgang 1 eines B.-Experiments. Dann ist die W'keit, dass bei Ausf ¨uhrungen -mal der Ausgang 1 eintritt:
Sei eine Zufallsvariable,
Werte 0, 1, 2, ...,
die die
n
,
annehmen kann, mit
heisst binomialverteilt mit Parametern und .
Es gilt:
.
Binomialverteilung ist abhängig von der Anzahl der
Versuche! Betrachtung von : Verschiebung
des
Erwartungswerts
auf 0, Streckung von k um und
von um .
169
Gauss-Funktionen, Normalverteilung
die eulersche Zahl:
Gauss-Funktion:
Graph von ist eine Glockenkurve...
Näherung f ¨ur Binomialverteilung f ¨ur mit
und Gauss'sche Summenfunktion:
Sei
-verteilt, dann gilt f ¨ur gen ¨ugend grosses :
Normalverteilung
Zufallsvariable
mit
f ¨ur alle reellen Zahlen heisst normalverteilt
mit
Erwartungswert und Varianz ( -verteilt).
170
Stochastische Prozesse
Ein stochastischer oder Zufallsprozess
ist eine Folge
von Zufallsvariablen ¨uber demselben Ereignisraum.
¨
Die möglichen Ausgänge heissen auch Zust
des
ande
Prozesses, der Prozess ist im Zustand
zum Zeit
punkt .
Die
sind nicht zwingend unabhängig voneinander!
Zufallsprozesse können ¨uber diskrete oder stetige
Zeitparameter und ¨uber diskrete oder stetige Zufallsvariablen betrachtet werden, hier aber nur diskrete
Zeitschritte und endliche Ausgangsmengen.
Vollständige Charakterisierung eines Zufallsprozesses:
Wahrscheinlichkeit
f ¨ur alle Ausgänge
f ¨ur den Anfangszustand.
f ¨ur jeden folgenden
die
be
Zustand
dingten W'keiten
171
N-Gramm-Modelle
Annahme: nur die letzten Wörter haben Einfluss
auf die Wahrscheinlichkeit
des nächsten. Gebräuch
lich ist : Trigramm-Modelle.
Wahrscheinlichkeit f ¨ur ein Wort nach der Wortfol
ge :
Die Wahrscheinlichkeit f ¨ur eine Wortfolge beträgt
dann:
172
Markov-Kette
Eine Markov-Kette ist ein Zufallsprozess, bei dem die
Wahrscheinlichkeit des nächsten Zustands nur vom
aktuellen abhängt.
Die Markov-Eigenschaft ist also:
Beispiel:
schönen
1/2 die
2
4
grünen
1
1/2 keine
3
5
Hunde
7
Katzen
8
schnellen
6
10
1 Satzende
9
Wiesen
Sei die Kante zwischen 5 und 9 mit 0.98 gewichtet
und die zwischen 6 und 9 mit 0.02.
173
Stochastische Matrix
Sei eine (endliche) Markov-Kette mit Zuständen gegeben.
Die Übergangswahrscheinlichkeiten
von Zustand in
können in einer
, d.h.
Übergangsmatrix dargestellt werden:
mit
f ¨ur
Ein
und Vektor
heisst Wahrscheinlichkeitsvektor, und kann z.B. f ¨ur
den ersten
einer
Markov-Kette
gelten. Dann
Zustand
gilt: .
Der initiale Wahrscheinlichkeitsvektor zusammen mit
der Übergangsmatrix bestimmen eine Markov-Kette
vollständig, d.h. die Wahrscheinlichkeiten, dass sich
der Prozess an einem best. Zeitpunkt in einem best.
befindet, können daraus errechnet werZustand
den:
174
Beispielmatrix
F ¨ur das Beispiel zur Markov-Kette kann man folgende
Zustands ¨ubergangs-Wahrscheinlichkeits-Matrix aufstellen:
175
Matrix-Multiplikation
Matrizen.
Wir brauchen nur quadratische, d.h.
und Matrizen mit den Elementen
Seien
und , , die Zeile, die Spalte.
Dann ist das Produkt definiert als
Matrix
mit
(Das
ist das
Produkt
aus dem -ten Zeilenvektor
und dem -ten Spaltenvektor
)
Produkt aus
Matrix
..
und Vektor
..
( -stellig):
176
Markov-Modelle
Sei jeder Zustand einer Markov-Kette mit einer endlichen Menge von Signalen verbunden.
Nach jedem Zustands ¨ubergang wird eines der zum
aktuellen Zustand gehörenden Signale ausgegeben.
Die Zufallsvariable repräsentiert dieses Signal zum
Zeitpunkt .
Ein Markov-Modell (erster Ordnung) besteht aus:
einer
endliche
Menge von Zuständen
einem Signal-Alphabet
einer
-Zustands
¨ubergangs-Matrix
mit
mit der Wahreiner -Signal-Matrix
scheinlichkeit Zustands-Signal-Paar, dass gegeben wird.
und
initialer Vektor
einem
f ¨ur jedes
im Zustand aus-
mit
die Wahrscheinlichkeit, dass zur Zeit das
Sei
Signal ausgegeben
wird.
Der Vektor
enthält diese Wahrscheinlichkeiten f ¨ur alle
.
177
Hidden Markov Models, HMMs
Wenn keine Beobachtung der Zustände möglich ist,
sondern nur die Signale beobachtet werden können,
liegt ein Hidden Markov Model (HMM) vor.
eine Folge von beobachteten Signalen
Sei
und die unbekannte Folge von Zuständen.
Die beste Schätzung
f ¨ur S ist die Folge mit dem
grössten Wert f ¨ur
Laut Bayes'schem Satz gilt:
nicht von abhängt, können wir auch
maximieren.
und
da
heisst Signalmodell, Sprachmodell.
178
Anwendungen für HMMs
1. Schätzung der Wahrscheinlichkeit einer
Signalfolge (Identifikation einer Sprache),
2. Bestimmung der wahrscheinlichsten Zustandsfolge, die zu einer Signalfolge gef ¨uhrt hat:
Tagging
Signale: Wörter eines Eingabetextes
Zustände: Mengen von Wortarten
Aufgabe: finde die wahrscheinlichste Folge von
Wortartmengen, die den Wörtern zugeordnet werden können.
Spracherkennung
Signale: (Repräsentation der) akustischen Signale
Zustände: mögliche Wörter
Aufgabe: finde die wahrscheinlichste Folge von
Wörtern, die die akustischen Signale hervorgerufen haben
3. Bestimmung der Parameter
179
1.
Sei
Dann:
und das ist viel zu aufwendig!
wie aufwendig?
.
und:
180
Der Vorwärts-Algorithmus
Vorwärts-Variablen: Wahrscheinlichkeit, zum Zeit
punkt im Zustand zu sein und die Signalfolge
bis dahin beobachtet zu haben.
.
und
Begr ¨undung (Markov-Annahme im zweiten Schritt):
Aufwand:
181
Der R ¨uckwärts-Algorithmus
R ¨uckwärts-Variablen: Wahrscheinlichkeit, zum Zeit
punkt im Zustand
gewesen zu sein und die Si
von da an beobachtet zu haben.
gnalfolge
Definiere
f ¨ur
.
.
weil:
182
Der Vorwärts-R ¨uckwärts-Algorithmus
Wahrscheinlichkeit, zum Zeitpunkt im Zustand zu
sein, wenn O die gesamte beobachtete Sequenz von
Zeit bis ist:
Vorwärts-R ¨uckwärts-Variablen:
183
Datenstruktur Trellis
Ein Trellis ist ein Graph mit je einem Knoten f ¨ur jeden
Zustand an jedem Zeitpunkt.
Jeder Knoten zum Zeitpunkt
ist mit den Knoten zu
den Zeitpunkten
und
verbunden.
Die Knoten werden mit Variablen attributiert, in denen
Werte akkumuliert werden können (z.B. Vorwärtsvariablen).
Wenn eine passende Gleichung
vorliegt, können aus
den Werten f ¨ur die f ¨ur
berechnet werden.
Beispiel:
Zustand
n
Knoten_j_t: {k_i_t-1 | i=1,..,n}
{k_i_t+1 | i=1,..,n}
alpha
beta...
3
2
1
1 2
3
T
Zeit
184
2. Bestimmung von
Def.: max ist der maximale Wert von ist derjenige Wert von , mit dem
Def.:
arg
max
maximal wird.
Viterbi-Algorithmus
Gesucht: Variablen
max max mit:
der Wahrscheinlichkeit
wahrscheinlichsten Zu der
standsfolge von Zeit bis mit am Zeitpunkt und
beobachteter Signalfolge
.
Der Vektor bezeichnet
den Vorgänger vom Zu stand im Pfad zu
.
Unterschied zu Vorwärts-Algorithmus:
Maxima statt Summen.
Gleiche Komplexität 185
Viterbi-Algorithmus
Es gilt:
max
max
arg max arg max ,
"
(
&
&"
&
*
max
'
&
"
$%
(
#
&
&"
'
'
&
&
#
&"
$%
'
$%
#
!"
!
max max
% -
'
(
max max
Die Begr ¨undung f ¨ur
(
(
max max
$%
#
)
max
(
max
(
" +
max
)
186
Viterbi-Algorithmus
:
187
Stochastisches Tagging
1. Einem Wort wird das wahrscheinlichste Tag, d.h.
dasjenige, mit dem es im Trainingsset am häufigsten assoziert war, zugeordnet.
Zu 90 % korrekt (Englisch, nach Allen 1995)
Nachteil: kann unzulässige Folgen von Tags ergeben
2. Wahrscheinlichkeit einer Folge von Tags, Tag-NGramme, Viterbi-Algorithmus
3. HMMs, Kombination von Worthäufigkeit und TagFolgen-Wahrscheinlichkeit, Viterbi-Algorithmus; jedes Wort ist unabhängig von den anderen
Wörtern, aber hängt von den vorigen Tags ab.
Unbekannte Wörter:
morphologische Information, Prefixe, Suffixe
Menge von Default-Tags (offene Wortklassen),
dann davon nach W'keit im N-Gramm davor
auswählen
W'keit aller Tags im Tagset am Ende des entsprechenden N-Gramms (ungeeignet f ¨ur grosse Tagsets)
188
Tagging, Beispiel (deRose 1988)
2. Variante: (n-best) Tag-N-Gramme
“The man still saw her “
the
man
still
saw
her
Art
N
Adv
N
PsPr
V
N
V...
V Pst
Pr Dat
Häufigkeiten bei 4017 Bigrammen:
N Pr Dat PsPr Adv V V Pst
Art
186
0
0
8
1
8
N
40
1
3
40 9
66
Pr Dat 7
3
16 164 109 16
PsPr 176
0
0
5
1
1
Adv
5
3
16 164 109 16
V
22 694 146 98 9
1
V pst 11 584 143 160 2
1
.
9
186
313
2
313
59
91
1. Schritt, (Art) (eindeutig).
2. Schritt, möglich: Art - N und Art - V, beide expandieren (obwohl W'keit f. Art - V sehr gering).
3. Schritt, usw. besten Pfad zu jedem Tag aufheben,
hier (Art - N - N), (Art - N - V) und (Art - N - Adv).
189
3. Parameterbestimmung für HMMs
Aufgabe: Bestimmung von Anfangsw'keiten ,Übergangsw'keiten und Signalw'keiten f ¨ur ein HMM.
1. Fall:
Annotierte Trainingsdaten liegen vor, d.h. Signal- und
Zustandsfolge sind bekannt.
Dann können die relativen Häufigkeiten als Schätzwerte verwendet werden.
Problem: ”sparse Data”, spärliche Daten.
2. Fall:
Es gibt nur rohe Trainingsdaten, d.h. nur die Signalfolge ist bekannt.
Es werden Iterationsgleichungen definiert, die in jedem Schritt bessere Schätzwerte liefern.
190
Spärliche Daten
Problem: manche Phänomene sind so selten, dass
sie im Trainingsset gar nicht auftreten.
Lösungen:
Smoothing f ¨ur Trigramme
Bigramme und Unigramme hinzuziehen und gewichten:
mit
...
"('
) +*-,
!
#"$
%&
!
.
,
"
“relativ“ hoch.
191
Parameterschätzungen durch Iteration
Baum-Welch-Verfahren oder Vorwärts-R ¨uckwärtsWiedereinschätzungsalgorithmus:
Definiere W'keiten:
)
!
' #" $ &%(' !
' *)
+ d.h. gemeinsame W'keit, dass
zum Zeitpunkt Zu )
*
-,
stand
und zum Zeitpunk
Zustand
vorlag
unter der Bedingung, dass die Signalfolge
beob
)
achtet wurde (von Zeit bis ).
Es gilt:
.
/
2 143 "5) 176 ) 8 & %(' 1$9 :%' 0
2143 "5) 176 )8 &%(' 1$9 :%' 0 ; "=<>) 2143 "5) 176 )8
&%('
0
192
weiter: Baum-Welch
Weil:
+
'
+
'
+
1
+
1
1
+
'
1
1
+
0
.
*,
'
,
1 9
'
,
* '
1
1 3 *, 1 6 ,
,
'
* '
,
* '
'
,
'
'
* '
'
* '
* '
'
,
'
+
'
+
'
* '
*,
'
, - '
* '
Diese heissen ebenfalls Vorwärts-R ¨uckwärtsvariablen, und hängen mit den wie folgt zusammen:
'
'
'
; ,
,
'
* '
* )
'
,
193
weiter: Baum-Welch
Wir haben also:
;
*
- W'keit, im Zustand zu starten
von
;
*
;
*
- erwartete Anzahl von Übergängen
,
nach
- erwartete Anzahl von Übergängen aus
- erwartete Anzahl von Ausgaben
*
,
des Signals im Zustand
Die gesuchten Iterationsgleichungen:
)
. '
;( ' '
;( ' ; (' 8 ) ; (' *
3 *,
wobei die Summen über von 1 bis der ,
und
6 *,
immer 1 ergeben m ¨ussen.
+
Es kann gezeigt werden, dass
mit jedem Schritt steigt oder die Parameter gleich bleiben.
194
stochastische kontextfreie Grammatik
Eine kontextfreie Grammatik
-;
ist ein 4-Tupel,
mit Nicht-Terminalsymbolen ,
;
Terminalsymbolen ,
9
Regeln der Form
(mit
und dem Startsymbol
.
9
;
Warum Wahrscheinlichkeiten dazu?
Wertung von Hypothesen
(z.B. bei Spracherkennung),
Auswahl des wahrscheinlichsten Ergebnisses
(Parsing),
fr ¨uhzeitiges Ausschalten unwahrscheinlicher
Analyseversuche (Parsing, Effizienzsteigerung)
195
stochastische kontextfreie Grammatik
Eine stochastische oder probabilistische kontextfreie
; Grammatik ist ein 5-Tupel,
,
; mit
wie vorher und
eine Funktion von nach [0,1] mit
9
'
)
Die Summe der Wahrscheinlichkeiten f ¨ur die Regeln
mit einem bestimmten Nichtterminal auf der linken
Seite muss 1 sein.
Beispiel:
) . .
Hans
¨
schlaft
¨
standig
.
) . ) . ) . Wahrscheinlichkeit einer Zeichenfolge: Summe der
W'keiten der Parseb
äume dazu.
W'keit eines Parsebaums: W'keit der erzeugenden
Linksableitung
196
Wahrscheinlichkeit einer Ableitung
Wahrscheinlichkeit einer Linksableitung:
Seien die Regeln durchnummeriert und die Ableitung
repräsentiert durch die Folge der verwendeten Re
geln. Sei
eine Zufallsvariable, die von der Regel
bestimmt wird, die in Schritt verwendet wurde.
Dann ist eine Linksableitung ein stochastischer Pro mit der Regelmenge der Grammatik
zess
als Zustandsmenge.
Die W'keit einer Linksableitung ist:
'
1
'
'
'
* '
'
*
* '
* '
*
* '
'
* * * '
* '
nötig: alle Faktoren, d.h. alle bedingten W'keiten f ¨ur
jede Regel.
Annahme, Regeln unabhängig von vorangegangenen Ableitungsschritten:
'
also
*
'
'
* * '
*
* '
'
'
*
*
197
Parsingbeispiel
Grammatik:
)
) .
.
.
.
.
) . 'mit dem Fernglas'
) .
'sieht'
. 'Dame'
. 'Frau'
) .
'die'
) . 0.2
0.8
NP
1
D
0.8
N
S
0.7
0.2
1
VP
0.3
PP
0.3
0.7
V
198
Lesarten von 'Die Dame sieht die Frau
mit dem Fernglas'
I:
S
NP
D
VP
NP
N
V
NP
D
PP
N
Die Dame sieht die Frau mit dem Fernglas
II:
S
NP
D
VP
VP
N
PP
V
NP
D
N
Die Dame sieht die Frau mit dem Fernglas
199
Die Ableitungen
¨uber (ohne lexikalische Ersetzungen):
I:
(S, NP VP, D N VP,
D N V NP,
D N V NP PP, D N V D N PP)
= (1, 4, 2, 5, 4)
II:
(S, NP VP, D N VP,
D N VP PP,
D N V NP PP, D N V D N PP)
= (1, 4, 3, 2, 4)
Welche davon ist wahrscheinlicher?
)
'
'
)
1
1
1
.
.
1
1
.
.
.
1
1. 1
.
.
.
.
'
'
.
)
200
Notationen zu Parsebäumen
:
der am weitesten links stehende Nichtterminal
Knoten von wird durch ersetzt, linker Knoten und
Wurzel m ¨ussen dabei das gleiche Nichtterminal als
Label tragen.
: Label des Knotens .
: Wurzel von .
:
“yield“ des Baumes , Ergebnis der Regelanwendung, generierter String.
:
Label des am weitesten links stehenden Knoten in .
201
Korrespondenz zu partiellen
Parsebäumen
Regel
entspricht Teilbaum mit Wurzel
und Knoten
.
'
Sei
der Teilbaum zu ,
die Folge
* * . Dabei ist
der Teilbäume der Ableitung
der vollständige Parsebaum.
Dann ist die Wahrscheinlichkeit
eines Parsebaums:
'
'
!
'
!
Gesucht: Extraktor-Funktion , die die relevanten Eigenschaften von
zur W'keitbestimmung extrahiert,
mit:
und das ist der Label des am weitesten links stehen
'
den Knotens im Ergebnis von ,
.
202
Ein Parser für SKFGs
Adaption des Viterbi-Algorithmus,
Variante des CYK"
"
Parsers, Zeitkomplexität ,
.
Speicherkomplexität
'
' $ ' , G in CNF
(Analyse-W'keiten bleiben erhalten).
Akkumulator * , Knoten , Nichtterminale
*
.
Jeder Knoten
bestimmt einen Teilstring mit den
'
Stringpositionen
, sei dieser
Teilstring.
Die dazu inverse Funktion (nur partiell definiert!) bestimmt aus einem Teilstring denjenigen Parsebaumknoten, der am nächsten zur Wurzel liegt.
* max
. ) '
'
W'keit des wahrscheinlichsten Baums mit
'
max
Der Baum selbst ist:
arg max
* '
'
'
:
203
weiter: Parser
3
,
* '
, * * =3 * '
Sei
Konstruktion des Parsebaums, bottom-up:
1. Initialisierung
)
)
2. Rekursion
)
* '
* ,
max
* '
* ,
'
'
right
'
'
,
* ,
,
,
3
* * left
'
-
right
arg max
3. Rekonstruktion,
left
3
* * .
3
'
* wenn
sonst wenn
sonst
.
204
weiter Parser
Begr ¨undungen
Initialisierung:
Die Nichtterminale, die die Terminale erzeugen, erhalten die W'keiten der lexikalischen Regeln.
Rekursion:
sammeln die Indizes der rechten Seiten der ver
wendeten Regeln
auf, speichert die String-Position
zwischen
und .
* ,
wird aus den W'keiten f ¨ur und
berechnet:
max
'
,
max 1
max
1
max
* , '
* * '
'
,
205
Parse, Initialisierung
Indizes des Eingabestrings:
0die 1 Dame 2 sieht 3 die 4 Frau 5 mit dem Fernglas6
Initialisierung: t
i
* 1 S 2 NP 3 VP 4 PP 5 V 6 N 7 D
die 1
1
Dame 2
0.4
sieht 3
1
die 4
1
Frau 5
mit ...6
0.6
1
206
'
max
für NP und VP
NP, r
0
t 1
,
3
* ,
,
2
3 4
1
2
3
5
6
!
"
4
5
6
VP, r
0
1
2
3
4
5
6
t 1 2 3 4
5
6
#
$ #
") *
##
#%
$(#&
max '
max ' ) $*+,
207
Parameterschätzungen für prob.
Grammatiken
wenn ein annotierter Korpus vorliegt:
relative Häufigkeiten verwenden, Achtung bei
spärlichen Daten
wenn nicht:
– Zuerst alle g ¨ultigen Parsebäume erzeugen,
dann eine Gleichverteilung f ¨ur alle Bäume pro
Satz annehmen.
Häufigkeitszählung der verwendeten Regeln
(nach linkem Symbol), gewichtet mit der W'keit
des Baumes: ergibt neue Verteilung f ¨ur die Regeln, daraus neue Verteilung f ¨ur die Bäume; das
kann beliebig wiederholt werden.
Problem: Komplexität, Anzahl der Parsebäume
exponentiell zur Stringlänge.
– Inside-Outside-Algorithmus
208
Parameterschätzungen für prob.
Grammatiken
Inside-Outside-Algorithmus
Idee: Verwende die aktuellen W'keiten der Regeln,
um davon abhängige andere Masse einzuschätzen.
Ziel: Finde die Menge von Regel-W'keiten, mit denen
es am ehesten möglich ist, den Trainings-Korpus zu
generieren.
Die Variablen:
*
Die Inside-W'keit
schätzt die W'keit
*
* *
dass abgeleitet wird,
vorliegt.
wenn
*
schätzt die W'keit
Die Outside-W'keit
*
dass die o.a. Zeichenkette von
wenn vorliegt.
abgeleitet wird,
209
Inside-Variablen-Initialisierung:
)
)
* ) 3
'
* Inside-Variablen-Rekursion
* )
'
,
.
3
* ,
1 ,
1
Outside-Variablen-Rekursion
, * '
)
)
3 , 3 ,
1
*
* 1
,
,
1
1
Komplexität f ¨ur beide Variablen
,
-
#.-
+
.
)(
$
"'
$
"'
$
"'
$
)(
'"
$
"'
'"
"#
$ $
$
"#
!
!
$ $ &%
&%
*
*
"
"
"#
!
!
!
!
$
210
Herleitung
Inside:
Outside:
211
Wiedereinschätzungsgleichung
Idee:
3+*
3
,
* '
'
* , * mit:
* '
* * )
'
* '
*
* , * * *
die Wahrscheinlichkeit des Strings ,
die
W'keit des Strings und das Vorkommen des Nicht *
terminals
ind dessen Ableitung.
* * , )
'
) 123
* '
)
* 21 3
* * ,
1 ,
1
212
Stochastische Verfahren für Semantik
Beispiel: R.Bonnema, R.Bod, R. Scha: A DOP Model
for Semantic Interpretation, ACL '97
http://earth.let.uva.nl/ bonnema/acl-DOP-sem/acl-DOPsem.html
Idee:Data-oriented Processing auf Semantik erweitern
1. Was ist DOP?
Korpus mit syntaktisch annotierten, d.h. gelabel
ten Bäumen, als Operation darauf Komposition .
Neue Eingabe wird analysiert, indem vorhandene
Teilbäume komponiert werden.
Model:
Einschätzung der W'keit, dass ein Teibaum
an einer bestimmten Stelle
eingestzt wird: An
zahl der Vorkommen von im Korpus / Anzahl aller
Teilbäume mit dem gleichen Wurzellabel:
'
W'keit einer Ableitung:
*
'
* * W'keit eines Baumes, der -te Teilbaum in der
Ableitung von Baum :
'
*
* 2. Erweiterung um semantische Annotationen Gewählter Semantik-Formalismus: Extensionale Typentheorie (Prädikatenlogik höherer Ordnung, Typen,
-Abstraktion)
Jeder syntaktisch annotierte Knoten wird jetzt
ebenfalls semantisch annotiert:
(pre-)lexikalische mit typen-logischer Formel, die
die Bedeutung repräsentiert.
nicht-lexikalische mit Formel-Schema, mit dem
man die Formeln der Tochterknoten zusammensetzen kann.
Problem: kompositionale Semantik angenommen
Modifikation der Komposition bz. Extraktion:
Wenn ein Teilbaum extrahiert wird, wird das entstehende Blatt im Oberbaum mit einer Unifikationsvariablen gelabelt. Bei Komposition wird sie
mit der Formal am eingef ¨ugten Wurzelknoten unifiziert.
3. Statistisches Modell
gleich dem syntaktischen:
'
W'keit einer Ableitung:
'
*
'
*
* * Interpretation eines Strings: Semantische Annotation der Wurzel des Parsebaums.
3
W'keit einer Interpretation, diejenigen Parses, die
eine äquivalente Interpretation liefern:
%
'
*
* 
Herunterladen