ppt

Werbung
Komplexität menschlicher Sprachen
Karin Haenelt
19.6.2010
1
Komplexität menschlicher Sprachen und
Bestimmung der Komplexität
 Menschliche Sprachen haben vermutlich die Komplexität
schwach-kontextsensitiver Sprachen
 Bestimmung der Komplexität
 korrekter Beweis (Shieber 1985): Schnitt einer beobachteten
Konstruktion (cross-serial dependency) mir einer regulären
Sprache ergibt eine schwach-kontextsensitive Sprache
 fehlerhafte Argumente:
 schließen von der Beobachtung einer nicht-regulären
Konstruktion auf die Komplexität der umfassenden
Sprache
 vermischen Komplexität der Sprache und Komplexität
der Maschine zur Erkennung bestimmter Konstruktionen
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
2
Beweis von Shieber 1985:
Schweizerdeutsch ist schwach-kontextsensitiv
 Basis: beobachtetes Phänomen: überkreuzende Abhängigkeit
(cross-serial dependency)
Jan säit das mer d’chind em Hans es huus lönd hälfe aastriiche
y1 y2
y3
x1
x2
x3
John said that we the children-acc
let
Hans-dat
help
the house
paint
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
3
Beweis von Shieber 1985:
Schweizerdeutsch ist schwach-kontextsensitiv
 Form der überkreuzenden Abhängigkeit:
v1 noun1m noun2n v2 verb1m verb2n v3
 noun{1,2}: Nomina,
 verb{1,2}: korrespondierende Verben,
 vi weitere Ausdrücke
 Homomorphismus
 v{1,2,3} → w bzw. x bzw. y
 noun{1,2} → a bzw. b
 verb{1,2} → c bzw. d
 Intersektion mit der regulären Sprache wa*b*xc*d*y ergibt
schwach-kontextsensitive Sprache wambnxcmdny Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
4
Beweis von Shieber 1985:
Schweizerdeutsch ist schwach-kontextsensitiv
 kontextfreie Sprachen sind abgeschlossen unter
Homomorphismus und unter Schnittbildung mit regulären
Sprachen
 daher kann die Ausgangssprache der Schnittbildung keine
strikt-kontextfreie Sprache gewesen sein
 Shiebers Beweis
 beruht nicht auf Annahmen über die syntaktische Struktur
der Konstruktion
 sondern auf der Betrachtung der Sprache als Menge von
Ketten (zur Unterscheidung: eine Kette kann durch verschiedene
Grammatiken verschiedene Strukturierungen erhalten)
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
Mohri/Sproat 2006
5
Voraussetzungen der Argumentation:
Länge der Sätze oder Wörter sei unbegrenzt
 alle Beweise einer höheren Komplexität als regulärer Sprachen
gelten nicht, wenn die Phänomene nicht als unbegrenzt
angenommen werden können.
 keines der genannten Argumente ist interessant, wenn man die
Länge der Sätze (oder Wörter) als begrenzt durch eine große
Zahl N annimmt
 viele beobachteten Konstrukte sind nur dann nicht-regulär,
wenn die Folge der Wörter oder Sätze als unbegrenzt
angenommen wird
 so auch Chomsky 1957
 der endliche Automat zur Beschreibung der Sprache kann
allerdings sehr groß werden
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
6
Fehlerhafte Argumentation
Eine Schwalbe mache einen Sommer
 Fehlerhafte Argumentation
 Man entdeckt eine spezielle Konstruktion K einer Sprache L,
die eine Sprache L′ ⊆ L erzeugt, die an einer wohldefinierten Position P‘ in der Chomsky-Hierarchie liegt.
 Hieraus folgert man, dass L an Position P ≥ P′ liegt. Sei
beispielsweise L‘ kontextsensitiv, so sei L mindestens
kontextsensitiv.
 reguläre Sprachen können nicht-reguläre Konstrukte enthalten
 jede Sprache L‘ über einem Alphabet Σ ist eine Teilmenge der
Sprache L = Σ*.
 Die Entdeckung einer Subsprache L‘ ⊆ L – egal wie komplex Mohri/Sproat 2006
besagt nichts über die Komplexität von L
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
7
… Beispiel
 L = {apbq : p, q ∈ ℕ } ist eine reguläre Sprache
 Ein Automat, der L erkennt, erkennt auch
 L1 = {anbn : n ∈ ℕ }
 L2 = {wwR: w ∈ Σ*}
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
8
Fehlerhafte Argumentation
Sprache (Menge von Zeichenfolgen) – Struktur einer
Konstruktion
 versäumt zu unterscheiden:
 Komplexität der Sprache und Komplexität der Maschine zur
Erkennung bestimmter Konstruktionen
 Sprache und Struktur
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
9
Beispiele fehlerhafter Argumentationen



Chomsky (1957): English is not a finite state language. (Korrekte Terminologie:
regular language)
 Large classes of context-free languages such as some of those used in
Chomsky’s argument have been proved to be representable by weighted
finite automata (Cortes & Mohri 2000).
Hobbs & al. (1997) Finite-state models are clearly not adequate for full natural
language processing... . Every computational linguistics graduate student
knows, from the first textbook that introduces the Chomsky hierarchy, that
English has constructs, such as center embedding, that cannot be described by
any finite-state grammar.
(Arnold 2000) .Natural Languages are not Finite State (‘regular’). There is no
FSA (hence type 3 grammar) that can generate anbn. Natural Languages are
infinite, and have constructions like anbn, i.e. ‘nested dependencies’...
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
10
Modellierung der Struktur menschlicher Sprachen
 Morphologie
 Mittel der Wahl: Typ-3-Grammatiken, reguläre Sprachen
 einige Fälle können durch geringe spezielle Erweiterungen
endlicher Automaten effizienter behandelt werden
 Syntax
 Für die endliche "Kernsprache" der tatsächlich
vorkommenden akzeptablen Sätze des Deutschen (und
anderer Sprachen) kann man annehmen, dass eine nichttriviale Beschreibung als Typ-3-Sprache möglich ist
 Der menschliche Analysator bewältigt nur bestimmte
Schachtelungstiefen (für begrenzte Schachtelungstiefen
reicht Typ-3)
Kunze 2001: 143f
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
11
Modellierung der Struktur menschlicher Sprachen
 Bei Fortsetzung der „Kernsprache“ ins Unendliche tritt ein
„Komplexitätsschub“ bei Zentraleinbettungen auf
the
regulation
defines
which the
commission
had
formulated
which the
Council
had
elected
.
 Bedingungen nicht mit Typ-3 Grammatik
darstellbar
.
.
 Anzahl der Nomina und Verben
muss übereinstimmen
 gewisse Merkmale, die eine Kongruenz sichern, müssen
übereinstimmen
 Unendliche Einbettungen kommen in der Praxis nicht vor
Kunze 2001: 143ff
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
12
…
 Trend in der Folge von Chomsky 1957: Suche nach immer
komplexeren Konstruktionen
 Motiv
 eher Konstruktion neuer formaler Theorien
 als Sammlung und Beobachtung von Sprachdaten
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
13
Effektivität und Effizienz
 Effektivität
 eine Struktur mit einer Typ-3-Grammatik beschreiben zu
können, bedeutet nicht, dass man sie auf diese Weise
effektiv beschreiben kann
 beispielsweise kann eine einzige kontextsensitive Regel
einer großen Menge kontextfreier Regeln entsprechen
 Effizienz
 endliche Automaten haben eine viel bessere Laufzeit – O(n)als Automaten mit zusätzlichen Speichern – O(nx)
Kunze 2001: 143ff
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
14
Literatur





Arnold, Doug (2000) LG511 Computational Linguistics I: Parsing and
Generation. University of Essex. URL:
http://courses.essex.ac.uk/lg/LG511/1-Formal/index 7.html.
Chomsky, Noam (1957) Syntactic Structures. The Hague: Mouton.
Cortes, Corinna & Mehryar Mohri (2000) Context-Free Recognition with
Weighted Automata. Grammars 3: 2–3.
Hobbs, Jerry R., Douglas Appelt, John Bear, David Israel, Megumi Kameyama,
Mark Stickel & Mabry Tyson (1997) FASTUS: A Cascaded Finite-State
Transducer for Extracting Information from Natural-Language Text. In
Emmanuel Roche & Yves Schabes (eds.) Finite-State Language Processing,
pp. 383–406. Language, Speech, and Communication. Cambridge, MA: The
MIT Press.
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
15
Literatur



Jürgen Kunze (2001). Computerlinguistik. Voraussetzungen, Grundlagen,
Werkzeuge. Vorlesungsskript. Humboldt-Universität zu Berlin.
Mehryar Mohri und Richard Sproat (2006)
On a Common Fallacy in Computational Linguistics.
In: Mickael Suominen, Antti Arppe, Anu Airola, Orvokki Heinämäki, Matti
Miestamo, Urho Määttä, Jussi Niemi, Kari K. Pitkänen and Kaius Sinnemäki
(Hrsg.). A Man of Measure: Festschrift in Honour of Fred Karlsson on this 60th
Birthday. pages 432-439. SKY Journal of Linguistics, Volume 19, 2006.
Shieber, Stuart. 1985. Evidence against the context-freeness of natural
language. Linguistics and Philosophy 8: 333–343.
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
16
Herunterladen