Komplexität menschlicher Sprachen
Karin Haenelt
19.6.2010
1
Komplexität menschlicher Sprachen und
Bestimmung der Komplexität
Menschliche Sprachen haben vermutlich die Komplexität
schwach-kontextsensitiver Sprachen
Bestimmung der Komplexität
korrekter Beweis (Shieber 1985): Schnitt einer beobachteten
Konstruktion (cross-serial dependency) mir einer regulären
Sprache ergibt eine schwach-kontextsensitive Sprache
fehlerhafte Argumente:
schließen von der Beobachtung einer nicht-regulären
Konstruktion auf die Komplexität der umfassenden
Sprache
vermischen Komplexität der Sprache und Komplexität
der Maschine zur Erkennung bestimmter Konstruktionen
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
2
Beweis von Shieber 1985:
Schweizerdeutsch ist schwach-kontextsensitiv
Basis: beobachtetes Phänomen: überkreuzende Abhängigkeit
(cross-serial dependency)
Jan säit das mer d’chind em Hans es huus lönd hälfe aastriiche
y1 y2
y3
x1
x2
x3
John said that we the children-acc
let
Hans-dat
help
the house
paint
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
3
Beweis von Shieber 1985:
Schweizerdeutsch ist schwach-kontextsensitiv
Form der überkreuzenden Abhängigkeit:
v1 noun1m noun2n v2 verb1m verb2n v3
noun{1,2}: Nomina,
verb{1,2}: korrespondierende Verben,
vi weitere Ausdrücke
Homomorphismus
v{1,2,3} → w bzw. x bzw. y
noun{1,2} → a bzw. b
verb{1,2} → c bzw. d
Intersektion mit der regulären Sprache wa*b*xc*d*y ergibt
schwach-kontextsensitive Sprache wambnxcmdny Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
4
Beweis von Shieber 1985:
Schweizerdeutsch ist schwach-kontextsensitiv
kontextfreie Sprachen sind abgeschlossen unter
Homomorphismus und unter Schnittbildung mit regulären
Sprachen
daher kann die Ausgangssprache der Schnittbildung keine
strikt-kontextfreie Sprache gewesen sein
Shiebers Beweis
beruht nicht auf Annahmen über die syntaktische Struktur
der Konstruktion
sondern auf der Betrachtung der Sprache als Menge von
Ketten (zur Unterscheidung: eine Kette kann durch verschiedene
Grammatiken verschiedene Strukturierungen erhalten)
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
Mohri/Sproat 2006
5
Voraussetzungen der Argumentation:
Länge der Sätze oder Wörter sei unbegrenzt
alle Beweise einer höheren Komplexität als regulärer Sprachen
gelten nicht, wenn die Phänomene nicht als unbegrenzt
angenommen werden können.
keines der genannten Argumente ist interessant, wenn man die
Länge der Sätze (oder Wörter) als begrenzt durch eine große
Zahl N annimmt
viele beobachteten Konstrukte sind nur dann nicht-regulär,
wenn die Folge der Wörter oder Sätze als unbegrenzt
angenommen wird
so auch Chomsky 1957
der endliche Automat zur Beschreibung der Sprache kann
allerdings sehr groß werden
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
6
Fehlerhafte Argumentation
Eine Schwalbe mache einen Sommer
Fehlerhafte Argumentation
Man entdeckt eine spezielle Konstruktion K einer Sprache L,
die eine Sprache L′ ⊆ L erzeugt, die an einer wohldefinierten Position P‘ in der Chomsky-Hierarchie liegt.
Hieraus folgert man, dass L an Position P ≥ P′ liegt. Sei
beispielsweise L‘ kontextsensitiv, so sei L mindestens
kontextsensitiv.
reguläre Sprachen können nicht-reguläre Konstrukte enthalten
jede Sprache L‘ über einem Alphabet Σ ist eine Teilmenge der
Sprache L = Σ*.
Die Entdeckung einer Subsprache L‘ ⊆ L – egal wie komplex Mohri/Sproat 2006
besagt nichts über die Komplexität von L
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
7
… Beispiel
L = {apbq : p, q ∈ ℕ } ist eine reguläre Sprache
Ein Automat, der L erkennt, erkennt auch
L1 = {anbn : n ∈ ℕ }
L2 = {wwR: w ∈ Σ*}
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
8
Fehlerhafte Argumentation
Sprache (Menge von Zeichenfolgen) – Struktur einer
Konstruktion
versäumt zu unterscheiden:
Komplexität der Sprache und Komplexität der Maschine zur
Erkennung bestimmter Konstruktionen
Sprache und Struktur
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
9
Beispiele fehlerhafter Argumentationen
Chomsky (1957): English is not a finite state language. (Korrekte Terminologie:
regular language)
Large classes of context-free languages such as some of those used in
Chomsky’s argument have been proved to be representable by weighted
finite automata (Cortes & Mohri 2000).
Hobbs & al. (1997) Finite-state models are clearly not adequate for full natural
language processing... . Every computational linguistics graduate student
knows, from the first textbook that introduces the Chomsky hierarchy, that
English has constructs, such as center embedding, that cannot be described by
any finite-state grammar.
(Arnold 2000) .Natural Languages are not Finite State (‘regular’). There is no
FSA (hence type 3 grammar) that can generate anbn. Natural Languages are
infinite, and have constructions like anbn, i.e. ‘nested dependencies’...
Mohri/Sproat 2006
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
10
Modellierung der Struktur menschlicher Sprachen
Morphologie
Mittel der Wahl: Typ-3-Grammatiken, reguläre Sprachen
einige Fälle können durch geringe spezielle Erweiterungen
endlicher Automaten effizienter behandelt werden
Syntax
Für die endliche "Kernsprache" der tatsächlich
vorkommenden akzeptablen Sätze des Deutschen (und
anderer Sprachen) kann man annehmen, dass eine nichttriviale Beschreibung als Typ-3-Sprache möglich ist
Der menschliche Analysator bewältigt nur bestimmte
Schachtelungstiefen (für begrenzte Schachtelungstiefen
reicht Typ-3)
Kunze 2001: 143f
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
11
Modellierung der Struktur menschlicher Sprachen
Bei Fortsetzung der „Kernsprache“ ins Unendliche tritt ein
„Komplexitätsschub“ bei Zentraleinbettungen auf
the
regulation
defines
which the
commission
had
formulated
which the
Council
had
elected
.
Bedingungen nicht mit Typ-3 Grammatik
darstellbar
.
.
Anzahl der Nomina und Verben
muss übereinstimmen
gewisse Merkmale, die eine Kongruenz sichern, müssen
übereinstimmen
Unendliche Einbettungen kommen in der Praxis nicht vor
Kunze 2001: 143ff
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
12
…
Trend in der Folge von Chomsky 1957: Suche nach immer
komplexeren Konstruktionen
Motiv
eher Konstruktion neuer formaler Theorien
als Sammlung und Beobachtung von Sprachdaten
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
13
Effektivität und Effizienz
Effektivität
eine Struktur mit einer Typ-3-Grammatik beschreiben zu
können, bedeutet nicht, dass man sie auf diese Weise
effektiv beschreiben kann
beispielsweise kann eine einzige kontextsensitive Regel
einer großen Menge kontextfreier Regeln entsprechen
Effizienz
endliche Automaten haben eine viel bessere Laufzeit – O(n)als Automaten mit zusätzlichen Speichern – O(nx)
Kunze 2001: 143ff
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
14
Literatur
Arnold, Doug (2000) LG511 Computational Linguistics I: Parsing and
Generation. University of Essex. URL:
http://courses.essex.ac.uk/lg/LG511/1-Formal/index 7.html.
Chomsky, Noam (1957) Syntactic Structures. The Hague: Mouton.
Cortes, Corinna & Mehryar Mohri (2000) Context-Free Recognition with
Weighted Automata. Grammars 3: 2–3.
Hobbs, Jerry R., Douglas Appelt, John Bear, David Israel, Megumi Kameyama,
Mark Stickel & Mabry Tyson (1997) FASTUS: A Cascaded Finite-State
Transducer for Extracting Information from Natural-Language Text. In
Emmanuel Roche & Yves Schabes (eds.) Finite-State Language Processing,
pp. 383–406. Language, Speech, and Communication. Cambridge, MA: The
MIT Press.
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
15
Literatur
Jürgen Kunze (2001). Computerlinguistik. Voraussetzungen, Grundlagen,
Werkzeuge. Vorlesungsskript. Humboldt-Universität zu Berlin.
Mehryar Mohri und Richard Sproat (2006)
On a Common Fallacy in Computational Linguistics.
In: Mickael Suominen, Antti Arppe, Anu Airola, Orvokki Heinämäki, Matti
Miestamo, Urho Määttä, Jussi Niemi, Kari K. Pitkänen and Kaius Sinnemäki
(Hrsg.). A Man of Measure: Festschrift in Honour of Fred Karlsson on this 60th
Birthday. pages 432-439. SKY Journal of Linguistics, Volume 19, 2006.
Shieber, Stuart. 1985. Evidence against the context-freeness of natural
language. Linguistics and Philosophy 8: 333–343.
© Karin Haenelt, Komplexität
menschlicher Sprachen 19.6.2010
16