Linguistik - Institut für Informatik - Humboldt

Werbung
Überblick
Linguistische Grundlagen
Anke Lüdeling
• Was ist Linguistik?
• linguistische Beschreibungsebenen
(Phonetik, Phonologie, Morphologie, Syntax, Semantik,
Pragmatik)
• Probleme (exemplarisch)
– Ambiguität (Wortarten, Syntax)
– Kollokationen
– Unterspezifiziertheit –
Anbindung an Weltwissen (semantische Lesarten)
– Produktivität (Wortbildung)
Institut für deutsche Sprache und Linguistik,
Humboldt-Universität zu Berlin
[email protected]
Was ist Linguistik?
Linguistik
• Linguistik beschäftigt sich mit
– der Beschreibung und Modellierung von Sprachdaten
– den zugrundeliegenden Regularitäten
(Regeln, statistische Muster, Constraintmengen, ...)
– menschlicher Sprachverarbeitung (mentale Prozesse),
Spracherwerb, Sprachverwendung
– Entwicklung und Veränderung von Sprache
– Sprache als sozialem Phänomen, Kommunikation
– ...
• die 'alten Griechen' und die 'alten Inder': Grammatiken,
Beobachtungen über Sprache, Analagie vs. Anomalie,
Lautsymbolik
• bis 19. Jhd.: Grammatiken (erste Grammatiken von
'Volkssprachen' auf Basis der lateinischen Grammatik),
Sprachphilosophie
• 19. Jhd.: Sprachvergleich (Sprachstammbäume),
Beschreibung von Veränderung (Diachronie),
Lautgesetze
• Beginn 20. Jhd.: Strukturalismus, Entwicklung von
formalen Beschreibungsmitteln, Synchronie
1
Linguistik
• seit Chomsky (1957) generatives Paradigma –
Grundgedanken Basis vieler formal unterschiedlicher
Theorien
(Government & Binding, Minimalismus, Head-Driven
Phrase Structure Grammar, Lexical Functional
Grammar, ...)
• daneben: Soziolinguistik, Psycholinguistik,
Neurolinguistik, Pädolinguistik, Sprachdidaktik,
Typologie, Computerlinguistik, Korpuslinguistik, ...
Generative Linguistik
• SprecherInnen einer Sprache können unendlich viele
Ausdrücke (Wörter, Sätze) – also auch solche, die sie
nie vorher gehört haben – produzieren und verstehen
Exkurs: ... unendlich viele Ausdrücke ...
... unendlich viele Ausdrücke ...
• Rekursion
• Hinzufügen neuer Basiselemente z.B. durch
Entlehnung (email, Latte macchiato to go) oder
Kreativität (Handy, unkaputtbar)
• semantische Prozesse
systematische Polysemie (Huhn, Schwein)
Analogie (Riesterknochen)
metaphorische Erweiterungen etc.
– Syntax
der Bezug des Bettes des Hotels des Ermittlungsteams der
Ursache des Absturzes des Systems ...
– Morphologie
Superstarauswahlveranstaltungsterminabsprachedialogsystemabsturzursachenermittlungsteamhotelbettbezug
• Konjunktion (Aufzählung)
Am Sonntag fraß sie sich durch einen Apfel, zwei Bananen, drei
Tomaten, vier Gurken, fünf Schokotörtchen, sechs ....
2
Generative Linguistik
Generative Linguistik
• SprecherInnen einer Sprache können unendlich viele
Ausdrücke (Wörter, Sätze) – also auch solche, die sie
nie vorher gehört haben – produzieren und verstehen
• d.h., Untersuchungsgegenstand ist das
zugrundeliegende Produktionssystem,
das alle und nur die grammatischen Ausdrücke einer
Sprache erzeugt
• es gibt Sprachzentren im menschlichen Gehirn, die
Produktionssysteme für menschliche Sprachen
restringieren
• Evidenz
Exkurs: Sprache und Gehirn
Wo ist die Sprachfähigkeit lokalisiert?
• wo 'wohnt' Sprache?
• wie entstand Sprache/Sprachfähigkeit in der Evolution
des Menschen?
• was macht Sprachfähigkeit aus? Ist Sprache eine
exklusiv menschliche Fähigkeit?
• wie restringiert das Gehirn/die körperliche Einbettung
Sprache?
– Universalien
– Spracherwerb
•Broca-Aphasie
(motorische Aphasie):
Sprachproduktion/
Spontansprache gestört,
Agrammatismus
•Wernicke-Aphasie
(rezeptive Aphasie):
Sprachverständnis gestört,
Sprache flüssig, allerdings
entstellt, Neologismen
•in Wirklichkeit ist alles viel komplizierter ...
3
Wo ist die Sprachfähigkeit lokalisiert?
Sprachfähigkeit angeboren?
• psycholinguistische Experimente: sprachliches Verhalten lässt
Rückschlüsse auf Organisation von verschiedenen
'Komponenten' der Sprachfähigkeit zu
• Sprache als soziales (gelerntes) Phänomen ?
• zu erklären ist
– Speicherung von Einheiten vs. Regelanwendung
– ...
• Imaging-Techniken (z. B. fMRI): Gehirnaktivität bei
bestimmten Aufgaben (Nachsprechen eines Wortes,
Beantworten einer Frage, Reaktion auf fehlerhafte Sätze, ...)
wird gemessen
– bei Sprachproduktion und –rezeption Aktivität in verschiedenen
Bereichen des Gehirns (nicht nur Wernicke und Broca)
– unterschiedliche Fehler (Syntax vs. Semantik) werden in
verschiedenen Bereichen verarbeitet
– ...
–
–
–
–
–
es gibt kein Volk ohne Sprache
es gibt keine 'primitiven' Sprachen
es gibt sprachliche Universalien
Kreolisierung
Sprachfähigkeit ist nicht unmittelbar korreliert mit
Intelligenz (oder sozialer Klasse)
• ...
Sprachfähigkeit angeboren?
Sprache = Instinkt?
• Lernproblem: Spracherwerb läuft bei allen Kindern
ungefähr gleich ab
• Sprache ist zu komplex, als dass sie einfach gelernt
werden kann, zu wenig Input, kaum negative Evidenz
• Chomsky: es muss ein angeborenes Sprachlern'modul'
(Language Acquisition Device) geben – Kinder lernen
dann nur bestimmte 'Parameter' (Kinder 'entdecken'
Grammatik)
• "the instinct to learn, speak and understand language"
[...] "Language is not a cultural artifact that we learn
the way we learn to tell time or how the federal
government works. Instead it is a distinct piece of the
biological makeup of our brains." (Pinker 1994, 17f)
4
Co-Evolution von Sprache und Gehirn
Überblick
• Deacon (1998)
• Was ist Linguistik?
• linguistische Beschreibungsebenen
(Phonetik, Phonologie, Morphologie, Syntax, Semantik,
Pragmatik)
• Probleme (exemplarisch)
– ein spezielles 'Sprachorgan' nicht nötig
– Menschen haben ein ungewöhnlich großes Gehirn
(Gehirn-Haut-Relation) – daher mehr Kapazität, Symbole
zu verarbeiten und in Symbolen zu denken
– Sprache ist ein Produkt der allgemeinen
Organisation/Entwicklung des Gehirns
– kritische Phase des Sprachlernens unterstützt durch
korgnitive Entwicklung von Kindern
– Sprache entwickelt sich so, dass sie von Kindern leichter
gelernt werden kann
¾ ein Faktor für Sprachwandel ist der Filter durch Kinder
– Ambiguität (Wortarten, Syntax)
– Kollokationen
– Unterspezifiziertheit –
Anbindung an Weltwissen (semantische Lesarten)
– Produktivität (Wortbildung)
Linguistische Beschreibungsebenen
Phonetik
• traditionell werden (mindestens) folgende
Beschreibungsebenen unterschieden
• Produktion und Systematik von Sprachlauten – Phon
• artikulatorische Phonetik: Laute werden anhand des
Artikulationsortes und der Artikulationsart
klassifiziert
–
–
–
–
–
–
Phonetik – Laut
Phonologie – Lautsystem
Morphologie – Struktur von Wörtern
Syntax – Struktur von Phrasen & Sätzen
Semantik – Bedeutung
Pragmatik – Verwendung
5
Phonetik
• Artikulationsort
– bilabial [b] [p] [m]
– alveolar [t] [d] [n] [s] [z] [l] [r]
– ...
• Artikulationsart
– stimmhaft (Stimmlippen schwingen) vs. stimmlos
[b] – [p], [d] – [t]
– nasal (Luft entweicht auch durch die Nase) vs. oral
[m] – [b]
– ...
Konsonanten, http://www.arts.gla.ac.uk/IPA/pulmonic.html
SAMPA
Phonologie
• SAMPA (Speech Assessment Methods Phonetic
Alphabet) übersetzt die IPA-Zeichen in 7-bit ASCIIZeichen (internationale Konvention)
• SAMPA für viele Sprachen erhältlich
• in Text-to-Speech Systemen verwendet
• z. B. deutsche Plosive (Auswahl)
p
Pein
paIn
b
Bein
baIn
t
Teich taIC
d
Deich daIC
• Lautsystem einer Sprache
– bedeutungsunterscheidende Laute
innerhalb einer Sprache – Phoneme
– Silbenstruktur
– Prosodie
6
Phonologie
Morphologie
• bedeutungsunterscheidende Laute werden durch die
Bildung von Minimalpaaren gefunden
• Aufbau von komplexen Wörtern
Haustür → Haus•tür
lachte → lach•te
Unabhängigkeit → Un•ab•häng•ig•keit
• Einteilung in bedeutungs- oder funktionstragende
(grammatische Funktion, z.B. 1.Pers. Sg. Präsens) Elemente Morpheme
Hase vs. Nase, Schal vs. Schaf
→ [h], [n], [l], [f] sind Phoneme des Deutschen
• dt. /r/: [r] oder [R] oder [χ] oder ...
Varianten nicht bedeutungsunterscheidend
→ es wird nur ein Phonem für /r/ angenommen
• Phoneminventar einer Sprache
• Silbenmodelle einer Sprache
• Prosodie/Betonungsmuster für die Silben
Morphologie
Morphologie
• Morphem:
– Stamm: Morphem, das auch alleine stehen kann
Haus, Tür, lach, rot ...
– Affix (Präfix, Suffix): Morphem, das nicht alleine stehen
kann
-bar, -te, -keit, -ung, ver-, ent-, un- ...
(Vorsicht: Verwendung von 'Präfix' und 'Suffix' in der Linguistik
unterscheidet sich von der Verwendung von 'Präfix' und 'Suffix' in der
Informatik)
Wortbildung
Flexion
lachte
Menschen
Kurzwortbildung
Derivation
Häuschen, lesbar
Konversion
Automobil → Auto
SchlafN → schlafV
Komposition
...
Haustür, hellblau
7
Morphologie
Komplexität von Morphologie
• nicht nur Analyse, auch Strukturbildung
• Struktur abhängig von Aufbauprinzipien –
spiegelt die Interpretation (Semantik) des komplexen Wortes
Un•ab•häng•ig•keit
((Un•((ab•häng)•ig))•keit)
• Flexionsmorphologie:
durch reguläre Sprachen/endliche Automaten
beschreibbar
• Wortbildung:
– durch kontextfreie Grammatiken beschreibbar
• Komposita mit Struktur (Zwergen-kinder-garten)
• Präfixe, Suffixe, Zirkumfixe (Ge-renn-e)
– allerdings: auch Beispiele für nicht kontextfreie Strukturen
Bambara: o-wulu-filela-o-wulu-filela
Syntax
Syntax – Phrasen
• Zusammensetzung von komplexen Ausdrücken aus
Wörtern
• Struktur abhängig von Aufbauprinzipien, ist Interface
zur Interpretation und Aussprache eines komplexen
Ausdrucks
• Ersetzbarkeit
George Bush lässt sich nicht einschüchtern
Der amerikanische Präsident lässt sich nicht einschüchtern
Der Präsident der Vereinigten Staaten ...
Der Präsident, der von weniger als der Hälfte der
amerikanischen Wähler gewählt wurde, ...
*Präsident lässt sich nicht einschüchtern.
*amerikanische lässt sich nicht einschüchtern
(* steht für 'ungrammatisch')
8
Syntax – Phrasen
Syntax – Phrasen
• Ersetzbarkeit
• solche Konstituenten werden Phrasen genannt
Nominalphrase (NP)
Verbalphrase (VP)
Adjektivphrase (AP)
...
Syntax – Phrasen
Syntax – Phrasenstrukturbäume
• Beispiel Nominalphrase (Ausschnitt)
• Phrasen werden zu komplexen Strukturen (Bäumen
oder Graphen) zusammengesetzt
• Aufgabe der Syntax ist es
George Bush lässt sich nicht einschüchtern.
Der amerikanische Präsident lässt sich nicht einschüchtern.
Der Präsident der Vereinigten Staaten ...
Der Präsident, der von weniger als der Hälfte der
amerikanischen Wähler gewählt wurde, ...
• die grünen Sequenzen bilden Konstituenten desselben
Typs, d.h., man kann sie durcheinander ersetzen, ohne dass
der Satz ungrammatisch wird
der
der
der
ein
der
ART?
amerikanische
frühere amerik.
(ADJ)*
Präsident
Präsident
Präsident
Präsident
Präsident
Präsidenten
N
der USA
der ... wurde
– die Art der Phrasen in einer Sprache zu finden
– die interne Struktur der Phrasen zu finden
– die Kombinationsmöglichkeiten für Phrasen zu finden
(NP|S)?
9
Syntax – Regeln/Constraints
• syntaktische Theorien unterscheiden sich unter anderem
in der formalen Kodierung ihrer Strukturbeschreibungen
–
–
–
–
(kontextfreie) Regeln
Constraints, Merkmalsstrukturen
Kombination von beidem
...
aus dem TIGER-Korpus (Baumbank, deutsche Zeitungstexte)
Komplexität von Syntax
Semantik
• Natürliche Sprachen = kontextfrei?
• Bedeutung von Wörtern (lexikalische Semantik) und
Phrasen (kompositionelle Semantik)
• Großteil der syntaktischen Strukturen:
kontextfrei beschreibbar
• Ausnahmen:
– Schwyzerdütsch
weil d´Chind de Hans des hus hend laa aastriche
1
2
3
1
2
3
– außerdem: zur Modellierung funktionaler Abhängigkeiten
(mild) kontextsensitive Grammatiken notwendig
• dass ein Brief an seine Großmutter kam, die er …
• dass ein Entwurf eines Brief an seine Großmutter kam, die er
…
10
Semantik: lexikalische Semantik
Lexikalische Semantik
• Ziel: Formale Beschreibung von semantischen Einheiten
und Beziehungen
• lexikalische Zerlegung in atomare Ausdrücke
(semantische Primitive)
X tötet Y
X macht, dass es dazu kommt, dass es nicht mehr
der Fall ist, dass Y lebt
CAUSE(X, BECOME(NOT(ALIVE(Y))))
– Polysemie, Homonymie, Vagheit …
– Hyponyme, Hyperonyme, …
• vollständige Beschreibung der semantischen
Eigenschaften des Wortschatzes einer Sprache durch
Merkmalsbündel (+ Vererbung): konkret, belebt,
Artefakt, ...
Semantik: kompositionale Semantik
• semantische Eigenschaften bestimmen
Kombinationsmöglichkeiten von Elementen:
Verbklassen und Adverbien
Hans erreicht in drei Stunden den Gipfel.
#Hans erreicht drei Stunden lang den Gipfel.
Hans rannte drei Stunden lang
#Hans rannte in drei Stunden (aber: resultativ ok)
Semantik: Textsemantik
• Bedeutung von Texten (= Wörter und Sätze im Kontext)
• Bedeutung von komplexen Ausdrücken ist eine Funktion der
Bedeutung der Teile (“Kompositionalitätsprinzip”, Frege)
• Bedeutung von Wörtern
– z.B. Referent eines Wortes (“Hans”: h
)
– z.B. Menge aller Objekte mit einer bestimmten Eigenschaft
(“lachen”: λx.lachen(x), “Mann”: λx.mann(x))
• z.B. Bedeutung von (vielen) Pronomen erst im Kontext
bestimmbar
• z.B. Informationsstruktur (alte vs. neue Information)
• Bedeutung von Sätzen
– “Hans lacht”: lachen(h) -> Bedeutung = Wahrheitswert
• Quantorenskopus, Intension und Extension
11
Komplexität von Semantik
Pragmatik
• viele versch. semantische Theorien
• In jedem Fall: Prädikatenlogik zweiter Stufe
(mit Eigenschaften von Eigenschaften)
der ehemalige Präsident
• Grice’sche Maximen: Kooperationsprinzip
– Ökonomie
– Ironie
• Präsupposition, Implikaturen, …
Zusammenspiel der Komponenten
Überblick
Semantik/
Morphologie/
Phonetik/
Pragmatik
Syntax
Phonologie
Hans will heute ...
• Was ist Linguistik?
• linguistische Beschreibungsebenen
(Phonetik, Phonologie, Morphologie, Syntax, Semantik,
Pragmatik)
• Probleme (exemplarisch)
– Ambiguität (Wortarten, Syntax)
– Kollokationen
– Unterspezifiziertheit –
Anbindung an Weltwissen (semantische Lesarten)
– Produktivität (Wortbildung)
λx[mann(x) & ...
12
Probleme in der Linguistik
Probleme ...
• alles wäre ganz einfach, wenn
• im richtigen Leben (in einer natürlichen Sprache) gibt es
aber
– es endlich viele Ausdrücke (Wörter/Sätze) gäbe (oder
wenigstens endlich viele Basiseinheiten)
– jeder Ausdruck genau eine Struktur und Interpretation
hätte und
– diese Struktur immer lokal (ohne zusätzliche
Informationen) zu bestimmen wäre
– Produktivität (und Kreativität)
– Ambiguität
– Unterspezifikation und Kontextabhängigkeit
Ambiguität
Ambiguität
• kategorielle Ambiguität: ein Ausdruck kann zu mehreren
Kategorien gehören
• Kohl – Name oder einfaches Nomen?
• strukturelle Ambiguität: einem Ausdruck können mehrere
Strukturen zugewiesen werden
• Morphologie
nach 14 Jahren Kohl war die Arbeitslosigkeit auf X% gestiegen
nach 14 Jahren Kohl wollten wir endlich mal wieder etwas anderes
essen
– [klein•[Kunst•Werk]] –
ein kleines Kunstwerk,
vgl. Kleinplastik, Kleinbetrieb, Kleinwagen
– [[klein•Kunst]•Werk]
ein Werk der Kleinkunst,
vgl. Kleinkunstbühne, Kleinkunstförderung
13
Ambiguität
Ambiguität
• Syntax
• kategorielle und strukturelle Ambiguität bedingen
einander
–
–
–
–
[[alte Männer] und Frauen]
[alte [Männer und Frauen]]
ich sah den Mann mit dem Fernrohr
ich sehe ihn laufend
John
saw
her
duck
NE
V
Possessivpron.
N
[under the
table]
PP
NE
V
Personalpron.
V
PP
Ambiguität – Beispiele
Ambiguität - Beispiele
• strukturelle Ambiguität
•
–
–
–
–
Staubecken
Arbeitsamt
Kaffee
Stiefelchen
• semantische Ambiguität
– 4 Männer tragen 3 Klaviere
– Alkoholiker werden immer jünger
Hochschullehrerstellen [13]
(DMOR, IMS Stuttgart)
Hoch=Schul=Lehr=Erst=Elle+NN
Hoch=Schul=Lehr=Erst=Ellen+NE
Hoch=Schul=Lehr=Erstellen+NN
Hoch=Schul=Lehr=erst=Elle+NN
Hoch=Schul=Lehr=erst=Ellen+NE
Hoch=Schul=Lehr=erstellen^VINF+NN
Hoch=Schul=Lehrer=Stelle+NN
Hoch=Schul=Lehrer=stellen^VINF+NN
hoch=Schul=Lehr=Erst=Elle+NN
hoch=Schul=Lehr=Erst=Ellen+NE
hoch=Schul=Lehr=Erstellen+NN
hoch=Schul=Lehr=erst=Elle+NN
hoch=Schul=Lehr=erst=Ellen+NE
hoch=Schul=Lehr=erstellen^VINF+NN
hoch=Schul=Lehrer=Stelle+NN
hoch=Schul=Lehrer=stellen^VINF+NN
14
Ambiguität – Auflösung
Desambiguierung - Kontextabhängigkeit
• Desambiguierungsstrategien
• Problem: viele Ambiguitäten lassen sich lokal nicht auflösen –
man braucht mehr Wissen!
• Kontext 1 Satz
– regelbasiert
– heuristisch
– statistisch (HMM, Kontextvektoren)
• Desambiguierungsstrategien beziehen sich alle auf
einen lokalen Kontext – entweder über Anzahl der
Token definiert oder über syntaktische Relationen
• (Vorsicht bei statistischer Auswertung: Ereignisse sind
nicht unabhängig)
Verstehen Sie Englisch?
If the balloons popped, the sound wouldn't be able to carry
since everything would be too far away from the correct floor.
A closed window would also prevent the sound from carrying,
since most buildings tend to be well insulated. Since the whole
operation depends on a steady flow of electricity, a break in
the middle of the wire would also cause problems. Of course,
the fellow could shout, but the human voice is not loud enough
to carry that far. An additional problem is that a string could
break on the instrument. Then there could be no
accompaniment to the message. It is clear that the best
situation would involve less distance. Then there would be
fewer potential problems. With face to face contact, the least
number of things could go wrong.
(Bransford and Johnson (1973))
– nach 14 Jahren Kohl
– Straßenraub
• Kontext mehrere Sätze
– I saw her duck under the table
• manchmal reicht das nicht ...
If the balloons popped, the sound wouldn't be
able to carry since everything would be too
far away from the correct floor. A closed
window would also prevent the sound from
carrying, since most buildings tend to be well
insulated. Since the whole operation depends
on a steady flow of electricity, a break in the
middle of the wire would also cause
problems. Of course, the fellow could shout,
but the human voice is not loud enough to
carry that far. An additional problem is that a
string could break on the instrument. Then
there could be no accompaniment to the
message. It is clear that the best situation
would involve less distance. Then there
would be fewer potential problems. With
face to face contact, the least number of things
could go wrong.
15
Produktivität:
ein bisschen Lexikostatistik
• Wie wahrscheinlich ist es, dass man ein neues
(ungesehenes) Wort findet, nachdem man eine
gegebene Menge Text verarbeitet hat?
• das lässt sich aus der Verteilung der Wörter in dem
gegebenen Text errechnen
(Baayen 1992, 2001)
Wortverteilung
grobe Vorstellung
• wenn man eine endliche Menge von Wörtern hat,
erwartet man, dass jedes dieser Wörter in einem
genügend großen Text mehrfach auftritt
• wenn man eine unendliche Menge von Wörtern hat,
erwartet man, dass selbst in einem sehr großen Text
viele nur einmal auftreten (und viele natürlich
überhaupt nicht)
• d.h., dass die Zahl der seltenen Wörter Hinweise über
die Anzahl der Wörter gibt
Typ/Token Verteilung erstellen
• alle Typen im Text zählen (setzt Definition von Typ
voraus)
• zählen, wie oft jeder Typ vorkommt
• im Stuttgarter-Zeitung Korpus
(36 m Token)
N = Token, V = Typen
16
Lemmatypen im STZ-Korpus
Typ
Häufigkeit
Typ
d
,
.
ein
und
in
PPER
sein
"
…
3,571,573
1,848,517
1,605,763
710,719
708,531
613,876
536,174
534,056
408,708
…
...
...
Zytomegalievirus
Zytomir
Zytos
zytotoxische
Zywietz
Zyzik
ZZ-Top-Hit
ZZ-Top-Käfer-Nachbau
ZZF-Information
Erstellen einer Frequenzverteilung
Häufigkeit
LNRE Verteilung
• mehr als die Hälfte aller Typen kommen nur einmal vor
(hapax legomena)
• Evidenz dafür, dass noch lange nicht alle möglichen
Wörter vorgekommen sind
• ähnliche Ergebnisse auch für viel größere Texte (Zipf's
law, LNRE Verteilung)
• d.h. man kann (jedenfalls für alle praktischen Zwecke)
von einer unendlich großen Anzahl von Wörtern
ausgehen
• (d.h. übrigens auch, dass statistische Verfahren, die auf
Normalverteilung basieren, hier nicht angewendet
werden können)
1
1
1
1
1
1
1
1
1
• zählen, wie häufig jede Häufigkeit vorkommt (Häufigkeit
von Häufigkeiten)
freq
1
2
3
4
5
…
freq of freq
404,579
96,981
43,357
26,159
17,559
…
freq
…
708,531
710,719
1,605,763
1,848,517
3,571,573
freq of freq
…
1
1
1
1
1
Abhängigkeiten von Wörtern
• linguistisches Modell:
– (endliches) Lexikon von Stämmen, Affixen,
unregelmäßigen komplexen Wörtern mit Kategorisierung
– Regeln/Constraints, die alle grammatischen Ausdrücke
einer Sprache generieren/beschränken
• Problem: Wortkombinationen
– Idiome, Kollokationen, Phraseologismen, Klischees, ...
im Eimer sein, ins Gras beißen, zur Aufführung kommen,
starker Raucher, guter Esser, Zähne putzen, ...
17
Mehrwortlexeme
Zusammenfassung
• Modifikation: auf die Palme bringen
Lange Wartezeiten bringen deutsche Internetnutzer auf die
Palme.
Was Männer auf die Palme bringt ...
"Einige Leute sind schon so weit oben auf der Palme, dass es
schwer wird, sie wieder herunterzuholen", sagte EUAußenkommissar Chris Patten am Freitag.
• strukturelle Ambiguitäten, nicht strukturelle
Ambiguitäten
• keine 1:1 Abbildung von Form und Bedeutung/Funktion
• unendlich viele Ausdrücke – regelmäßige produktive
Prozesse
• aber auch: interne Abhängigkeiten – Lexikalisierung
komplexer Ausdrücke mit Struktur
• Abhängigkeit von anderen Wissensquellen
("Weltwissen")
• wörtliche und 'idiomatische' Bedeutung
Gerade zum bevorstehenden Osterfest hat Lammfleisch
Hochsaison. Statt des viele tausend Kilometer weit gereisten
Tiefkühlfleischs empfiehlt die Verbraucherzentrale Sachsen
den Braten aus der Region. Erst recht, wenn die Schafe „in
das richtige Gras“ gebissen haben.
http://www.vz-nrw.de/UNIQ1080827464132612998/doc7946A.html
Literatur/Referenzen
Literatur/Referenzen
•
•
Einführungen
– Carstensen, Kai-Uwe et al. (eds) (2001) Computerlinguistik und
Sprachtechnologie. Eine Einführung. Spektrum Akademischer Verlag,
Heidelberg
– Fromkin, Victoria & Rodman, Robert (19986) An Introduction to Language.
Harcourt Brace College Publishers, Fort Worth etc.
– Mitkov, Ruslan (ed) (2003) The Oxford Handbook of Computational
Linguistics. Oxford University Press, Oxford
– Radford, Andrew et al. (1999) Linguistics. An Introduction. Cambridge
University Press, Cambridge
•
Phonetik/Phonologie
–
–
–
Internationales Phonetisches Alphabet http://www.arts.gla.ac.uk/IPA/ipachart.html
SAMPA
http://www.phon.ucl.ac.uk/home/sampa/home.htm
Wiese, Richard (2000) The Phonology of German. Oxford University Press, Oxford.
•
Syntax
•
Kollokationen
–
–
•
TIGER-Korpus und TIGER-Search
http://www.ims.uni-stuttgart.de/projekte/TIGER/
www.collocations.de
Produktivität, Lexikostatistik
– Baayen, R. Harald (2001) Word Frequency Distributions. Kluwer, Dordrecht
Sprache und Gehirn
– Deacon, Terrence (1997) The symbolic species. The co-evolution of
language and the human brain. Penguin Books, London
– Loritz, Donald (1999) How the brain evolved language. Oxford University
Press, Oxford
– Pinker, Steven (1994) The language instinct. Penguin Books, London
18
Herunterladen