PowerPoint-Präsentation

Werbung
Theoretische Grundlagen
1. Ziele
2. Empirie vs. Introspektion
1. C. S. Peirce
2. de Saussure
3. L. Hjelmslev
3. Hypothesen
4. Sampling: Repräsentativität und Balanciertheit von Korpora
WS 05/06
Automatische Akquisition linguistischen Wissens
1
1. Ziele
• Erstellung und Vervollständigung von Sprachressourcen hat
Tradition, die mehrere Jahrhunderte zurückreicht:
– Ursprünglich hauptsächlich mit normativem Charakter
– Vorwiegend Sammlungen von Wortlisten evtl. mit kurzen
Erläuterungen
– Wörterbücher
• Ziel von Linguisten war auch die Sprache als Objekt zu
beschreiben und untersuchbar zu machen
– Dabei rückten immer weitere Bereiche der Sprache in das
Blickfeld der Forscher: Wortliste mit Belegstellen, Grammatiken,
Phonologie, Textstrukturen usw.
– Mit dem Beginn der „Chomsky-Ära“ besonderer Augenmerk auf
zunehmende umfangreichere Grammatikregelsammlungen
WS 05/06
Automatische Akquisition linguistischen Wissens
2
1.1. Einfluss der Computerverfügbarkeit
• Später zunehmende Verfügbarkeit von Rechnern und ihrer
Kapazität
• Damit Wandlung von Untersuchung von Sprache von
theoretischer Übung (mit vereinzelten Applikationen wie in
früher Psycholinguistik) hin zu Anwendungen
• Erste Anwendungen im Information Retrieval:
– Wortliste für Index und
– Grundformreduzierung für Komprimierung des Index
– Thesaurus für Suchanfragenerweiterungen
• Weitere Anwendungen folgten, wie
– Rechtschreibkontrolle
– Bibliotheksverwaltungen (Taxonomien, Stichworte)
– …
WS 05/06
Automatische Akquisition linguistischen Wissens
3
1.2. Großrechensysteme
• In den 70er und 80er Jahren Mainframes und
Großrechensysteme:
– entsprechend gering nahmen sich die Kosten für die Erstellung von
Ressourcen wie Taxonomien, Thesauri u.ä. neben den Kosten für
die Konstruktion und Betrieben der Systeme aus.
– Die Auswahl der betreffenden Sprachen gering: Englisch und
vielleicht noch Deutsch/Spanisch/Französisch
• Gleichzeitiger Einfluss der „Chomskianer“ führte zu einem
überproportionalem Fluss der Mittel in die Erforschung von
Parsern und Sprachgenerierern, die zunehmend Grammatik
beherrschten, sonst aber nichts
– Aber auch dafür teils gigantischer Aufwand an manueller Arbeit
für Trainingsmengen und/oder Regelmengen
• Bis dahin nur wenig alternative Forschung: Zipf 40er, Firth,
Harris 50er, 60er
WS 05/06
Automatische Akquisition linguistischen Wissens
4
1.3. Personal Computers
• In den 90er bis zur heutigen Zeit mehrere Faktoren:
– Abnehmende Bedeutung von Großrechensystemen zugunsten von
Personal Computers (PCs)
– Explosionsartig wachsende Textmengen
– Entsprechend wachsende Anwendungsbereiche und Bedarf für
Sprachtechnologie
– Zunehmende Verschiedensprachlichkeit
• Mit neuen Sprachen kamen auch neue Probleme, die in
bewährte Konzepte nicht mehr passten
– Ernüchterung über Sprachtechnologie (siehe Verbmobil), speziell
über was sich mit einem perfekten Grammatiksystem überhaupt
erreichen lässt
• … führten zu einem stetigen wiederaufleben Empiriebasierter,
d.h. Korpusbasierter Forschung und möglichst automatischen
Ansätzen zur Ressourcengewinnung
WS 05/06
Automatische Akquisition linguistischen Wissens
5
1.4. Aktuelle Zielstellungen
• Erstellung von möglichst umfangreichen Sprachressourcen unter
Einsatz von möglichst wenig manueller Arbeit
– Dafür (fast) beliebig viel Rechenleistung
– Auch (fast) beliebig viel Text, dieser aber größtenteils roh
• Art des linguistischen Wissens, bzw. Struktur der Sprache:
–
–
–
–
–
Grammatik
Wortklassen, Textstrukturen
Wortbedeutungen, Redewendungen
Synonyme, Meronyme, Antonyme, …
auch weniger hilfreiche Ressourcen wie Merkmalsmatrizen für
Dependenzgrammatiken
• Ziel ist also die Entwicklung von Methoden, mit den sich
möglichst viele Sorten der Ressource „linguistisches Wissen“
aus dem billigen Rohstoff „Text“ extrahieren lässt
WS 05/06
Automatische Akquisition linguistischen Wissens
6
2. Empirie vs. Introspektion
• Introspektion:
– Annahme der Existenz einer Universalgrammatik, die es zu
entdecken gilt
– Basierend auf dem eigenen Verständnis von Sprache versuchen,
diese umfassend zu verstehen und zu beschreiben
– Ergebnis: „Beschreibung“ in Form eines Regelwerks oder
Algorithmus, welcher in der Lage ist, Sprache korrekt zu
verarbeiten (generieren, verstehen, entscheiden ob etwas korrekt ist
usw.) (und das ganze verallgemeinerbar auf andere Sprachen)
• Empirie:
– Basierend auf einer endlich großen Beobachtung versuchen, diese
umfassend zu verstehen und zu beschreiben (wie Dekodierung
einer chiffrierten Nachricht)
– Ergebnis: Komplette Beschreibung aller Strukturen einer Sprache
WS 05/06
Automatische Akquisition linguistischen Wissens
7
2.1. „Strukturalismus“
• Beschreibung aller Strukturen
• Bedeutung von Einheiten ergeben sich aus Struktur, bzw.
Benutzung oder Bezug zu anderen Einheiten und ist somit
berechenbar
Wittgenstein: TPL 3.326: Um das Symbol am Zeichen zu erkennen,
muss man auf den sinnvollen Gebrauch achten
• Wie Puzzle:
Ich gehe nach Hause.
Jdi hfif obdi Ibvtf.
Ich schwimme nach Hause.
Jdi tdixjnnf obdi Ibvtf.
Ich renne nach Hause.
Jdi sfoof obdi Ibvtf.
• Mit brute force wie beim Puzzle jedoch nicht lösbar, da zu
komplex und im Gegensatz zum Puzzle keine eindeutige Lösung
WS 05/06
Automatische Akquisition linguistischen Wissens
8
2.2. Charles Sanderson Peirces Sprachwissenschaft
Peirce vor allem Logiker (führte Wahrheitstabellen ein, führte
Standardnotation für Wahrheitslogik erster Ordnung ein)
Methode: Abduktion („Wo Rauch ist, ist Feuer“) als Vorstufe zu Induktion
(Vom einzelnen auf’s Allgemeine) und Deduktion (Vom Allgemeinen
auf’s einzelne)
Bedeutung ist mehrschichtig:
• Monadische, erste Ordnung und zweite Ordnung Relationen
• Zeichen, existiert in einer monadischen Relation zu sich selbst
• Als zweite Schicht gibt es die Relationen erster Ordnung wie ZeichenObjekt, Zeichen-Interpretant und Interpretant-Objekt, diese weiter
unterteilt in
– ikonische Relationen
– Indexische Relationen
– Symbolische Relationen
• Als dritte Schicht die triadische Relation zweiter Ordnung ZeichenInterpretant-Objekt
WS 05/06
Automatische Akquisition linguistischen Wissens
9
2.2.1. Peirce II
• Ein Interpretant ist unterteilt in mehrere verschiedene Typen:
– Unmittelbarer Interpretant: direkte Wahrnehmung, hat mit der
unmittelbaren Bedeutung/Wert des z.B. Objekts zu tun
– Dynamischer Interpretant: Alles mögliche, was eine Person von
einem Zeichen in einem spezifischen Kontext ableiten kann
– Logischer Interpretant: Ist die Wirkung von Zeichen, dass sie selbst
wiederum für andere Zeichen stehen können
• Wird auch zu Strukturalisten gezählt, weil eine gegenseitige
Abhängigkeit der Bedeutungen von Wörtern vorschlug
– „Struktur“ der Bedeutung zwischen einzelnen Wörtern
– Wenn die Bedeutung eines Wortes sich ändert, ändert sich
geringfügig auch die Bedeutung der mit diesem in Relation
stehenden
• Aber wird auch insb. von Chomsky gern als „Vater“ seiner UG
gesehen
WS 05/06
Automatische Akquisition linguistischen Wissens
10
2.3. Ferdinand de Saussures „Cours de Linguistique“
• Sprache ist ein „Objekt“ und kann als solches untersucht werden
• Jede linguistische Einheit ist strukturiert und Bestandteil einer
Struktur und steht in syntagmatischen (eher in konkreten
Äußerungen) und assoziativen (paradigmatischen) Relationen
(eher allgemein) zu anderen
• Es gibt sprachliche Ebenen (Phonologie, Morphologie,
Wortebene, Satzebene usw.) und die syntagmatischen und
paradigmatischen Prinzipien gelten für jede Ebene
– Ein Haus ge-geb-en
– Ein Gedicht ge-schrieb-en
• Sprache ist dynamisches System (Bedeutung eines Wortes hängt
mit Bedeutungen anderer Wörter zusammen)
• Gleichzeitig statisches System (synchronisch) und
kontinuierliche Entwicklung (diachronisch)
WS 05/06
Automatische Akquisition linguistischen Wissens
11
2.4. Louis Hjelmslevs
Formulierter als erster 74! explizit das Strukturalistische Prinzip, wobei Jakobson
ca. 1928 oder 1929 in den Travaux du Cercle Linguistique de Prague diesen
Begriff als erster Verwendete
Ziel der Linguistik ist die Exploration von Sprachlichen Systemen, welche nur
indirekt beobachtbar sind.
Durch derartige Explorationen sollte man ein Kalkül (Verwendung fast Synonym
zu Algorithmus) erhalten, welches es erlaubt, alle Möglichkeiten von
Kombinationen von sprachlichen Einheiten zu Sinnvollen Einheiten zu
berechnen.
• Ziel ist die Erstellung der Beschreibung einer Sprache
• Die Beschreibung muss Widerspruchsfrei und so einfach wie möglich sein
• Die Vollständigkeit ist wichtiger als das Abhandensein von Widersprüchen
Nur unter Verwendung der richtigen empirischen Mittel kann es möglich sein, das
Kalkül zu finden.
Seine Formulierungen schließen allerdings diachronische Entwicklung von
Sprache im großen und ganzen aus.
WS 05/06
Automatische Akquisition linguistischen Wissens
12
2.5. Begründer des Strukturalismus: Unterschiede
Peirce
De Saussure
•Bedeutung: 3 Teile
–Zeichen
–Objekt
–Interpretant/
Konzept
•Zeichen 2 Teile,
Konzepte und
Laut/Zeichenbilder
Hjelmslev
•Bedeutung: 3 Teile
–Zeichen
–Objekt
–Interpretant/
Konzept
Bedeutung dynamisch
•Unterteilung von Sprache in mehrere
Sprachlevels
•Dabei paradigmatische und syntagmatische
Relationen als Grundprinzipien auf jedem Level
WS 05/06
Automatische Akquisition linguistischen Wissens
13
2.6. Empirie: Zusammenfassung
• Beobachten: unabhängige Experimente, um die untersuchte
Sprache auf Einzelaspekte und Zusammenhänge zu untersuchen.
– Ziel ist möglichst viele Effekte zu finden
– Mindestens so viele Beobachtungen, um Verallgemeinerungen
zuverlässig zu ermöglichen – d.h. nicht alle möglichen
Beobachtungen müssen erfolgen
• Lernen: Regelmäßigkeiten verallgemeinern, Hypothesen
formulieren, um Gründe für die Zusammenhänge und
Regelmäßigkeiten zu finden
• Verifizieren: Alle Hypothesen müssen stets verifiziert werden
– Ein gelerntes System kann nie als wirklich vollständig verstanden
werden, höchstens aktuell
WS 05/06
Automatische Akquisition linguistischen Wissens
14
E. Welche Mittel?
Aufgabe: Bestimmen Sie für jede Sprache welches die korrekten
Übersetzungen sind.
Deutsch
Englisch
Tschechisch
Spanisch
Russisch
Bahnhof
book
já
estación
вокзал
Buch
I
kniha
libro
книга
Ich
train-station
nádraží
yo
я
• Alphabetische Sortierung hilft gar nicht
• Dafür aber Wortlänge – aber nur in diesem Beispiel
Welche Mittel sind universell einsetzbar?
WS 05/06
Automatische Akquisition linguistischen Wissens
15
E.1. Weitere einfache Mittel: Frequenz
Läßt sich vielleicht Frequenz nutzen?
• Fluß 7013
• Flußbett 419
• Flußbecken 6
• Flußbebauungen 1
Oder für Übersetzungen?
Deutsch
24Mio
Englisch
13Mio
Bahnhof
13776
book
35097
Buch
72809
I
431454
Ich
551784
train-station
15356*
Dampf
2363
steam
6671
WS 05/06
Automatische Akquisition linguistischen Wissens
16
3. Hypothesen
• Komplexer ist das Generieren von Hypothesen:
• Ausgehend von Beobachtungen Regelmäßigkeiten feststellen
und versuchen, ein Modell zu konstruieren, welches korrekte
Voraussagen trifft und die Regelmäßigkeiten allen erklärt
• Beispiel: -e Suffix im Deutschen
– Frage: Wann tritt es auf, wann nicht?
– Schule, Sonne, Plätze, Schirme, …
– Schule, Sonne, Platz, Schirm, …
• Vermutung: Es gibt ein Merkmal, welches bei manchen Wörtern
dafür sorgt, dass der –e Suffix in manchen Kontexten auftritt
– Plural – aber warum tritt es bei manchen Wörtern immer auf?
– Genus
• Wie gelangt man zu diesen Erkenntnissen?
WS 05/06
Automatische Akquisition linguistischen Wissens
17
3.1. Generelle vs. Spezifische Hypothesen
• Generelle Hypothesen, die vermutlich immer und für jede
Sprache gelten, aber so generell sind, dass sie nicht unmittelbar
„nützlich“ sind:
–
–
–
–
Sprache ist ein System mit Struktur
Prinzip der Linearität
Prinzip der Arbitrarität
Daraus abgeleitet syntagmatische und paradigmatische Relationen,
bzw. das Prinzip der Konkatenation und Abstraktion
– Prinzip der Redundanz
– Prinzip des geringsten Aufwandes (Zipfsches Gesetz)
– Diachrone vs. Synchrone Sprachwissenschaft
• Dagegen stehen Hypothesen, die nur für eine Sprache oder
Sprachfamilie gelten und die gilt es, automatisch generieren zu
lassen
WS 05/06
Automatische Akquisition linguistischen Wissens
18
3.1.1. Struktur der Sprache
• Dass Sprache ein strukturiertes System ist, ist heute evtl.
offensichtlich, war aber nicht immer so
• Lange Zeit bis de Saussure und den Junggrammatikern (in
Leipzig!) folgende Auffassung:
– Wörter sind eine Liste von Zeichen, die mehr oder weniger eins zu
eins mit Objekten in der Welt verbunden sind
– Sprachliche Äußerungen durch Grammatik definiert
– Alle Sprachen funktionieren alle mehr oder weniger wie die IndoGermanischen
– Historische Grammatik war Hauptuntersuchungsgegenstand und
man versuchte Grammatik einer jeweiligen Sprache als von
ultimativ Sanskrit abstammend darzustellen, unter (mit Einhergang
der Aufklärung) Beachtung von „nationalen“ Eigenheiten
WS 05/06
Automatische Akquisition linguistischen Wissens
19
3.1.2. Linearität
• Phoneme, Morpheme, Wörter usw. werden beim Sprechen in eine
lineare Form gebracht
– Weil nicht mehrere gleichzeitig produziert und auch nicht verarbeitet
werden können
– Erklärungen warum das der Fall ist uneinheitlich (Frage: Wenn unser
Sprechapparat mehrere Phonome/Wörter gleichzeitig produzieren könnte,
würden wir nicht-lineare Sprache sprechen?)
– Wahrnehmung ist jedoch nicht linearisiert – Linearität dient lediglich der
Kodierung von Nachrichten. Allerdings entspricht Linearität von
Nachrichten auch unserer Gedanken verkettenden Denkweise, was ein
Grund für die intuitive Form von Sprache sein könnte
• Es gibt Hinweise oder Versuche, Abweichungen von diesem Prinzip zu
finden
– z.B.: Linearität liegt auch den generativen Grammatiken zugrunde –
etwas, was Chomsky lange nicht wahrhaben wollte (lt. Roy Harris),
allerdings alle Transformationsregeln haben das Ziel, eine sog.
Oberflächenstruktur zu produzieren, die linear ist. Wenn es das Ziel nicht
gäbe, würden voraussichtlich auch die Regeln nicht existieren
Siehe auch Good03.pdf auf Webseite
WS 05/06
Automatische Akquisition linguistischen Wissens
20
3.1.3. Arbitrarität
• Form von Zeichen hat im Allgemeinen nichts mit den
Eigenschaften oder dem Objekt selbst zu tun, mit welchem es
assoziiert wird
– Dass viele Sprachen ein sehr ähnliches Wort für z.B. Katze (kot,
kocka, cat, kitten, …) verwenden hat lediglich historischen
Ursprung!
– Allerdings kann in einem bestehenden System nicht eine arbiträre
Änderung vorgenommen werden, bzw. sie würde nicht akzeptiert.
Sie ist es unter Umständen möglich ein neues Wort einzuführen
wie „nachbokatzt“, aber auf keinen Fall „sdkkflllwre“
• Sprache ist ein Code, auf den sich alle Sprecher einigen und der
in dem aktiven Sprachgebrauch in „Einvernehmen“ verändert
werden kann.
WS 05/06
Automatische Akquisition linguistischen Wissens
21
3.1.4. Sprachliche Ebenen
Struktur der Sprache setzt sich aus mehreren Ebenen zusammen und auf
jeder Ebene gibt es
• Konkatenation, generiert lineare Struktur
– Regeln ermöglichen Eingrenzung von Möglichkeiten und stellen aller
Wahrscheinlichkeit nach etwas wie eingeschliffene Verhaltensmuster dar:
Ein Garten kann vielfältige Arten umgegraben werden, wenn man sich
aber an eine gewöhnt hat, wird man immer diese benutzen
• Abstraktion, ermöglicht Selektion über Abstraktionsklassen
– Stellt alle Arten von Ähnlichkeitsassoziationen dar
• Katze ist etwas ähnliches wie Hund, allerdings auf andere Art und
Weise als
• Schraubenschlüssel und Spaten, was schwächer ist, als
• Schraube und Mutter
• Die beiden Prinzipien gelten für jede einzelne sprachliche Ebene
WS 05/06
Automatische Akquisition linguistischen Wissens
22
3.1.5. Redundanz
• Warum reicht es nicht, „Peter Haus verl“ zu sagen, um
auszusagen, dass Peter das Haus vor 5 min verlassen hat, um zur
Arbeit zu gehen?
– Rauschen (Fahrzeuggeräusche, Türklappern, Wind, …) sorgt dafür,
dass eigentlich nur Bruchstücke des gesagten beim Zuhörer
ankommen
– Zuhörer evtl. nicht informiert über Kontext
• „Peter hat sein eigenes Haus vor 5 Minuten *** und ging ***,
um ein Geld zu verdienen“
– Obwohl in diesem Fall zwei Wörter komplett verloren gegangen
sind, kann ein Zuhörer den Inhalt des Satzes rekonstruieren
– Der Rekonstruktionsprozess wird selbst dann erfolgreich sein,
wenn Zuhörer über Kontext nicht informiert war
WS 05/06
Automatische Akquisition linguistischen Wissens
23
3.1.6. Prinzip des geringsten Aufwandes
Laut George Kingsley Zipf:
• Optimal für den Sprecher: Der Sprecher würde am liebsten alles mit einem
Wort sagen
– Leider müssten sich beide Sprecher und Zuhörer unendlich viele Wörter merken
•
Optimal für den Zuhörer: Wenn alles genauestens gesagt wird, so dass er kaum
Arbeit beim Verstehen hat.
– Leider müssten beide ziemlich lange beschäftigt sein, zu reden und zuzuhören
jeweils
•
Jede Äußerung stellt daher Optimale Abwägung zwischen wie viel muss der
Sprecher sagen, so dass der Zuhörer es gerade noch versteht
– Damit gehen viele Gesetzmäßigkeiten einher, wie Verteilung von Worthäufigkeiten,
Strukturen, Wendungen etc.
– Wenn alle Wörter gleich häufig wären, müssten beide Zuhörer und Sprecher alle
kennen, denn schon 10% fehlende Wörter würde ein Verständnis stark erschweren.
– Wenn jedoch Zipfsche Verteilung zugrunde liegt und Sprecher 100.000 Wörter
kennt, während Zuhörer nur 10.000 (also 90% nicht kennt!!), ist Verständnis immer
noch möglich, da die 10.000 eine über 95% Textabdeckung garantieren!
WS 05/06
Automatische Akquisition linguistischen Wissens
24
3.1.7. Diachron vs. synchron
• Dass Wort Fenster selbst hat historischen Ursprung im
Lateinischen
• Dass es allerdings Fenster wie Meister und Muster heißt statt
*Fenschter, *Meischter und *Muschter lässt sich eher im
derzeitigen Zustand des Gesamtsystems der derzeitigen Sprache
erklären
• Entgegen vielen Fehlinterpretationen heißt das allerdings nicht,
dass wenn das synchrone System untersucht wird, dass die
diachronen Faktoren keine Rolle spielen – im Gegenteil, sie
sollen gerade, allerdings auch als solche beachtet werden
• Allerdings da ein Mensch normalerweise auch eine Sprache
lernen kann, ohne Ursprünge überhaupt zu kennen, sollte es
auch möglich sein, entspr. Algorithmen zu erstellen
WS 05/06
Automatische Akquisition linguistischen Wissens
25
4. Sampling
• Um Regelmäßigkeiten beobachten zu können und darüber
Verallgemeinerungen anstellen zu können, muss die jeweilige
Sprache als beobachtbarer Gegenstand vorliegen
–
–
–
–
Als Erzählung, sprechen
Auf Papier vor allem seit der Erfindung des Massendrucks
Auf Tonband seit Erfindung von Aufnahmetechniken
Elektronisch seit es Computer gibt
• Derzeitig am einfachsten, wenn komplett elektronisch
verfügbar, am ähnlichsten den Lernumständen eines Kindes von
Tonaufzeichnungen
– Allerdings direkt von Tonaufzeichnungen lernen zu lassen ist
Unsinn, da auch das Kind zunächst Unterscheidung von
Phonemen, Morphemen und Wörtern lernt
WS 05/06
Automatische Akquisition linguistischen Wissens
26
4.1. Annotationen und Evaluation
• Da ein Korpus dazu verwendet werden soll, davon automatisch
Algorithmen lernen zu lassen, ist Annotation (der zu lernenden
Strukturen) eigentlich überflüssig.
• Jedoch stellt sich nach dem Lernschritt die Frage, wie gut denn das
Ergebnis war.
• Ergebnis kann mit manuell erstellten (Teil-)Annotation verglichen
werden und unter der Annahme, dass Annotationen richtig waren
(nicht selbstverständlich!), kann dann bestimmt werden, ob
Algorithmus „gut“ funktioniert hat
– Gut bedeutet dann entsprechend den Erwartungen, die in Form von
Annotationen definiert wurde
• Allerdings gibt es auch andere indirekte Wege der Evaluierung (z.B.
Applikationsbasiert oder direkte Stichprobenbasierte Bewertung d.
Ergebnisse)
• Standard ist jedoch Grundlegende Annotation von Text-, Absatz-, Satzund Wortgrenzen und für den Fall von Tonaufnahmen eine oder
mehrere Transkriptionen
WS 05/06
Automatische Akquisition linguistischen Wissens
27
4.2. Korpusgröße
Eine der ersten Fragen, die sich stellen, ist die erforderliche Korpusgröße
• Natürlich ist intuitiv mehr besser.
– Allerdings nicht immer: Korpus aus 50% Zeitungs- und 50% Literatur
verdreifachen durch Zeitungstext: Balance 16% Literatur und 84% Zeitung!
– Wenn Algorithmus z.B. 80% Precision auf (Trainings)Korpus der Größe X erreicht,
und Korpus auf 2*X verdoppelt wird, dann wird er Alg. nicht doppelt so gut (also
90% Precision, Fehlerrate halbiert). Oft eher nur logarithmische Annäherung an
Maximum
•
•
•
Die andere Frage ist nach der Zielstellung: Wenn ein Algorithmus eine
Struktur erkennen soll, reicht weniger, als wenn er wenigstens 10.000 korrekte
Einträge in diese Struktur finden soll (z.B. Wortklassen)
Hängt mit der einfacheren Frage zusammen, wie viel Text beobachtet werden
muss, um das 50.001ste verschiedene Wort zu entdecken (Zipfsches Gesetz)
Generell ist hängt Antwort sowohl von Sprache als auch von der Qualität des
Algorithmus an, wie auch davon, wie sehr die zu beobachtende Struktur von
anderen abhängt und wie deutlich sie überhaupt ausgeprägt ist. (z.B. Genus
schwächer im Deutschen als im Tschechischen)
WS 05/06
Automatische Akquisition linguistischen Wissens
28
4.3. Balanciertheit, Repräsentativität
Die zweite Frage beim Erstellen eines Korpus stellt sich nach Inhalt, bzw.
dass das Korpus repräsentativ für die jeweilige Sprache sein soll und
Balanciert
• representative: A single item of information that is representative of a
type (WordNet)
– Somit muss nicht jedes Element eines „Typs“ vorkommen
– Allerdings genügend Elemente, um einen „Typ“ von allen anderen
unterscheiden zu können
– Repräsentativität kann auch gegenüber Perzeption verstanden werden, also
Zeitung vs. Fernseher vs. Radio vs. Literatur (Czech National Corpus)
– … oder gegenüber Textkategorien (Brown and British National Corpus)
• balance: harmonious arrangement or relation of parts or elements
within a whole (WordNet)
– Versuch, einige Gesichtspunkte wie Textkategorien gegeneinander zu
balancieren, so dass nicht eins über- oder unterrepräsentiert ist
WS 05/06
Automatische Akquisition linguistischen Wissens
29
4.3.1. Einfluss von nicht-Repräsentativität
Es ist wichtig, sich Gedanken über die Effekte von Nicht-repräsentativität
• Wenn z.B. „nur“ ein Zeitungstextkorpus genommen wird, was bedeutet das für
Ergebnisse von
–
–
–
–
–
•
Textklassifizierungsalgorithmen
Sachgebietsklassifizierung
Wortklassenerkennung
Morphologiezerlegung
Extraktion von Redewendungen
Oft ist Domänenspezifischkeit explizit gewollt:
– z.B. Wenn eine Versicherungsfirma ein Emailklassifizierungsprogramm installiert
ist es evtl. nicht wichtig, dass dieses genau zwischen Wirbel- und Wirbellosen
Tieren unterscheiden kann
– Diese Domänenabhängigkeit ist mit einem Korpus von Dokumenten aus dieser
Domäne automatische gegeben.
•
Die Schwierigkeit gestaltet sich eher darin, ein Korpus zu gestalten, auf
welchem Algorithmen für jedermann intuitive Resultate liefern würden
– da „jedermann“ durchaus unterschiedliche Individuen bezeichnet und
– „Badezimmersituationen“ schwer in Korpora abbildbar sind
WS 05/06
Automatische Akquisition linguistischen Wissens
30
4.4. Komplettheit
• Können zwei Korpora Repräsentativ für eine Sprache sein, wenn sie
nicht einen einzigen Satz/Text gemeinsam haben?
– Streng mathematisch: Ja, wenn die Definition einer Stichprobe
zugrundegelegt wird: (Eine Umfrage, die 1000 zufällig gewählte
Menschen befragt wird entspr. Auch auf das gleiche Ergebnis kommen,
wie eine Umfrage, die andere 1000 Menschen befragt)
• Ab wann ist ein Korpus „komplett“ bezüglich der gewünschten zu
beobachtenden Regelmäßigkeiten?
– Test, ob ein Korpus bereits komplett genug ist: Wenn Algorithmus auf
einer zufällig zusammengestellten Hälfte des Korpus zu vergleichbaren
Ergebnissen kommen, wie auf anderer Hälfte
– Wenn allerdings z.B. die „gelernten“ Sachgebiete sich auf beiden Hälften
stark unterscheiden, ist das (nur) ein Hinweis darauf, dass Gesamtkorpus
noch nicht repräsentativ ist
• Ebenfalls wichtig zu wissen, ob ein Phänomen nur ein Spezifikum
eines Korpus darstellt
– z.B. wenn alle Text mit Dear … oder Hello, beginnen, handelt es sich um
einen Emailkorpus und daraus kann nicht abgeleitet werden, dass alle Text
in dieser Sprache so anfangen!
WS 05/06
Automatische Akquisition linguistischen Wissens
31
4.5. Diachronisch vs. synchronisch
• Gewöhnlicherweise wird bei Erstellung eines Korpus darauf
geachtet, Texte aus einem möglichst engen Zeitraum
auszuwählen
– Dadurch wird z.B. Bedeutungsänderung von Wörtern größtenteils
vermieden
– Historische Änderungen durch Lautverschiebungen und ähnliches
muß ebenfalls nicht berücksichtigt werden
• Andererseits ist es mitunter gerade von Interesse,
historische Änderungen qualitativ und quantitativ zu erfassen
– z.B. Für Neuauflage des Dornseiff mussten nicht mehr
gebräuchliche Wörter entfernt und neue aufgenommen werden
(Schwierigkeit bestand auch darin, dass entspr. Alter
Vergleichskorpus nicht vorhanden war)
– Oder auch direkter Nutzen siehe Wörter des Tages:
http://wortschatz.uni-leipzig.de/wort-des-tages
WS 05/06
Automatische Akquisition linguistischen Wissens
32
Zusammenfassung
• Die Erkenntnis von Sprache als strukturiertes System hat zu der
Möglichkeit geführt, Sprache unabhängig von kognitiven
Prozessen als auch von der Welt in der sie entstand zu
untersuchen
• Die Verfügbarkeit von Computern ermöglicht aufwändigste
Algorithmen, die den Lernprozess des Menschen teilweise
simulieren
• Allgemeine Prinzipien von Sprache können nach und nach in
ein System implementiert werden, welches idealerweise auch
mit neuen, bisher ungesehenen Sprachen zurecht kommt
• Eventuell muss eine neue Unterscheidung eingeführt werden,
bei der zunächst ein Algorithmus die Struktur entdeckt und ein
darauf folgender Algorithmus diese Struktur mit (möglichst
allen) Elementen befüllt
WS 05/06
Automatische Akquisition linguistischen Wissens
33
WS 05/06
Automatische Akquisition linguistischen Wissens
34
Herunterladen