Theoretische Grundlagen 1. Ziele 2. Empirie vs. Introspektion 1. C. S. Peirce 2. de Saussure 3. L. Hjelmslev 3. Hypothesen 4. Sampling: Repräsentativität und Balanciertheit von Korpora WS 05/06 Automatische Akquisition linguistischen Wissens 1 1. Ziele • Erstellung und Vervollständigung von Sprachressourcen hat Tradition, die mehrere Jahrhunderte zurückreicht: – Ursprünglich hauptsächlich mit normativem Charakter – Vorwiegend Sammlungen von Wortlisten evtl. mit kurzen Erläuterungen – Wörterbücher • Ziel von Linguisten war auch die Sprache als Objekt zu beschreiben und untersuchbar zu machen – Dabei rückten immer weitere Bereiche der Sprache in das Blickfeld der Forscher: Wortliste mit Belegstellen, Grammatiken, Phonologie, Textstrukturen usw. – Mit dem Beginn der „Chomsky-Ära“ besonderer Augenmerk auf zunehmende umfangreichere Grammatikregelsammlungen WS 05/06 Automatische Akquisition linguistischen Wissens 2 1.1. Einfluss der Computerverfügbarkeit • Später zunehmende Verfügbarkeit von Rechnern und ihrer Kapazität • Damit Wandlung von Untersuchung von Sprache von theoretischer Übung (mit vereinzelten Applikationen wie in früher Psycholinguistik) hin zu Anwendungen • Erste Anwendungen im Information Retrieval: – Wortliste für Index und – Grundformreduzierung für Komprimierung des Index – Thesaurus für Suchanfragenerweiterungen • Weitere Anwendungen folgten, wie – Rechtschreibkontrolle – Bibliotheksverwaltungen (Taxonomien, Stichworte) – … WS 05/06 Automatische Akquisition linguistischen Wissens 3 1.2. Großrechensysteme • In den 70er und 80er Jahren Mainframes und Großrechensysteme: – entsprechend gering nahmen sich die Kosten für die Erstellung von Ressourcen wie Taxonomien, Thesauri u.ä. neben den Kosten für die Konstruktion und Betrieben der Systeme aus. – Die Auswahl der betreffenden Sprachen gering: Englisch und vielleicht noch Deutsch/Spanisch/Französisch • Gleichzeitiger Einfluss der „Chomskianer“ führte zu einem überproportionalem Fluss der Mittel in die Erforschung von Parsern und Sprachgenerierern, die zunehmend Grammatik beherrschten, sonst aber nichts – Aber auch dafür teils gigantischer Aufwand an manueller Arbeit für Trainingsmengen und/oder Regelmengen • Bis dahin nur wenig alternative Forschung: Zipf 40er, Firth, Harris 50er, 60er WS 05/06 Automatische Akquisition linguistischen Wissens 4 1.3. Personal Computers • In den 90er bis zur heutigen Zeit mehrere Faktoren: – Abnehmende Bedeutung von Großrechensystemen zugunsten von Personal Computers (PCs) – Explosionsartig wachsende Textmengen – Entsprechend wachsende Anwendungsbereiche und Bedarf für Sprachtechnologie – Zunehmende Verschiedensprachlichkeit • Mit neuen Sprachen kamen auch neue Probleme, die in bewährte Konzepte nicht mehr passten – Ernüchterung über Sprachtechnologie (siehe Verbmobil), speziell über was sich mit einem perfekten Grammatiksystem überhaupt erreichen lässt • … führten zu einem stetigen wiederaufleben Empiriebasierter, d.h. Korpusbasierter Forschung und möglichst automatischen Ansätzen zur Ressourcengewinnung WS 05/06 Automatische Akquisition linguistischen Wissens 5 1.4. Aktuelle Zielstellungen • Erstellung von möglichst umfangreichen Sprachressourcen unter Einsatz von möglichst wenig manueller Arbeit – Dafür (fast) beliebig viel Rechenleistung – Auch (fast) beliebig viel Text, dieser aber größtenteils roh • Art des linguistischen Wissens, bzw. Struktur der Sprache: – – – – – Grammatik Wortklassen, Textstrukturen Wortbedeutungen, Redewendungen Synonyme, Meronyme, Antonyme, … auch weniger hilfreiche Ressourcen wie Merkmalsmatrizen für Dependenzgrammatiken • Ziel ist also die Entwicklung von Methoden, mit den sich möglichst viele Sorten der Ressource „linguistisches Wissen“ aus dem billigen Rohstoff „Text“ extrahieren lässt WS 05/06 Automatische Akquisition linguistischen Wissens 6 2. Empirie vs. Introspektion • Introspektion: – Annahme der Existenz einer Universalgrammatik, die es zu entdecken gilt – Basierend auf dem eigenen Verständnis von Sprache versuchen, diese umfassend zu verstehen und zu beschreiben – Ergebnis: „Beschreibung“ in Form eines Regelwerks oder Algorithmus, welcher in der Lage ist, Sprache korrekt zu verarbeiten (generieren, verstehen, entscheiden ob etwas korrekt ist usw.) (und das ganze verallgemeinerbar auf andere Sprachen) • Empirie: – Basierend auf einer endlich großen Beobachtung versuchen, diese umfassend zu verstehen und zu beschreiben (wie Dekodierung einer chiffrierten Nachricht) – Ergebnis: Komplette Beschreibung aller Strukturen einer Sprache WS 05/06 Automatische Akquisition linguistischen Wissens 7 2.1. „Strukturalismus“ • Beschreibung aller Strukturen • Bedeutung von Einheiten ergeben sich aus Struktur, bzw. Benutzung oder Bezug zu anderen Einheiten und ist somit berechenbar Wittgenstein: TPL 3.326: Um das Symbol am Zeichen zu erkennen, muss man auf den sinnvollen Gebrauch achten • Wie Puzzle: Ich gehe nach Hause. Jdi hfif obdi Ibvtf. Ich schwimme nach Hause. Jdi tdixjnnf obdi Ibvtf. Ich renne nach Hause. Jdi sfoof obdi Ibvtf. • Mit brute force wie beim Puzzle jedoch nicht lösbar, da zu komplex und im Gegensatz zum Puzzle keine eindeutige Lösung WS 05/06 Automatische Akquisition linguistischen Wissens 8 2.2. Charles Sanderson Peirces Sprachwissenschaft Peirce vor allem Logiker (führte Wahrheitstabellen ein, führte Standardnotation für Wahrheitslogik erster Ordnung ein) Methode: Abduktion („Wo Rauch ist, ist Feuer“) als Vorstufe zu Induktion (Vom einzelnen auf’s Allgemeine) und Deduktion (Vom Allgemeinen auf’s einzelne) Bedeutung ist mehrschichtig: • Monadische, erste Ordnung und zweite Ordnung Relationen • Zeichen, existiert in einer monadischen Relation zu sich selbst • Als zweite Schicht gibt es die Relationen erster Ordnung wie ZeichenObjekt, Zeichen-Interpretant und Interpretant-Objekt, diese weiter unterteilt in – ikonische Relationen – Indexische Relationen – Symbolische Relationen • Als dritte Schicht die triadische Relation zweiter Ordnung ZeichenInterpretant-Objekt WS 05/06 Automatische Akquisition linguistischen Wissens 9 2.2.1. Peirce II • Ein Interpretant ist unterteilt in mehrere verschiedene Typen: – Unmittelbarer Interpretant: direkte Wahrnehmung, hat mit der unmittelbaren Bedeutung/Wert des z.B. Objekts zu tun – Dynamischer Interpretant: Alles mögliche, was eine Person von einem Zeichen in einem spezifischen Kontext ableiten kann – Logischer Interpretant: Ist die Wirkung von Zeichen, dass sie selbst wiederum für andere Zeichen stehen können • Wird auch zu Strukturalisten gezählt, weil eine gegenseitige Abhängigkeit der Bedeutungen von Wörtern vorschlug – „Struktur“ der Bedeutung zwischen einzelnen Wörtern – Wenn die Bedeutung eines Wortes sich ändert, ändert sich geringfügig auch die Bedeutung der mit diesem in Relation stehenden • Aber wird auch insb. von Chomsky gern als „Vater“ seiner UG gesehen WS 05/06 Automatische Akquisition linguistischen Wissens 10 2.3. Ferdinand de Saussures „Cours de Linguistique“ • Sprache ist ein „Objekt“ und kann als solches untersucht werden • Jede linguistische Einheit ist strukturiert und Bestandteil einer Struktur und steht in syntagmatischen (eher in konkreten Äußerungen) und assoziativen (paradigmatischen) Relationen (eher allgemein) zu anderen • Es gibt sprachliche Ebenen (Phonologie, Morphologie, Wortebene, Satzebene usw.) und die syntagmatischen und paradigmatischen Prinzipien gelten für jede Ebene – Ein Haus ge-geb-en – Ein Gedicht ge-schrieb-en • Sprache ist dynamisches System (Bedeutung eines Wortes hängt mit Bedeutungen anderer Wörter zusammen) • Gleichzeitig statisches System (synchronisch) und kontinuierliche Entwicklung (diachronisch) WS 05/06 Automatische Akquisition linguistischen Wissens 11 2.4. Louis Hjelmslevs Formulierter als erster 74! explizit das Strukturalistische Prinzip, wobei Jakobson ca. 1928 oder 1929 in den Travaux du Cercle Linguistique de Prague diesen Begriff als erster Verwendete Ziel der Linguistik ist die Exploration von Sprachlichen Systemen, welche nur indirekt beobachtbar sind. Durch derartige Explorationen sollte man ein Kalkül (Verwendung fast Synonym zu Algorithmus) erhalten, welches es erlaubt, alle Möglichkeiten von Kombinationen von sprachlichen Einheiten zu Sinnvollen Einheiten zu berechnen. • Ziel ist die Erstellung der Beschreibung einer Sprache • Die Beschreibung muss Widerspruchsfrei und so einfach wie möglich sein • Die Vollständigkeit ist wichtiger als das Abhandensein von Widersprüchen Nur unter Verwendung der richtigen empirischen Mittel kann es möglich sein, das Kalkül zu finden. Seine Formulierungen schließen allerdings diachronische Entwicklung von Sprache im großen und ganzen aus. WS 05/06 Automatische Akquisition linguistischen Wissens 12 2.5. Begründer des Strukturalismus: Unterschiede Peirce De Saussure •Bedeutung: 3 Teile –Zeichen –Objekt –Interpretant/ Konzept •Zeichen 2 Teile, Konzepte und Laut/Zeichenbilder Hjelmslev •Bedeutung: 3 Teile –Zeichen –Objekt –Interpretant/ Konzept Bedeutung dynamisch •Unterteilung von Sprache in mehrere Sprachlevels •Dabei paradigmatische und syntagmatische Relationen als Grundprinzipien auf jedem Level WS 05/06 Automatische Akquisition linguistischen Wissens 13 2.6. Empirie: Zusammenfassung • Beobachten: unabhängige Experimente, um die untersuchte Sprache auf Einzelaspekte und Zusammenhänge zu untersuchen. – Ziel ist möglichst viele Effekte zu finden – Mindestens so viele Beobachtungen, um Verallgemeinerungen zuverlässig zu ermöglichen – d.h. nicht alle möglichen Beobachtungen müssen erfolgen • Lernen: Regelmäßigkeiten verallgemeinern, Hypothesen formulieren, um Gründe für die Zusammenhänge und Regelmäßigkeiten zu finden • Verifizieren: Alle Hypothesen müssen stets verifiziert werden – Ein gelerntes System kann nie als wirklich vollständig verstanden werden, höchstens aktuell WS 05/06 Automatische Akquisition linguistischen Wissens 14 E. Welche Mittel? Aufgabe: Bestimmen Sie für jede Sprache welches die korrekten Übersetzungen sind. Deutsch Englisch Tschechisch Spanisch Russisch Bahnhof book já estación вокзал Buch I kniha libro книга Ich train-station nádraží yo я • Alphabetische Sortierung hilft gar nicht • Dafür aber Wortlänge – aber nur in diesem Beispiel Welche Mittel sind universell einsetzbar? WS 05/06 Automatische Akquisition linguistischen Wissens 15 E.1. Weitere einfache Mittel: Frequenz Läßt sich vielleicht Frequenz nutzen? • Fluß 7013 • Flußbett 419 • Flußbecken 6 • Flußbebauungen 1 Oder für Übersetzungen? Deutsch 24Mio Englisch 13Mio Bahnhof 13776 book 35097 Buch 72809 I 431454 Ich 551784 train-station 15356* Dampf 2363 steam 6671 WS 05/06 Automatische Akquisition linguistischen Wissens 16 3. Hypothesen • Komplexer ist das Generieren von Hypothesen: • Ausgehend von Beobachtungen Regelmäßigkeiten feststellen und versuchen, ein Modell zu konstruieren, welches korrekte Voraussagen trifft und die Regelmäßigkeiten allen erklärt • Beispiel: -e Suffix im Deutschen – Frage: Wann tritt es auf, wann nicht? – Schule, Sonne, Plätze, Schirme, … – Schule, Sonne, Platz, Schirm, … • Vermutung: Es gibt ein Merkmal, welches bei manchen Wörtern dafür sorgt, dass der –e Suffix in manchen Kontexten auftritt – Plural – aber warum tritt es bei manchen Wörtern immer auf? – Genus • Wie gelangt man zu diesen Erkenntnissen? WS 05/06 Automatische Akquisition linguistischen Wissens 17 3.1. Generelle vs. Spezifische Hypothesen • Generelle Hypothesen, die vermutlich immer und für jede Sprache gelten, aber so generell sind, dass sie nicht unmittelbar „nützlich“ sind: – – – – Sprache ist ein System mit Struktur Prinzip der Linearität Prinzip der Arbitrarität Daraus abgeleitet syntagmatische und paradigmatische Relationen, bzw. das Prinzip der Konkatenation und Abstraktion – Prinzip der Redundanz – Prinzip des geringsten Aufwandes (Zipfsches Gesetz) – Diachrone vs. Synchrone Sprachwissenschaft • Dagegen stehen Hypothesen, die nur für eine Sprache oder Sprachfamilie gelten und die gilt es, automatisch generieren zu lassen WS 05/06 Automatische Akquisition linguistischen Wissens 18 3.1.1. Struktur der Sprache • Dass Sprache ein strukturiertes System ist, ist heute evtl. offensichtlich, war aber nicht immer so • Lange Zeit bis de Saussure und den Junggrammatikern (in Leipzig!) folgende Auffassung: – Wörter sind eine Liste von Zeichen, die mehr oder weniger eins zu eins mit Objekten in der Welt verbunden sind – Sprachliche Äußerungen durch Grammatik definiert – Alle Sprachen funktionieren alle mehr oder weniger wie die IndoGermanischen – Historische Grammatik war Hauptuntersuchungsgegenstand und man versuchte Grammatik einer jeweiligen Sprache als von ultimativ Sanskrit abstammend darzustellen, unter (mit Einhergang der Aufklärung) Beachtung von „nationalen“ Eigenheiten WS 05/06 Automatische Akquisition linguistischen Wissens 19 3.1.2. Linearität • Phoneme, Morpheme, Wörter usw. werden beim Sprechen in eine lineare Form gebracht – Weil nicht mehrere gleichzeitig produziert und auch nicht verarbeitet werden können – Erklärungen warum das der Fall ist uneinheitlich (Frage: Wenn unser Sprechapparat mehrere Phonome/Wörter gleichzeitig produzieren könnte, würden wir nicht-lineare Sprache sprechen?) – Wahrnehmung ist jedoch nicht linearisiert – Linearität dient lediglich der Kodierung von Nachrichten. Allerdings entspricht Linearität von Nachrichten auch unserer Gedanken verkettenden Denkweise, was ein Grund für die intuitive Form von Sprache sein könnte • Es gibt Hinweise oder Versuche, Abweichungen von diesem Prinzip zu finden – z.B.: Linearität liegt auch den generativen Grammatiken zugrunde – etwas, was Chomsky lange nicht wahrhaben wollte (lt. Roy Harris), allerdings alle Transformationsregeln haben das Ziel, eine sog. Oberflächenstruktur zu produzieren, die linear ist. Wenn es das Ziel nicht gäbe, würden voraussichtlich auch die Regeln nicht existieren Siehe auch Good03.pdf auf Webseite WS 05/06 Automatische Akquisition linguistischen Wissens 20 3.1.3. Arbitrarität • Form von Zeichen hat im Allgemeinen nichts mit den Eigenschaften oder dem Objekt selbst zu tun, mit welchem es assoziiert wird – Dass viele Sprachen ein sehr ähnliches Wort für z.B. Katze (kot, kocka, cat, kitten, …) verwenden hat lediglich historischen Ursprung! – Allerdings kann in einem bestehenden System nicht eine arbiträre Änderung vorgenommen werden, bzw. sie würde nicht akzeptiert. Sie ist es unter Umständen möglich ein neues Wort einzuführen wie „nachbokatzt“, aber auf keinen Fall „sdkkflllwre“ • Sprache ist ein Code, auf den sich alle Sprecher einigen und der in dem aktiven Sprachgebrauch in „Einvernehmen“ verändert werden kann. WS 05/06 Automatische Akquisition linguistischen Wissens 21 3.1.4. Sprachliche Ebenen Struktur der Sprache setzt sich aus mehreren Ebenen zusammen und auf jeder Ebene gibt es • Konkatenation, generiert lineare Struktur – Regeln ermöglichen Eingrenzung von Möglichkeiten und stellen aller Wahrscheinlichkeit nach etwas wie eingeschliffene Verhaltensmuster dar: Ein Garten kann vielfältige Arten umgegraben werden, wenn man sich aber an eine gewöhnt hat, wird man immer diese benutzen • Abstraktion, ermöglicht Selektion über Abstraktionsklassen – Stellt alle Arten von Ähnlichkeitsassoziationen dar • Katze ist etwas ähnliches wie Hund, allerdings auf andere Art und Weise als • Schraubenschlüssel und Spaten, was schwächer ist, als • Schraube und Mutter • Die beiden Prinzipien gelten für jede einzelne sprachliche Ebene WS 05/06 Automatische Akquisition linguistischen Wissens 22 3.1.5. Redundanz • Warum reicht es nicht, „Peter Haus verl“ zu sagen, um auszusagen, dass Peter das Haus vor 5 min verlassen hat, um zur Arbeit zu gehen? – Rauschen (Fahrzeuggeräusche, Türklappern, Wind, …) sorgt dafür, dass eigentlich nur Bruchstücke des gesagten beim Zuhörer ankommen – Zuhörer evtl. nicht informiert über Kontext • „Peter hat sein eigenes Haus vor 5 Minuten *** und ging ***, um ein Geld zu verdienen“ – Obwohl in diesem Fall zwei Wörter komplett verloren gegangen sind, kann ein Zuhörer den Inhalt des Satzes rekonstruieren – Der Rekonstruktionsprozess wird selbst dann erfolgreich sein, wenn Zuhörer über Kontext nicht informiert war WS 05/06 Automatische Akquisition linguistischen Wissens 23 3.1.6. Prinzip des geringsten Aufwandes Laut George Kingsley Zipf: • Optimal für den Sprecher: Der Sprecher würde am liebsten alles mit einem Wort sagen – Leider müssten sich beide Sprecher und Zuhörer unendlich viele Wörter merken • Optimal für den Zuhörer: Wenn alles genauestens gesagt wird, so dass er kaum Arbeit beim Verstehen hat. – Leider müssten beide ziemlich lange beschäftigt sein, zu reden und zuzuhören jeweils • Jede Äußerung stellt daher Optimale Abwägung zwischen wie viel muss der Sprecher sagen, so dass der Zuhörer es gerade noch versteht – Damit gehen viele Gesetzmäßigkeiten einher, wie Verteilung von Worthäufigkeiten, Strukturen, Wendungen etc. – Wenn alle Wörter gleich häufig wären, müssten beide Zuhörer und Sprecher alle kennen, denn schon 10% fehlende Wörter würde ein Verständnis stark erschweren. – Wenn jedoch Zipfsche Verteilung zugrunde liegt und Sprecher 100.000 Wörter kennt, während Zuhörer nur 10.000 (also 90% nicht kennt!!), ist Verständnis immer noch möglich, da die 10.000 eine über 95% Textabdeckung garantieren! WS 05/06 Automatische Akquisition linguistischen Wissens 24 3.1.7. Diachron vs. synchron • Dass Wort Fenster selbst hat historischen Ursprung im Lateinischen • Dass es allerdings Fenster wie Meister und Muster heißt statt *Fenschter, *Meischter und *Muschter lässt sich eher im derzeitigen Zustand des Gesamtsystems der derzeitigen Sprache erklären • Entgegen vielen Fehlinterpretationen heißt das allerdings nicht, dass wenn das synchrone System untersucht wird, dass die diachronen Faktoren keine Rolle spielen – im Gegenteil, sie sollen gerade, allerdings auch als solche beachtet werden • Allerdings da ein Mensch normalerweise auch eine Sprache lernen kann, ohne Ursprünge überhaupt zu kennen, sollte es auch möglich sein, entspr. Algorithmen zu erstellen WS 05/06 Automatische Akquisition linguistischen Wissens 25 4. Sampling • Um Regelmäßigkeiten beobachten zu können und darüber Verallgemeinerungen anstellen zu können, muss die jeweilige Sprache als beobachtbarer Gegenstand vorliegen – – – – Als Erzählung, sprechen Auf Papier vor allem seit der Erfindung des Massendrucks Auf Tonband seit Erfindung von Aufnahmetechniken Elektronisch seit es Computer gibt • Derzeitig am einfachsten, wenn komplett elektronisch verfügbar, am ähnlichsten den Lernumständen eines Kindes von Tonaufzeichnungen – Allerdings direkt von Tonaufzeichnungen lernen zu lassen ist Unsinn, da auch das Kind zunächst Unterscheidung von Phonemen, Morphemen und Wörtern lernt WS 05/06 Automatische Akquisition linguistischen Wissens 26 4.1. Annotationen und Evaluation • Da ein Korpus dazu verwendet werden soll, davon automatisch Algorithmen lernen zu lassen, ist Annotation (der zu lernenden Strukturen) eigentlich überflüssig. • Jedoch stellt sich nach dem Lernschritt die Frage, wie gut denn das Ergebnis war. • Ergebnis kann mit manuell erstellten (Teil-)Annotation verglichen werden und unter der Annahme, dass Annotationen richtig waren (nicht selbstverständlich!), kann dann bestimmt werden, ob Algorithmus „gut“ funktioniert hat – Gut bedeutet dann entsprechend den Erwartungen, die in Form von Annotationen definiert wurde • Allerdings gibt es auch andere indirekte Wege der Evaluierung (z.B. Applikationsbasiert oder direkte Stichprobenbasierte Bewertung d. Ergebnisse) • Standard ist jedoch Grundlegende Annotation von Text-, Absatz-, Satzund Wortgrenzen und für den Fall von Tonaufnahmen eine oder mehrere Transkriptionen WS 05/06 Automatische Akquisition linguistischen Wissens 27 4.2. Korpusgröße Eine der ersten Fragen, die sich stellen, ist die erforderliche Korpusgröße • Natürlich ist intuitiv mehr besser. – Allerdings nicht immer: Korpus aus 50% Zeitungs- und 50% Literatur verdreifachen durch Zeitungstext: Balance 16% Literatur und 84% Zeitung! – Wenn Algorithmus z.B. 80% Precision auf (Trainings)Korpus der Größe X erreicht, und Korpus auf 2*X verdoppelt wird, dann wird er Alg. nicht doppelt so gut (also 90% Precision, Fehlerrate halbiert). Oft eher nur logarithmische Annäherung an Maximum • • • Die andere Frage ist nach der Zielstellung: Wenn ein Algorithmus eine Struktur erkennen soll, reicht weniger, als wenn er wenigstens 10.000 korrekte Einträge in diese Struktur finden soll (z.B. Wortklassen) Hängt mit der einfacheren Frage zusammen, wie viel Text beobachtet werden muss, um das 50.001ste verschiedene Wort zu entdecken (Zipfsches Gesetz) Generell ist hängt Antwort sowohl von Sprache als auch von der Qualität des Algorithmus an, wie auch davon, wie sehr die zu beobachtende Struktur von anderen abhängt und wie deutlich sie überhaupt ausgeprägt ist. (z.B. Genus schwächer im Deutschen als im Tschechischen) WS 05/06 Automatische Akquisition linguistischen Wissens 28 4.3. Balanciertheit, Repräsentativität Die zweite Frage beim Erstellen eines Korpus stellt sich nach Inhalt, bzw. dass das Korpus repräsentativ für die jeweilige Sprache sein soll und Balanciert • representative: A single item of information that is representative of a type (WordNet) – Somit muss nicht jedes Element eines „Typs“ vorkommen – Allerdings genügend Elemente, um einen „Typ“ von allen anderen unterscheiden zu können – Repräsentativität kann auch gegenüber Perzeption verstanden werden, also Zeitung vs. Fernseher vs. Radio vs. Literatur (Czech National Corpus) – … oder gegenüber Textkategorien (Brown and British National Corpus) • balance: harmonious arrangement or relation of parts or elements within a whole (WordNet) – Versuch, einige Gesichtspunkte wie Textkategorien gegeneinander zu balancieren, so dass nicht eins über- oder unterrepräsentiert ist WS 05/06 Automatische Akquisition linguistischen Wissens 29 4.3.1. Einfluss von nicht-Repräsentativität Es ist wichtig, sich Gedanken über die Effekte von Nicht-repräsentativität • Wenn z.B. „nur“ ein Zeitungstextkorpus genommen wird, was bedeutet das für Ergebnisse von – – – – – • Textklassifizierungsalgorithmen Sachgebietsklassifizierung Wortklassenerkennung Morphologiezerlegung Extraktion von Redewendungen Oft ist Domänenspezifischkeit explizit gewollt: – z.B. Wenn eine Versicherungsfirma ein Emailklassifizierungsprogramm installiert ist es evtl. nicht wichtig, dass dieses genau zwischen Wirbel- und Wirbellosen Tieren unterscheiden kann – Diese Domänenabhängigkeit ist mit einem Korpus von Dokumenten aus dieser Domäne automatische gegeben. • Die Schwierigkeit gestaltet sich eher darin, ein Korpus zu gestalten, auf welchem Algorithmen für jedermann intuitive Resultate liefern würden – da „jedermann“ durchaus unterschiedliche Individuen bezeichnet und – „Badezimmersituationen“ schwer in Korpora abbildbar sind WS 05/06 Automatische Akquisition linguistischen Wissens 30 4.4. Komplettheit • Können zwei Korpora Repräsentativ für eine Sprache sein, wenn sie nicht einen einzigen Satz/Text gemeinsam haben? – Streng mathematisch: Ja, wenn die Definition einer Stichprobe zugrundegelegt wird: (Eine Umfrage, die 1000 zufällig gewählte Menschen befragt wird entspr. Auch auf das gleiche Ergebnis kommen, wie eine Umfrage, die andere 1000 Menschen befragt) • Ab wann ist ein Korpus „komplett“ bezüglich der gewünschten zu beobachtenden Regelmäßigkeiten? – Test, ob ein Korpus bereits komplett genug ist: Wenn Algorithmus auf einer zufällig zusammengestellten Hälfte des Korpus zu vergleichbaren Ergebnissen kommen, wie auf anderer Hälfte – Wenn allerdings z.B. die „gelernten“ Sachgebiete sich auf beiden Hälften stark unterscheiden, ist das (nur) ein Hinweis darauf, dass Gesamtkorpus noch nicht repräsentativ ist • Ebenfalls wichtig zu wissen, ob ein Phänomen nur ein Spezifikum eines Korpus darstellt – z.B. wenn alle Text mit Dear … oder Hello, beginnen, handelt es sich um einen Emailkorpus und daraus kann nicht abgeleitet werden, dass alle Text in dieser Sprache so anfangen! WS 05/06 Automatische Akquisition linguistischen Wissens 31 4.5. Diachronisch vs. synchronisch • Gewöhnlicherweise wird bei Erstellung eines Korpus darauf geachtet, Texte aus einem möglichst engen Zeitraum auszuwählen – Dadurch wird z.B. Bedeutungsänderung von Wörtern größtenteils vermieden – Historische Änderungen durch Lautverschiebungen und ähnliches muß ebenfalls nicht berücksichtigt werden • Andererseits ist es mitunter gerade von Interesse, historische Änderungen qualitativ und quantitativ zu erfassen – z.B. Für Neuauflage des Dornseiff mussten nicht mehr gebräuchliche Wörter entfernt und neue aufgenommen werden (Schwierigkeit bestand auch darin, dass entspr. Alter Vergleichskorpus nicht vorhanden war) – Oder auch direkter Nutzen siehe Wörter des Tages: http://wortschatz.uni-leipzig.de/wort-des-tages WS 05/06 Automatische Akquisition linguistischen Wissens 32 Zusammenfassung • Die Erkenntnis von Sprache als strukturiertes System hat zu der Möglichkeit geführt, Sprache unabhängig von kognitiven Prozessen als auch von der Welt in der sie entstand zu untersuchen • Die Verfügbarkeit von Computern ermöglicht aufwändigste Algorithmen, die den Lernprozess des Menschen teilweise simulieren • Allgemeine Prinzipien von Sprache können nach und nach in ein System implementiert werden, welches idealerweise auch mit neuen, bisher ungesehenen Sprachen zurecht kommt • Eventuell muss eine neue Unterscheidung eingeführt werden, bei der zunächst ein Algorithmus die Struktur entdeckt und ein darauf folgender Algorithmus diese Struktur mit (möglichst allen) Elementen befüllt WS 05/06 Automatische Akquisition linguistischen Wissens 33 WS 05/06 Automatische Akquisition linguistischen Wissens 34