Wintersemester 01/02 Vorlesung: Einführung in die Computerlinguistik Hans Uszkoreit © 2000 Hans Uszkoreit Übersicht des ersten Teils Aufgaben und Einordnung des Faches Motivationen für die Modellierung menschlicher Sprache Computerlinguistik als eine moderne Sprachwissenschaft Repräsentationen und Verarbeitungskomponenten © 2001 Hans Uszkoreit EINSTIEG Faszination Wissenschaft Technologie © 2001 Hans Uszkoreit Faszination Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt. Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem Satz ausdrücken können. Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren zehntausende von Wörtern und eine komplexe Gramnmatik lernt. © 2001 Hans Uszkoreit NACHBARWISSENSCHAFTEN Linguistik Informatik © 2001 Hans Uszkoreit Psychologie NACHBARWISSENSCHAFTEN Linguistik Psycholinguistik Computerlinguistik Informatik © 2001 Hans Uszkoreit KI Psychologie Die Disziplin Computerlinguistik im weiteren Sinne ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres Forschungsgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprachen beschäftigt. Computerlinguistik im engeren Sinne ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle menschlicher Sprache entwirft, implementiert und untersucht. © 2001 Hans Uszkoreit Die Disziplin Theoretische Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, zum Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen Theorien beizutragen. Angewandte Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen. © 2001 Hans Uszkoreit Sprachliche Kommunikation © 2001 Hans Uszkoreit Sprachliche Kommunikation © 2001 Hans Uszkoreit Sprachliche Kommunikation © 2001 Hans Uszkoreit Sprachliche Kommunikation © 2001 Hans Uszkoreit Sprachliche Kommunikation © 2001 Hans Uszkoreit Grammatik Schallwellen © 2001 Hans Uszkoreit Aktivation von Konzepten Grammatik Schallwellen © 2001 Hans Uszkoreit Grammatik Aktivation von Konzepten Grammatik Schallwellen © 2001 Hans Uszkoreit Grammatik Aktivation von Konzepten Grammatik Schallwellen © 2001 Hans Uszkoreit Grammatik Aktivation von Konzepten Grammatik S VP NP NP V NP Det N A N Sue gave Paul an old penny. Schallwellen © 2001 Hans Uszkoreit Grammatik Aktivation von Konzepten Grammatik Semantikkonstruktion S VP NP NP V NP Det N A N Sue gave Paul an old penny. Phonologie/Morphologie Schallwellen © 2001 Hans Uszkoreit Grammatik Aktivation von Konzepten Grammatik S VP NP NP V NP Det N A N Sue gave Paul an old penny. Schallwellen © 2001 Hans Uszkoreit Grammatik Aktivation von Konzepten Grammatik S VP NP NP V NP Det N A N Sue gave Paul an old penny. Schallwellen © 2001 Hans Uszkoreit Grammatik Aktivation von Konzepten Verwandte Begriffe Maschinelle Sprachverarbeitung Analyse und Generierung von natürlicher Sprache mit dem Computer. Englisch: Natural Language Processing (NLP). Sprachtechnologie(n) Übergriff für die Technologien sprachbeherrschender Systeme. Ingenieurwissenschaftliches Forschungsgebiet, in dem die Sprachtechnologien entwickelt werden. Linguistische Datenverarbeitung (LDV) Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich sowohl mit der Anwendung von Methoden der Datenverarbeitung für die linguistische Forschung als auch mit maschineller Sprachverarbeitung beschäftigt. Die LDV versteht sich heute als ein Gebiet, das die Computerlinguistik einschließt. Sprachdatenverarbeitung Verarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: mono- und multilinguale Textverarbeitung, elektronische Wörterbücher, Konkordanzen, Terminologiebanken, maschinelle und maschinengestützte Übersetzung. © 2001 Hans Uszkoreit Motivationen sprachwissenschaftliches Interesse Modelle der Grammatik ingenieurwissenschaftliches Interesse kognitionswissenschaftliches Interesse sprachtechnologische Anwendungen Modelle der menschlichen Sprachfähigkeit © 2001 Hans Uszkoreit Motivationen sprachwissenschaftliche Interessen CL ingenieurwissenschaftliche Interessen © 2001 Hans Uszkoreit kognitionswissenschaftliche Interessen Motivationen Modelle der Grammatik sprachwissenschaftliche Interessen ingenieurwissenschaftliche Interessen sprachtechnologische Anwendungen © 2001 Hans Uszkoreit kognitionswissenschaftliche Interessen Modelle der menschlichen Sprachfähigkeit Linguistik Die Linguistik ist eine "moderne", synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen untersucht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt. (H. Bußmann "Lexikon der Sprachwissenschaft") © 2001 Hans Uszkoreit Teilgebiete der Linguistik Nach Beschreibungsebenen • • • • • • Phonetik Phonologie Morphologie Syntax Semantik Pragmatik/Text/Diskurs Andere Teildisziplinen • • • • • • Psycholinguistik Neurolinguistik Historische Linguistik Sozio- und Ethnolinguistik, Dialektologie Mathematische Linguistik © 2001 Hans Uszkoreit ASPEKTE DER SPRACHE SPRACHLICHES WISSEN Was sind die Inhalte und Strukturen dieses unbewußten Wissens? SPRACHVERARBEITUNG Wie produzieren und verstehen wir sprachliche Äußerungen? SPRACHERWERB Wie lernt das Kind seine Muttersprache? SPRACHWANDEL Wie entstehen Sprachen, Dialekte, Soziolekte? © 2001 Hans Uszkoreit Kompetenz und Performanz Sprachliche Kompetenz: die endliche strukturierte Wissensbasis, die es den Sprechern einer Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu generieren und zu interpretieren. Sprachliche Performanz: die Generierung oder Interpretation realer Äußerungen, bzw. die Gesamtheit der Prozesse, die beteiligt sind, wenn der Mensch auf der Basis der sprachlichen Kompetenz reale Äußerungen generiert und interpretiert. © 2001 Hans Uszkoreit Kompetenzmodell Ein Kompetenzmodell sollte beinhalten: Regeln, Prinzipien, Beschränkungen auf jeder Beschreibungsebene, die in ihrem Zusammenwirken genau die wohlgeformten Sätze der Sprache charakterisieren. Es bietet für jede Sprache eine formalisierte endliche Definition einer unendlichen Menge von Paaren <Satz, Bedeutung>. (Dazu gehören: Grammatik, Lexikon, morphologische Regeln, semantische Regeln.) © 2001 Hans Uszkoreit Performanzmodell Ein Performanzmodell sollte erklären: warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen © 2001 Hans Uszkoreit Performanzkriterien efficiency liefern Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu accuracy Fähigkeit, linguistisch korrekte Lösungen zu liefern robustness Fähigkeit, mit allen möglichen Eingaben fertigzuwerden coverage größtmögliche Abdeckung der Grammatik specificity Fähigkeit, die intendierte Analyse zu selegieren © 2001 Hans Uszkoreit Textverstehen akustische Form phonetische Verarbeitung geschriebene Form orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung © 2001 Hans Uszkoreit Repräsentation der vollen Bedeutung Diktat akustische Form phonetische Verarbeitung geschriebene Form orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation das Boot auf dem Main syntaktische Verarbeitung oder daß bot auf dem mein syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung © 2001 Hans Uszkoreit Repräsentation der vollen Bedeutung Maschinelle Übersetzung akustische Form phonetische Verarbeitung geschriebene Form orthographische Verarbeitung phonetische o. graphemische Repräsentation morphonologische Verarbeitung morphonologische Repräsentation syntaktische Verarbeitung syntaktische Repräsentation semantische Verarbeitung semantische Repräsentation pragmatische Verarbeitung - Wissensverarbeitung © 2001 Hans Uszkoreit Repräsentation der vollen Bedeutung Beispiele Grammatikfehler und Sprechfehler: Das Verfassen der Kinderbücher und der Reiseberichte haben dem Autor viel Ruhm eingebracht. Die Poxen zum Backen... Holzwegsätze: The canoe floated down the river sank. Er bezichtigte den Vater des Schreibens unkundiger Kinder. Peter beschuldigte sie der Geheimniskrämerei ähnlichen Verhaltens. © 2001 Hans Uszkoreit Ambiguität phonetische Ambiguität (Homophone) Miene - Mine orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär © 2001 Hans Uszkoreit Ambiguität syntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität Könnten Sie die Aufgabe lösen. © 2001 Hans Uszkoreit Ambiguität I phonetische Ambiguität (Homophone) Miene - Mine orthographische Ambiguität (Homographen) übersetzen - übersetzen lexikalische Ambiguität (Homonyme) Ball - Ball morphologische Ambiguität Staubecken - Staubecken Hauptpostsekretär © 2001 Hans Uszkoreit Lexikalische Ambiguität Gewisse Lesarten sind weniger stark präferiert: Auf dem Tisch lag ein Heft. Ich habe einen Stift gefunden. gesucht. Auf der Werkbank lag ein Heft. Ich habe einen jungen Stift Die Präferenz für eine Lesart kann durch den Kontext beeinflußt werden: Der Mittelstürmer eröffnete den Ball. versus Ball. Der Präsident eröffnete den Der Gärtner sprengte das Schloß. das Schloß. versus Der Einbrecher sprengte The astronomer married a star. a star. versus The movie director married © 2001 Hans Uszkoreit Ambiguität II syntaktische Ambiguität Peter fuhr seinen Freund sturzbetrunken nach Hause. Visiting relatives can be boring. Ich traf den Sohn des Nachbarn mit dem Gewehr. kompositionell-semantische Ambiguität Die zwei Mitarbeiter müssen vier Sprachen beherrschen. pragmatische Ambiguität Könnten Sie die Aufgabe lösen. © 2001 Hans Uszkoreit Ambiguität beim Parsing In fast allen realen Situationen sind Sätze hochgradig ambig. Beispiel: Grammatik: deutsche LFG-Grammatik von Christian Rohrer Parser: XLE Parser von XEROX PARC (Kaplan, Maxwell, Shemtov,...) Korpus: Teilmenge des NEGRA Korpus Frankfurter Rundschau (Saarbrücken) Satzlänge: ca. 16 Wörter Ambiguität: >3000 Lesarten pro Satz (durch heuristische Präferenzen reduziert auf 7 Lesarten) © 2001 Hans Uszkoreit Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ © 2001 Hans Uszkoreit Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen. © 2001 Hans Uszkoreit Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A) Ambiguitäten auf, die uns nicht auffallen. Wieviele Lesarten besitzt dieser Satz? 258.048 © 2001 Hans Uszkoreit Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Das berechnet sich so: L Früher kann sowohl eigenständiges Adverb als auch Komparativ von früh sein (2); L die Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2); S die Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des Satzes sein (2); S am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3); S mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der Herstellung sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven (3); L her hat auch eine direktionale Bedeutung (2); © 2001 Hans Uszkoreit Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Und weiter: S der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4); S sowohl die als auch ihre Männer kann Subjekt des Relativsatzes sein (2); A das Possessivpronomen ihre kann auf jede der Nominalphrasen referieren (4); L Montagen hat eine zweite Lesart als Nominalisierung von montieren (2); S die Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die Käuferin bezeichnen (2); S die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7); L verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2). © 2001 Hans Uszkoreit Ambiguität (Beispiel) „Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem Markt im Zentrum der Hauptinsel verkauften.“ Durch Multiplikation ergibt sich die Gesamtambiguität: 2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048 © 2001 Hans Uszkoreit Wir wollen wissen... warum viele ungrammatische Sätze erzeugt werden z.B. Sprechfehler, Grammatikfehler warum viele ungrammatische Sätze verstanden werden z.B. in der der Kommunikation mit Kindern oder Ausländern warum viele grammatische Sätze nicht erzeugt werden z.B. durch Präferenzen in der Generierung warum viele grammatische Sätze nicht verstanden werden z.B. Holzwegsätze wie die Verarbeitung zeitlich strukturiert ist z.B. Effizienz, Abfolge der Verarbeitungsschritte welchen Aufwand die Verarbeitungsschritte erfordern z.B. Abhängigkeiten von anderen kognitiven Belastungen © 2001 Hans Uszkoreit Gedächtnisbelastung Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab. © 2001 Hans Uszkoreit Gedächtnisbelastung Der Wissenschaftler schrieb zwei Bücher über den Ursprung der menschlichen Sprache, die in vielen Fernsehsendungen diskutiert wurden, ab. © 2001 Hans Uszkoreit Hauptansätze der CL statistische und konnektionistische Methoden in der CL deklarative linguistische Formalismen in der CL spezielle Verfahren für die CL direkte Programmierung, keine Trennung von Beschreibung und Verarbeitung 1950 © 2001 Hans Uszkoreit 1960 1970 1980 1990 Direkte Programmierung Direkte Programmierung in einer traditionellen Programmiersprache. Keine Trennung von Kompetenz und Performanz, also auch keine Trennung von Grammatik und Verarbeitung Beispiele : SYSTRAN, SHRDLU, frühe SFB 100 Systeme Kompetenzmodellierung: als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung linguistisch uninteressant, schwer erweiterbar Performanzmodellierung: als Modelle theoretisch uninteressant, weil mit der Kompetenz vermischt, keine Ansätze zur Integration psycholinguistischer Erkenntnisse Anwendungspotential: einige wenige Systeme sind zur Anwendungsreife gelangt (z.B. SYSTRAN), fast nicht mehr erweiterbar, für neue Entwicklungen nicht geeignet © 2001 Hans Uszkoreit Spezielle Verfahren Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Trennung von Kompetenz und Performanz, vielfach noch immer Vermischung von Wissen und Verarbeitung Beispiele: Augmented Transition Networks (ATN), Augmented Phrase Structure Grammar (APSG), EUROTRA Framework Kompetenzmodellierung: verschieden von den Modellen der Linguistik, als linguistische Modelle theoretisch wenig interessant, vielfach Vermischung mit prozeduralen Elementen Performanzmodellierung: wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik, Hindernis ist das Fehlen plausibler Kompetenzmodelle Anwendungspotential: fast alle der heute marktreifen Systeme gehören zu dieser Klasse (z.B. METAL, Q&A) © 2001 Hans Uszkoreit Deklarative Formalismen Deklarative Grammatikformalismen, in denen sich linguistische Grammatikmodelle und Einzelanalysen kodieren lassen. Dadurch Aufhebung der Trennung von theoretischer Linguistik und Computerlinguistik. Beispiele: fast alle Unifikationsgrammatikmodelle, neuere semantische Formalismen Kompetenzmodellierung: deklarative linguistisch fundierte Modelle; unabhängig von Verarbeitungsrichtung, Verarbeitungsreihenfolge und Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente Modularisierung und Hierarchisierung des Wissens Performanzmodellierung: deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt die Verarbeitung durch Typdeduktion; bisher keine plausiblen Kompetenzmodelle Anwendungspotential: noch keine marktreifen System, bisher noch mangelnde Effizienz © 2001 Hans Uszkoreit Statistische u. konnektionistische Verfahren Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Models), und in der maschinellen Übersetzung; massiv-paralleler Ansatz zur Modellierung der neuronalen Strukturierung des menschlichen Hirns. Beispiele: Hidden Markov Models (HMM), Parsing mit neuronalen Netzen Kompetenzmodellierung: für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert, keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der Rekursivität Performanzmodellierung: Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein, Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätze Anwendungspotential: großes Potential in der akustischen Spracherkennung und in der akustischen Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in der linguistischen Verarbeitung © 2001 Hans Uszkoreit Exkurs: Vorzüge und Nachteile der deklarativen Ansätze © 2001 Hans Uszkoreit Deklarative Formalismen 2 Linguistische Grammatikmodelle: Â Generalized Phrase Structure Grammar (GPSG), Â Lexical Functional Grammar (LFG), Â Head-Driven Phrase Structure Grammar (HPSG), Â Categorial Unification Grammar (CUG), Computerlinguistische Formalismen: Â FUG Â PATR Â STUF Â TFS Â CUF Â TDL © 2001 Hans Uszkoreit Exkurs: Probleme des neuronalen Ansatzes Wenn ein Teil der sprachlichen Kompetenz angeboren ist, dann kann der Spracherwerb nicht alleine durch neuronale Lernverfahren modelliert werden. Der Mensch erlernt viele Arten der Sprachverwendung (Performanztypen). Er scheint jedoch die einmal erworbene Kompetenz immer weiter zu verwenden. Selbst wenn das System den Anforderungen des Erstspracherwerbs technisch gewachsen wäre, müßte die Maschine eine ähnliche Sprachsozialisation wie der Mensch durchlaufen, was aus vielen Gründen nicht möglich ist. Rekursion stellt ein Problem für neuronale Netze dar. © 2001 Hans Uszkoreit Mitteleinbettungen Der Mann, der die Katze beobachtete, staunte. Der Mann, der die Katze, die den Vogel jagte, beobachtete, staunte. Der Mann, der die Katze, die den Vogel, der laut schrie, jagte, beobachtete, staunte. © 2001 Hans Uszkoreit Mitteleinbettungen Der Hammer, mit dem der Handwerker, den Peter angerufen hatte, die Nägel einschlug, war mindestens drei Pfund schwer. © 2001 Hans Uszkoreit Beobachtungen Peter hat den Wagen, der seit Tagen vor der Haustür steht, gekauft. Peter hat den Wagen gekauft, der seit Tagen vor der Haustür steht. Peter hat den Wagen, der vor der Haustür steht, langsam und sorgfältig lackiert. Peter hat den Wagen langsam und sorgfältig lackiert, der vor der Haustür steht. Der Mann hat dem Jungen, der aus der Schule kam, den Ball gegeben. Der Mann hat dem Jungen den Ball gegeben, der aus der Schule kam. © 2001 Hans Uszkoreit Dependenzen Kleine Kinder brauchen viel Liebe Peter gab dem Jungen den Ball © 2001 Hans Uszkoreit Kleine Kinder brauchen viel Liebe Dependenzen weil Peter dem Jungen den Ball, der vor der Haustür lag, gab weil Peter dem Jungen den Ball gab , der vor der Haustür lag © 2001 Hans Uszkoreit Das Problem der Sprachbeherrschung ist zu komplex KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN Worterkennung Morphologie Sprachtiefe Syntax Semantik Pragmatik Wissensverarbeitung Gegenstandsbereiche Sprachumfang Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen! © 2001 Hans Uszkoreit Sprachtechnologie und WWW Die Sprache in der multimedialen Informationsgesellschaft Die Mehrsprachigkeit des WWW Probleme der Informationssuche Das Potential der Sprachtechnologie Multilinguale Suche und Navigation © 2001 Hans Uszkoreit Sprache im WWW Sprache ist nur ein Medium auf dem WWW. Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status. Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am besten mit Sprache. Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen. Die Sprache ist das Gewebe des World Wide Web © 2001 Hans Uszkoreit Menschliche Sprache Die Sprache hat Seiten, die dem Menschen leichtfallen, dem Computer hingegen schwer. Insbesondere: Ambiguität: viele Wörter und Phrasen haben mehrere Bedeutungen Paraphrasen: es gibt viele Möglichkeiten, das Gleiche auszudrücken Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf © 2001 Hans Uszkoreit Heutige Suchtechnologie Wort-Index Boolsche Kombinationen verschiedene Indexierungsverfahren eingeschränkte Morphologie Order your free beer today More than 35 terabytes served Lyca Surcha surch the web for: sweat AND tears First 10 of 45.677 matches: Sortierung nach Relevanz Suche in mehreren Sprachen 1. research in mutlilingual IR an easier... 2. Sir Winston S. Churchill homepage of... 3. Shinjuku Yamabuki B$h$&$3$=;%5! 4. 60s Rock Timeline remember the best... © 2001 Hans Uszkoreit Probleme für heutige Suchmaschinen Sie finden nicht genug! Andere Wortformen der Herzog, des Herzogs, die Herzöge Unter- und Überbegriffe Alfa Romeo Zagato roadster sports car car motor vehicle vehicle Paraphrasen steuerliche Gründe, Steuergründe, steuerliche Erwägungen, steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ... © 2001 Hans Uszkoreit Paraphrasen: Ein kleines Experiment Nehmen wir an, Sie suchten nach Automobilfirmen und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff “Automobilfirmen” Im Englischen suchten Sie nach: “automobile companies” © 2001 Hans Uszkoreit Paraphrasen: Ein kleines Experiment automobile companies © 2001 Hans Uszkoreit 704 Automobilfirmen 55 Paraphrasen: Ein kleines Experiment automobile companies car builders car makers auto makers automobile makers car companies cars companies motor companies auto companies car manufacturers motor manufacturers automobile manufacturers manufacturers of cars manufacturers of autos manufacturers of automobiles manufacturers of motor vehicles © 2001 Hans Uszkoreit 704 233 1846 2307 181 3046 14 194 1345 3056 582 4263 151 15 165 55 Automobilfirmen Autohersteller Autobauer Autoproduzenten Autofabrikant Autofirmen Pkw Hersteller Automobilunternehmen Automobilhersteller Kfz-Hersteller Autounternehmen Automobilkonzerne Unternehmen der Automobilbranche Hersteller von Autos Hersteller von Automobilen Hersteller von Kraftfahrzeugen 55 320 131 26 89 86 15 57 602 42 9 83 4 4 13 3 Weitere Probleme Sie finden zu viel! Ambiguität deutsch: Zug, Bahn, Leitung, Schalter englisch: terminal, line, engine Polysemie Buch, Schule, printer Eigennamen Personennamen: Maurer, Washington, Chase Ortsbezeichnungen: Essen, Halle, Bismarck © 2001 Hans Uszkoreit Das Web ist mutlilingual Das WWW war anfangs vorherrschend monolingual (1994 - 96% aller WWW Seiten englisch) Nicht-englische Inhalte nehmen schneller zu. (1996 - 91% englisch, heute ca. 85%) © 2001 Hans Uszkoreit GLOBALIZATION OF THE USER BASE Share of US Web Users 100 90 80 70 60 50 40 30 20 10 0 80 65 40 1991 © 2001 Hans Uszkoreit US Web Users in % 55 1995 1998 2000 Source: Computer Industry Almanac Inc. January 1998 Relevante Faktoren Entwicklung vom Avantgardemedium zum Massenmedium Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt) Digitalisierung großer Bibliotheken in vielen Ländern Rolle des WWW als globaler Handelsplatz Rolle des WWW als Medium für politische Information und Propaganda Zunahme sozialer und kultureller Inhalte Die Zukunft des WWW ist vielsprachig. © 2001 Hans Uszkoreit Noch mehr Probleme! Andere Schriftsysteme müssen kodiert und dargestellt werden: Chinesisch, Japanisch, Arabisch, Griechisch,... Die Wortbildungsregeln der Sprachen geraten sich ins Gehege: Skat Limes skating lime Sprachübergreifende Ambiguität stört bei der Suche: Brief Post Porto Haut cute © 2001 Hans Uszkoreit brief overview post messages Porto travel information Haut Barr cute girls Multilingualität als Herausforderung Eine große Chance tut sich auf: Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen. Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden Gebieten: lexikalische Semantik konzeptuelle Strukturierung Verbesserungen in maschineller Übersetzung © 2001 Hans Uszkoreit Maschinelle Übersetzung Die vollautomatische maschinelle Übersetzung (fully automatic maschine translation – FAMT) beliebiger Texte ist heute nicht möglich. Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am fehlenden Wissen der Maschine über die Inhalte. Für sehr eingeschränkte Gegenstandsbereiche und Textarten können aber brauchbare Übersetzungen geliefert werden. Ansonsten dient die maschinelle Übersetzung heute erfolgreich als Vorstufe für menschliche Übersetzung (machine-assisted human translation – MAHT). © 2001 Hans Uszkoreit MÜ ist dennoch brauchbar Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute also nicht möglich. Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl das Thema und die wesentlichsten Inhalte erkennen lassen. Wir arbeiten mit dem Übersetzungssystem LOGOS. Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für WWW Anwendungen eingesetzt. Die Übersetzungen nennen wir indikative Übersetzungen. © 2001 Hans Uszkoreit Indikative Übersetzung © 2001 Hans Uszkoreit Multilinguale Navigation multilinguale Schnittstelle für die Navigation multilinguale Suche mehrsprachiges Angebot im Web © 2001 Hans Uszkoreit Mulinex Konsortium Das Konsortium Bertelsman n DATAMAT ingegneriadeisistemi Deutsches Forschungszentrum für Künstliche Intelligenz GmbH TRADOS © Hans Uszkoreit 1998 © 2001 Hans Uszkoreit mulinex: die englische Suchseite © 2001 Hans Uszkoreit mulinex: englische Eingabe © 2001 Hans Uszkoreit mulinex: Einschränkung der Suche © 2001 Hans Uszkoreit mulinex: Anzeige © 2001 Hans Uszkoreit mulinex: Anzeige (Ausschnitt) © 2001 Hans Uszkoreit mulinex: Zusammenfassung © 2001 Hans Uszkoreit Konzeptindex car © 2001 Hans Uszkoreit Konzeptindex Personenauto Auto Automobil © 2001 Hans Uszkoreit car Konzeptindex Personenauto Auto Automobil car ...Kraftfahrzeuge für Personen... © 2001 Hans Uszkoreit Konzeptindex automobile auto car Personenauto Auto Automobil car ...Kraftfahrzeuge für Personen... © 2001 Hans Uszkoreit Konzeptindex automobile auto car Personenauto Auto Automobil car ...Kraftfahrzeuge für Personen... © 2001 Hans Uszkoreit ...location de voitures... Konzeptindex motor vehicle automobile auto car car Personenauto Auto Automobil sports car ...Kraftfahrzeuge für Personen... © 2001 Hans Uszkoreit truck tank truck ...location de voitures... Konzeptindex BenötigteTechnologien: Sprachidentifikation Lexikalische Desambiguierung Flache syntaktische Analysetechniken Aufbau eines phrasalen Index multilinguale Terminologien Paraphrasen-Glossare © 2001 Hans Uszkoreit Ausblick Die Strukturierung des digitalen menschlichen Wissens ist eine der großen Herausforderungen des nächsten Jahrhunderts. Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige Vorhaben, denn die Sprache ist das Gewebe des Wissens. © 2001 Hans Uszkoreit Sprachtechnologien im Überblick © 2001 Hans Uszkoreit Sprachtechnologie in der Wirtschaft © 2001 Hans Uszkoreit