VLCL 2001 - Computerlinguistik

Werbung
Wintersemester 01/02
Vorlesung: Einführung in die Computerlinguistik
Hans Uszkoreit
© 2000 Hans Uszkoreit
Übersicht des ersten Teils
 Aufgaben und Einordnung des Faches
 Motivationen für die Modellierung menschlicher Sprache
 Computerlinguistik als eine moderne Sprachwissenschaft
 Repräsentationen und Verarbeitungskomponenten
© 2001 Hans Uszkoreit
EINSTIEG
Faszination
Wissenschaft
Technologie
© 2001 Hans Uszkoreit
Faszination
Mehr noch als Denken ist die Sprache eine Fähigkeit, die nur der Mensch besitzt.
Es ist ein Wunder, wie wir in Sekundenschnelle komplexe Gedanken in einem
Satz ausdrücken können.
Es ist nicht weniger erstaunlich, wie das Kind in nur wenigen Jahren
zehntausende von Wörtern und eine komplexe Gramnmatik lernt.
© 2001 Hans Uszkoreit
NACHBARWISSENSCHAFTEN
Linguistik
Informatik
© 2001 Hans Uszkoreit
Psychologie
NACHBARWISSENSCHAFTEN
Linguistik
Psycholinguistik
Computerlinguistik
Informatik
© 2001 Hans Uszkoreit
KI
Psychologie
Die Disziplin
Computerlinguistik im weiteren Sinne
ist ein zwischen Linguistik und Informatik liegendes interdisziplinäres Forschungsgebiet,
das sich mit der maschinellen Verarbeitung natürlicher Sprachen beschäftigt.
Computerlinguistik im engeren Sinne
ist ein Teilgebiet der modernen Linguistik, das berechenbare Modelle menschlicher
Sprache entwirft, implementiert und untersucht.
© 2001 Hans Uszkoreit
Die Disziplin
Theoretische Computerlinguistik
entwirft, implementiert und untersucht die Modelle mit dem Ziel, zum
Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden
linguistischen und psychologischen Theorien beizutragen.
Angewandte Computerlinguistik
entwirft, implementiert und untersucht die Modelle mit dem Ziel,
Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte)
Beherrschung menschlicher Sprache verfügen.
© 2001 Hans Uszkoreit
Sprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche Kommunikation
© 2001 Hans Uszkoreit
Sprachliche Kommunikation
© 2001 Hans Uszkoreit
Grammatik
Schallwellen
© 2001 Hans Uszkoreit
Aktivation von Konzepten
Grammatik
Schallwellen
© 2001 Hans Uszkoreit
Grammatik
Aktivation von Konzepten
Grammatik
Schallwellen
© 2001 Hans Uszkoreit
Grammatik
Aktivation von Konzepten
Grammatik
Schallwellen
© 2001 Hans Uszkoreit
Grammatik
Aktivation von Konzepten
Grammatik
S
VP
NP
NP
V
NP Det N
A
N
Sue gave Paul an old penny.
Schallwellen
© 2001 Hans Uszkoreit
Grammatik
Aktivation von Konzepten
Grammatik
Semantikkonstruktion
S
VP
NP
NP
V
NP Det N
A
N
Sue gave Paul an old penny.
Phonologie/Morphologie
Schallwellen
© 2001 Hans Uszkoreit
Grammatik
Aktivation von Konzepten
Grammatik
S
VP
NP
NP
V
NP Det N
A
N
Sue gave Paul an old penny.
Schallwellen
© 2001 Hans Uszkoreit
Grammatik
Aktivation von Konzepten
Grammatik
S
VP
NP
NP
V
NP Det N
A
N
Sue gave Paul an old penny.
Schallwellen
© 2001 Hans Uszkoreit
Grammatik
Aktivation von Konzepten
Verwandte Begriffe
Maschinelle Sprachverarbeitung
Analyse und Generierung von natürlicher Sprache mit dem Computer. Englisch:
Natural Language Processing (NLP).
Sprachtechnologie(n)
Übergriff für die Technologien sprachbeherrschender Systeme.
Ingenieurwissenschaftliches Forschungsgebiet, in dem die Sprachtechnologien
entwickelt werden.
Linguistische Datenverarbeitung (LDV)
Traditionell ein Teilgebiet der elektronischen Datenverarbeitung, das sich sowohl mit
der Anwendung von Methoden der Datenverarbeitung für die linguistische Forschung
als auch mit maschineller Sprachverarbeitung beschäftigt. Die LDV versteht sich
heute als ein Gebiet, das die Computerlinguistik einschließt.
Sprachdatenverarbeitung
Verarbeitung von sprachlichen Daten mit dem Computer. Schließt ein: mono- und
multilinguale Textverarbeitung, elektronische Wörterbücher, Konkordanzen,
Terminologiebanken, maschinelle und maschinengestützte Übersetzung.
© 2001 Hans Uszkoreit
Motivationen
sprachwissenschaftliches
Interesse
Modelle der Grammatik
ingenieurwissenschaftliches
Interesse
kognitionswissenschaftliches
Interesse
sprachtechnologische
Anwendungen
Modelle der menschlichen
Sprachfähigkeit
© 2001 Hans Uszkoreit
Motivationen
sprachwissenschaftliche
Interessen
CL
ingenieurwissenschaftliche
Interessen
© 2001 Hans Uszkoreit
kognitionswissenschaftliche
Interessen
Motivationen
Modelle der Grammatik
sprachwissenschaftliche
Interessen
ingenieurwissenschaftliche
Interessen
sprachtechnologische
Anwendungen
© 2001 Hans Uszkoreit
kognitionswissenschaftliche
Interessen
Modelle der
menschlichen
Sprachfähigkeit
Linguistik


Die Linguistik ist eine "moderne", synchron orientierte, auf die interne
Struktur der Sprache bezogene Wissenschaft, die sprachliche
Regularitäten auf allen Beschreibungsebenen untersucht und ihre
Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in
integrierten Modellen darlegt.
(H. Bußmann "Lexikon der Sprachwissenschaft")
© 2001 Hans Uszkoreit
Teilgebiete der Linguistik
 Nach Beschreibungsebenen
•
•
•
•
•
•
Phonetik
Phonologie
Morphologie
Syntax
Semantik
Pragmatik/Text/Diskurs
 Andere Teildisziplinen
•
•
•
•
•
•
Psycholinguistik
Neurolinguistik
Historische Linguistik
Sozio- und Ethnolinguistik,
Dialektologie
Mathematische Linguistik
© 2001 Hans Uszkoreit
ASPEKTE DER SPRACHE
SPRACHLICHES WISSEN
Was sind die Inhalte und Strukturen dieses unbewußten Wissens?
SPRACHVERARBEITUNG
Wie produzieren und verstehen wir sprachliche Äußerungen?
SPRACHERWERB
Wie lernt das Kind seine Muttersprache?
SPRACHWANDEL
Wie entstehen Sprachen, Dialekte, Soziolekte?
© 2001 Hans Uszkoreit
Kompetenz und Performanz
 Sprachliche Kompetenz:
 die endliche strukturierte Wissensbasis, die es den Sprechern einer
Sprache ermöglicht, die wohlgeformten Äußerungen der Sprache zu
generieren und zu interpretieren.
 Sprachliche Performanz:
die Generierung oder Interpretation realer Äußerungen, bzw. die
Gesamtheit der Prozesse, die beteiligt sind, wenn der Mensch auf der
Basis der sprachlichen Kompetenz reale Äußerungen generiert und
interpretiert.
© 2001 Hans Uszkoreit
Kompetenzmodell
Ein Kompetenzmodell sollte beinhalten:
Regeln, Prinzipien, Beschränkungen auf jeder
Beschreibungsebene, die in ihrem Zusammenwirken genau die
wohlgeformten Sätze der Sprache charakterisieren.
Es bietet für jede Sprache eine formalisierte endliche Definition
einer unendlichen Menge von Paaren <Satz, Bedeutung>.
(Dazu gehören: Grammatik, Lexikon, morphologische Regeln,
semantische Regeln.)
© 2001 Hans Uszkoreit
Performanzmodell
Ein Performanzmodell sollte erklären:
 warum viele ungrammatische Sätze erzeugt werden
 z.B. Sprechfehler, Grammatikfehler
 warum viele ungrammatische Sätze verstanden werden
 z.B. in der der Kommunikation mit Kindern oder Ausländern
 warum viele grammatische Sätze nicht erzeugt werden
 z.B. durch Präferenzen in der Generierung
 warum viele grammatische Sätze nicht verstanden werden
 z.B. Holzwegsätze
 wie die Verarbeitung zeitlich strukturiert ist
 z.B. Effizienz, Abfolge der Verarbeitungsschritte
 welchen Aufwand die Verarbeitungsschritte erfordern
 z.B. Abhängigkeiten von anderen kognitiven Belastungen
© 2001 Hans Uszkoreit
Performanzkriterien
efficiency
liefern
Fähigkeit, Lösungen mit geringem Zeit- und Speicherbedarf zu
accuracy
Fähigkeit, linguistisch korrekte Lösungen zu liefern
robustness
Fähigkeit, mit allen möglichen Eingaben fertigzuwerden
coverage
größtmögliche Abdeckung der Grammatik
specificity
Fähigkeit, die intendierte Analyse zu selegieren
© 2001 Hans Uszkoreit
Textverstehen
akustische Form
phonetische Verarbeitung
geschriebene Form
orthographische Verarbeitung
phonetische o. graphemische Repräsentation
morphonologische Verarbeitung
morphonologische Repräsentation
syntaktische Verarbeitung
syntaktische Repräsentation
semantische Verarbeitung
semantische Repräsentation
pragmatische Verarbeitung - Wissensverarbeitung
© 2001 Hans Uszkoreit
Repräsentation der vollen Bedeutung
Diktat
akustische Form
phonetische Verarbeitung
geschriebene Form
orthographische Verarbeitung
phonetische o. graphemische Repräsentation
morphonologische Verarbeitung
morphonologische Repräsentation
das Boot auf dem Main
syntaktische Verarbeitung
oder
daß bot auf dem mein
syntaktische Repräsentation
semantische Verarbeitung
semantische Repräsentation
pragmatische Verarbeitung - Wissensverarbeitung
© 2001 Hans Uszkoreit
Repräsentation der vollen Bedeutung
Maschinelle
Übersetzung
akustische Form
phonetische Verarbeitung
geschriebene Form
orthographische Verarbeitung
phonetische o. graphemische Repräsentation
morphonologische Verarbeitung
morphonologische Repräsentation
syntaktische Verarbeitung
syntaktische Repräsentation
semantische Verarbeitung
semantische Repräsentation
pragmatische Verarbeitung - Wissensverarbeitung
© 2001 Hans Uszkoreit
Repräsentation der vollen Bedeutung
Beispiele
 Grammatikfehler und Sprechfehler:
 Das Verfassen der Kinderbücher und der Reiseberichte haben dem
Autor viel Ruhm eingebracht.
 Die Poxen zum Backen...
 Holzwegsätze:
 The canoe floated down the river sank.
 Er bezichtigte den Vater des Schreibens unkundiger Kinder.
 Peter beschuldigte sie der Geheimniskrämerei ähnlichen Verhaltens.
© 2001 Hans Uszkoreit
Ambiguität
phonetische Ambiguität (Homophone)
Miene - Mine
orthographische Ambiguität (Homographen)
übersetzen - übersetzen
lexikalische Ambiguität (Homonyme)
Ball - Ball
morphologische Ambiguität
Staubecken - Staubecken
Hauptpostsekretär
© 2001 Hans Uszkoreit
Ambiguität
syntaktische Ambiguität
Peter fuhr seinen Freund sturzbetrunken nach Hause.
Visiting relatives can be boring.
Ich traf den Sohn des Nachbarn mit dem Gewehr.
kompositionell-semantische Ambiguität
Die zwei Mitarbeiter müssen vier Sprachen beherrschen.
pragmatische Ambiguität
Könnten Sie die Aufgabe lösen.
© 2001 Hans Uszkoreit
Ambiguität I
phonetische Ambiguität (Homophone)
Miene - Mine
orthographische Ambiguität (Homographen)
übersetzen - übersetzen
lexikalische Ambiguität (Homonyme)
Ball - Ball
morphologische Ambiguität
Staubecken - Staubecken
Hauptpostsekretär
© 2001 Hans Uszkoreit
Lexikalische Ambiguität
Gewisse Lesarten sind weniger stark präferiert:
Auf dem Tisch lag ein Heft.
Ich habe einen Stift gefunden.
gesucht.
Auf der Werkbank lag ein Heft.
Ich habe einen jungen Stift
Die Präferenz für eine Lesart kann durch den Kontext beeinflußt werden:
Der Mittelstürmer eröffnete den Ball. versus
Ball.
Der Präsident eröffnete den
Der Gärtner sprengte das Schloß.
das Schloß.
versus
Der Einbrecher sprengte
The astronomer married a star.
a star.
versus
The movie director married
© 2001 Hans Uszkoreit
Ambiguität II
 syntaktische Ambiguität

Peter fuhr seinen Freund sturzbetrunken nach Hause.

Visiting relatives can be boring.

Ich traf den Sohn des Nachbarn mit dem Gewehr.
 kompositionell-semantische Ambiguität

Die zwei Mitarbeiter müssen vier Sprachen beherrschen.
 pragmatische Ambiguität

Könnten Sie die Aufgabe lösen.
© 2001 Hans Uszkoreit
Ambiguität beim Parsing
In fast allen realen Situationen sind Sätze hochgradig ambig.
Beispiel:
Grammatik:
deutsche LFG-Grammatik von Christian Rohrer
Parser:
XLE Parser von XEROX PARC (Kaplan, Maxwell,
Shemtov,...)
Korpus:
Teilmenge des NEGRA Korpus Frankfurter Rundschau
(Saarbrücken)
Satzlänge: ca. 16 Wörter
Ambiguität: >3000 Lesarten pro Satz
(durch heuristische Präferenzen reduziert auf 7 Lesarten)
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.“
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.“
Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A)
Ambiguitäten auf, die uns nicht auffallen.
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.“
Der Satz weist lexikalische (L), syntaktische (S) und anaphorische (A)
Ambiguitäten auf, die uns nicht auffallen.
Wieviele Lesarten besitzt dieser Satz?
258.048
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.“
Das berechnet sich so:
L Früher kann sowohl eigenständiges Adverb als auch Komparativ von früh sein (2);
L die Verbform stellten is ambig zwischen Präteritum und Konjunktiv (2);
S die Nominalphrase die Frauen kann sowohl Subjekt als auch Objekt des Satzes sein (2);
S am Wochenende kann die Insel, die Frauen oder das Verb modifizieren (3);
S mit Blumenmotiven kann sich auf die Kopftücher beziehen, ein Instrument der
Herstellung
sein oder ein Adjunkt im Sinne von gemeinsam mit Blumenmotiven (3);
L her hat auch eine direktionale Bedeutung (2);
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.“
Und weiter:
S der Relativsatz könnte jede der vier Nominalphrasen im Plural modifizieren (4);
S sowohl die als auch ihre Männer kann Subjekt des Relativsatzes sein (2);
A das Possessivpronomen ihre kann auf jede der Nominalphrasen referieren (4);
L Montagen hat eine zweite Lesart als Nominalisierung von montieren (2);
S die Hauptinsel kann im Genitiv zu der vorangegangenen NP gehören oder im Dativ die
Käuferin bezeichnen (2);
S die drei Präpositionalphrasen des Relativsatzes können sich in insgesamt sieben
Kombinationen mit den jeweils vorhergehenden NPs oder mit dem Verb verbinden (7);
L verkauften zeigt wieder die Ambiguität zwischen Präteritum und Konjunktiv auf (2).
© 2001 Hans Uszkoreit
Ambiguität (Beispiel)
„Früher stellten die Frauen der Inseln am Wochenende Kopftücher mit
Blumenmotiven her, die ihre Männer an den folgenden Montagen auf dem
Markt im Zentrum der Hauptinsel verkauften.“
Durch Multiplikation ergibt sich die Gesamtambiguität:
2 x 2 x 2 x 3 x 3 x 2 x 4 x 2 x 4 x 2 x 2 x 7 x 2 = 258.048
© 2001 Hans Uszkoreit
Wir wollen wissen...
 warum viele ungrammatische Sätze erzeugt werden
 z.B. Sprechfehler, Grammatikfehler
 warum viele ungrammatische Sätze verstanden werden
 z.B. in der der Kommunikation mit Kindern oder Ausländern
 warum viele grammatische Sätze nicht erzeugt werden
 z.B. durch Präferenzen in der Generierung
 warum viele grammatische Sätze nicht verstanden werden
 z.B. Holzwegsätze
 wie die Verarbeitung zeitlich strukturiert ist
 z.B. Effizienz, Abfolge der Verarbeitungsschritte
 welchen Aufwand die Verarbeitungsschritte erfordern
 z.B. Abhängigkeiten von anderen kognitiven Belastungen
© 2001 Hans Uszkoreit
Gedächtnisbelastung
Der Wissenschaftler schrieb zwei Bücher über den
Ursprung der menschlichen Sprache, die in vielen
Fernsehsendungen diskutiert wurden, ab.
© 2001 Hans Uszkoreit
Gedächtnisbelastung
Der Wissenschaftler schrieb zwei Bücher über den
Ursprung der menschlichen Sprache, die in vielen
Fernsehsendungen diskutiert wurden, ab.
© 2001 Hans Uszkoreit
Hauptansätze der CL
statistische und konnektionistische Methoden in der CL
deklarative linguistische
Formalismen in der CL
spezielle Verfahren für die CL
direkte Programmierung, keine
Trennung von Beschreibung und
Verarbeitung
1950
© 2001 Hans Uszkoreit
1960
1970
1980
1990
Direkte Programmierung
Direkte Programmierung in einer traditionellen Programmiersprache.
Keine Trennung von Kompetenz und Performanz, also auch keine Trennung von
Grammatik und Verarbeitung
Beispiele :
 SYSTRAN, SHRDLU, frühe SFB 100 Systeme
Kompetenzmodellierung:
 als Modelle theoretisch uninteressant, nicht überprüfbar, Kodierung linguistisch
uninteressant, schwer erweiterbar
Performanzmodellierung:
 als Modelle theoretisch uninteressant, weil mit der Kompetenz vermischt, keine
Ansätze zur Integration psycholinguistischer Erkenntnisse
Anwendungspotential:
einige wenige Systeme sind zur Anwendungsreife gelangt (z.B. SYSTRAN), fast
nicht mehr erweiterbar, für neue Entwicklungen nicht geeignet
© 2001 Hans Uszkoreit
Spezielle Verfahren
Spezielle Verfahren und Beschreibungssprachen wurden entwickelt. Trennung von
Kompetenz und Performanz, vielfach noch immer Vermischung von Wissen und
Verarbeitung
Beispiele:
 Augmented Transition Networks (ATN), Augmented Phrase Structure
Grammar (APSG), EUROTRA Framework
Kompetenzmodellierung:
 verschieden von den Modellen der Linguistik, als linguistische Modelle
theoretisch wenig interessant, vielfach Vermischung mit prozeduralen
Elementen
Performanzmodellierung:
 wenige aber sehr ernsthafte Versuche, einige Gesichtspunkte der
Performanzmodellierung zu berücksichtigen, Einflüsse der Psycholinguistik,
Hindernis ist das Fehlen plausibler Kompetenzmodelle
Anwendungspotential:
fast alle der heute marktreifen Systeme gehören zu dieser Klasse (z.B. METAL,
Q&A)
© 2001 Hans Uszkoreit
Deklarative Formalismen
Deklarative Grammatikformalismen, in denen sich linguistische Grammatikmodelle
und Einzelanalysen kodieren lassen. Dadurch Aufhebung der Trennung von
theoretischer Linguistik und Computerlinguistik.
Beispiele:
 fast alle Unifikationsgrammatikmodelle, neuere semantische Formalismen
Kompetenzmodellierung:
 deklarative linguistisch fundierte Modelle; unabhängig von
Verarbeitungsrichtung, Verarbeitungsreihenfolge und
Verarbeitungsalgorithmen; logisch fundierte Semantik, transparente
Modularisierung und Hierarchisierung des Wissens
Performanzmodellierung:
 deduktive Verarbeitung; in den fortgeschrittensten Systemen erfolgt die
Verarbeitung durch Typdeduktion; bisher keine plausiblen Kompetenzmodelle
Anwendungspotential:
noch keine marktreifen System, bisher noch mangelnde Effizienz
© 2001 Hans Uszkoreit
Statistische u. konnektionistische Verfahren
Statistische Verfahren in der akustischen Spracherkennung (Hidden Markov Models), und in
der maschinellen Übersetzung; massiv-paralleler Ansatz zur Modellierung der
neuronalen Strukturierung des menschlichen Hirns.
 Beispiele:
Hidden Markov Models (HMM), Parsing mit neuronalen Netzen

 Kompetenzmodellierung:
für die Theoriebildung uninteressant, die Kompetenz ist nicht transparent modelliert,
keine Verbindung zu den Theorien der Linguistik, unzureichende Darstellung der
Rekursivität

 Performanzmodellierung:
Lernverfahren, massive Parallelität könnte Schlüssel zum Effizienzproblem sein,
Potential für die Modellierung linguistischer Präferenzen und anderer unscharfer
Konzepte z.B. in der lexikalischen Semantik, Potential für holistische Ansätze
 Anwendungspotential:
großes Potential in der akustischen Spracherkennung und in der akustischen
Sprachsynthese, für rein statistische oder neuronale Verfahren geringes Potential in
der linguistischen Verarbeitung
© 2001 Hans Uszkoreit
Exkurs: Vorzüge und Nachteile der deklarativen Ansätze
© 2001 Hans Uszkoreit
Deklarative Formalismen 2


Linguistische Grammatikmodelle:
Â
Generalized Phrase Structure Grammar (GPSG),
Â
Lexical Functional Grammar (LFG),
Â
Head-Driven Phrase Structure Grammar (HPSG),
Â
Categorial Unification Grammar (CUG),
Computerlinguistische Formalismen:
Â
FUG
Â
PATR
Â
STUF
Â
TFS
Â
CUF
Â
TDL
© 2001 Hans Uszkoreit
Exkurs: Probleme des neuronalen Ansatzes
Wenn ein Teil der sprachlichen Kompetenz angeboren ist, dann kann der
Spracherwerb nicht alleine durch neuronale Lernverfahren modelliert
werden.
Der Mensch erlernt viele Arten der Sprachverwendung
(Performanztypen). Er scheint jedoch die einmal erworbene
Kompetenz immer weiter zu verwenden.
Selbst wenn das System den Anforderungen des Erstspracherwerbs
technisch gewachsen wäre, müßte die Maschine eine ähnliche
Sprachsozialisation wie der Mensch durchlaufen, was aus vielen
Gründen nicht möglich ist.
Rekursion stellt ein Problem für neuronale Netze dar.
© 2001 Hans Uszkoreit
Mitteleinbettungen
Der Mann, der die Katze beobachtete, staunte.
Der Mann, der die Katze, die den Vogel jagte,
beobachtete, staunte.
Der Mann, der die Katze, die den Vogel, der laut schrie, jagte, beobachtete,
staunte.
© 2001 Hans Uszkoreit
Mitteleinbettungen
Der Hammer, mit dem der Handwerker, den Peter angerufen hatte, die
Nägel einschlug, war mindestens drei Pfund schwer.
© 2001 Hans Uszkoreit
Beobachtungen
Peter hat den Wagen, der seit Tagen vor der Haustür steht, gekauft.
Peter hat den Wagen gekauft, der seit Tagen vor der Haustür steht.
Peter hat den Wagen, der vor der Haustür steht, langsam und sorgfältig
lackiert.
Peter hat den Wagen langsam und sorgfältig lackiert, der vor der Haustür
steht.
Der Mann hat dem Jungen, der aus der Schule kam, den Ball gegeben.
Der Mann hat dem Jungen den Ball gegeben, der aus der Schule kam.
© 2001 Hans Uszkoreit
Dependenzen
Kleine Kinder brauchen viel Liebe
Peter gab dem Jungen den Ball
© 2001 Hans Uszkoreit
Kleine Kinder brauchen viel Liebe
Dependenzen
weil Peter dem Jungen den Ball, der vor der Haustür lag, gab
weil Peter dem Jungen den Ball gab , der vor der Haustür lag
© 2001 Hans Uszkoreit
Das Problem der Sprachbeherrschung ist zu komplex
KEINE SPRACHBEHERRSCHUNG OHNE ALLGEMEINES WISSEN
Worterkennung
Morphologie
Sprachtiefe
Syntax
Semantik
Pragmatik
Wissensverarbeitung
Gegenstandsbereiche
Sprachumfang
Es gibt viele Anwendungen, die nur begrenzte Sprachbeherrschung benötigen!
© 2001 Hans Uszkoreit
Sprachtechnologie und WWW
Die Sprache in der multimedialen Informationsgesellschaft
Die Mehrsprachigkeit des WWW
Probleme der Informationssuche
Das Potential der Sprachtechnologie
Multilinguale Suche und Navigation
© 2001 Hans Uszkoreit
Sprache im WWW
Sprache ist nur ein Medium auf dem WWW.
Aber unter den verschiedenen Medien hat die Sprache einen besonderen Status.
Bücher, Filme, Bilder, Musikstücke und Computerprogramme beschreiben und finden wir am
besten mit Sprache.
Nur mithilfe der Sprache können wir Wissen strukturieren und sinnvoll vernetzen.
Die Sprache ist das Gewebe des World Wide Web
© 2001 Hans Uszkoreit
Menschliche Sprache
Die Sprache hat Seiten, die dem Menschen leichtfallen,
dem Computer hingegen schwer.
Insbesondere:
 Ambiguität:
viele Wörter und Phrasen haben mehrere Bedeutungen
 Paraphrasen:
es gibt viele Möglichkeiten, das Gleiche auszudrücken
 Ungenauigkeit: oft ist die Bedeutung von Ausdrücken unscharf
© 2001 Hans Uszkoreit
Heutige Suchtechnologie
Wort-Index
Boolsche Kombinationen
verschiedene
Indexierungsverfahren
eingeschränkte Morphologie
Order your free beer today
More than 35 terabytes served
Lyca
Surcha
surch the web for: sweat AND tears
First 10 of 45.677 matches:
Sortierung nach Relevanz
Suche in mehreren Sprachen
1. research in mutlilingual IR an easier...
2. Sir Winston S. Churchill homepage of...
3. Shinjuku Yamabuki B$h$&$3$=;%5!
4. 60s Rock Timeline remember the best...
© 2001 Hans Uszkoreit
Probleme für heutige Suchmaschinen
Sie finden nicht genug!
Andere Wortformen
der Herzog, des Herzogs, die Herzöge
Unter- und Überbegriffe
Alfa Romeo Zagato roadster sports car car motor vehicle vehicle
Paraphrasen
steuerliche Gründe, Steuergründe, steuerliche Erwägungen,
steuerliche Überlegungen, fiskalische Erwägungen, um Steuern zu sparen, ...
© 2001 Hans Uszkoreit
Paraphrasen: Ein kleines Experiment
Nehmen wir an, Sie suchten nach Automobilfirmen
und gäben daher der Suchmaschine (z.B. HOTBOT) den Suchbegriff
“Automobilfirmen”
Im Englischen suchten Sie nach:
“automobile companies”
© 2001 Hans Uszkoreit
Paraphrasen: Ein kleines Experiment
automobile companies
© 2001 Hans Uszkoreit
704
Automobilfirmen
55
Paraphrasen: Ein kleines Experiment
automobile companies
car builders
car makers
auto makers
automobile makers
car companies
cars companies
motor companies
auto companies
car manufacturers
motor manufacturers
automobile manufacturers
manufacturers of cars
manufacturers of autos
manufacturers of automobiles
manufacturers of motor vehicles
© 2001 Hans Uszkoreit
704
233
1846
2307
181
3046
14
194
1345
3056
582
4263
151
15
165
55
Automobilfirmen
Autohersteller
Autobauer
Autoproduzenten
Autofabrikant
Autofirmen
Pkw Hersteller
Automobilunternehmen
Automobilhersteller
Kfz-Hersteller
Autounternehmen
Automobilkonzerne
Unternehmen der Automobilbranche
Hersteller von Autos
Hersteller von Automobilen
Hersteller von Kraftfahrzeugen
55
320
131
26
89
86
15
57
602
42
9
83
4
4
13
3
Weitere Probleme
Sie finden zu viel!
Ambiguität
deutsch: Zug, Bahn, Leitung, Schalter
englisch: terminal, line, engine
Polysemie
Buch, Schule, printer
Eigennamen
Personennamen: Maurer, Washington, Chase
Ortsbezeichnungen: Essen, Halle, Bismarck
© 2001 Hans Uszkoreit
Das Web ist mutlilingual
Das WWW war anfangs vorherrschend monolingual
(1994 - 96% aller WWW Seiten englisch)
Nicht-englische Inhalte nehmen schneller zu.
(1996 - 91% englisch, heute ca. 85%)
© 2001 Hans Uszkoreit
GLOBALIZATION OF THE USER BASE
Share of US Web Users
100
90
80
70
60
50
40
30
20
10
0
80
65
40
1991
© 2001 Hans Uszkoreit
US Web Users in %
55
1995
1998
2000
Source: Computer
Industry Almanac Inc.
January 1998
Relevante Faktoren
 Entwicklung vom Avantgardemedium zum Massenmedium
 Ausbreitung in neue Regionen (Lateinamerika, Asien, arabische Welt)
 Digitalisierung großer Bibliotheken in vielen Ländern
 Rolle des WWW als globaler Handelsplatz
 Rolle des WWW als Medium für politische Information und Propaganda
 Zunahme sozialer und kultureller Inhalte
Die Zukunft des WWW ist vielsprachig.
© 2001 Hans Uszkoreit
Noch mehr Probleme!
Andere Schriftsysteme müssen kodiert und dargestellt werden:
Chinesisch, Japanisch, Arabisch, Griechisch,...
Die Wortbildungsregeln der Sprachen geraten sich ins Gehege:
Skat
Limes
skating
lime
Sprachübergreifende Ambiguität stört bei der Suche:
Brief
Post
Porto
Haut
cute
© 2001 Hans Uszkoreit
brief overview
post messages
Porto travel information
Haut Barr
cute girls
Multilingualität als Herausforderung
Eine große Chance tut sich auf:
Es wird möglich sein, durch das niedergeschriebene Wissen der Menschheit zu
navigieren, ohne an der Sprachgrenze stehenbleiben zu müssen.
Diese technologische Herausforderung erfordert aber Fortschritte auf den folgenden
Gebieten:
 lexikalische Semantik
 konzeptuelle Strukturierung
 Verbesserungen in maschineller Übersetzung
© 2001 Hans Uszkoreit
Maschinelle Übersetzung
Die vollautomatische maschinelle Übersetzung (fully automatic maschine
translation – FAMT) beliebiger Texte ist heute nicht möglich.
Das liegt nicht an der linguistischen Verarbeitung der Texte, sondern am
fehlenden Wissen der Maschine über die Inhalte.
Für sehr eingeschränkte Gegenstandsbereiche und Textarten können
aber brauchbare Übersetzungen geliefert werden.
Ansonsten dient die maschinelle Übersetzung heute erfolgreich als
Vorstufe für menschliche Übersetzung (machine-assisted human
translation – MAHT).
© 2001 Hans Uszkoreit
MÜ ist dennoch brauchbar
Eine zufriedenstellende automatische Übersetzung beliebiger Texte ist heute
also nicht möglich.
Aber die Technologie liefert Übersetzungen, die den Leser sehr wohl
das Thema und die wesentlichsten Inhalte erkennen lassen.
Wir arbeiten mit dem Übersetzungssystem LOGOS.
Andere große Übersetzungssysteme (SYSTRAN, METAL) werden ebenfalls für
WWW Anwendungen eingesetzt.
Die Übersetzungen nennen wir indikative Übersetzungen.
© 2001 Hans Uszkoreit
Indikative Übersetzung
© 2001 Hans Uszkoreit
Multilinguale Navigation
multilinguale
Schnittstelle
für die
Navigation
multilinguale
Suche
mehrsprachiges
Angebot im Web
© 2001 Hans Uszkoreit
Mulinex Konsortium
Das Konsortium
Bertelsman
n
DATAMAT
ingegneriadeisistemi
Deutsches
Forschungszentrum
für Künstliche
Intelligenz GmbH
TRADOS
© Hans Uszkoreit 1998
© 2001 Hans Uszkoreit
mulinex: die englische Suchseite
© 2001 Hans Uszkoreit
mulinex: englische Eingabe
© 2001 Hans Uszkoreit
mulinex: Einschränkung der Suche
© 2001 Hans Uszkoreit
mulinex: Anzeige
© 2001 Hans Uszkoreit
mulinex: Anzeige (Ausschnitt)
© 2001 Hans Uszkoreit
mulinex: Zusammenfassung
© 2001 Hans Uszkoreit
Konzeptindex
car
© 2001 Hans Uszkoreit
Konzeptindex
Personenauto
Auto
Automobil
© 2001 Hans Uszkoreit
car
Konzeptindex
Personenauto
Auto
Automobil
car
...Kraftfahrzeuge für Personen...
© 2001 Hans Uszkoreit
Konzeptindex
automobile
auto
car
Personenauto
Auto
Automobil
car
...Kraftfahrzeuge für Personen...
© 2001 Hans Uszkoreit
Konzeptindex
automobile
auto
car
Personenauto
Auto
Automobil
car
...Kraftfahrzeuge für Personen...
© 2001 Hans Uszkoreit
...location de voitures...
Konzeptindex
motor vehicle
automobile
auto
car
car
Personenauto
Auto
Automobil
sports car
...Kraftfahrzeuge für Personen...
© 2001 Hans Uszkoreit
truck
tank truck
...location de voitures...
Konzeptindex
BenötigteTechnologien:

Sprachidentifikation

Lexikalische Desambiguierung

Flache syntaktische Analysetechniken

Aufbau eines phrasalen Index

multilinguale Terminologien

Paraphrasen-Glossare
© 2001 Hans Uszkoreit
Ausblick
Die Strukturierung des digitalen menschlichen Wissens ist eine der
großen Herausforderungen des nächsten Jahrhunderts.
Die Sprachtechnologie ist eine Schlüsseltechnologie für dieses ehrgeizige
Vorhaben,
denn die Sprache ist das Gewebe des Wissens.
© 2001 Hans Uszkoreit
Sprachtechnologien im Überblick
© 2001 Hans Uszkoreit
Sprachtechnologie in der Wirtschaft
© 2001 Hans Uszkoreit
Herunterladen