Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) 15.10.03 Linguistik: Die Linguistik ist eine „moderne“, synchron orientierte, auf die interne Struktur der Sprache bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen untersicht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in integrierten Modellen darlegt. Teilgebiete: · nach beschreibungsebenen Phonetik befasst dich mit den Lauten Phonologie Strukturanalyse, Beschreibung des Lautkontextes Morphologie Lehre der Wortbildung Syntax: Lehre von der Kombinatorik der Wörter Semantik Lehre der Bedeutung, Bedeutung der Wörter Pragmatik / Text / Diskurs Lehre der Sprachverwendung / Struktur der Dialoge, natürlich sprachlich · andere Teilgebiete Historische Linguistik Sozio- und Ethnolinguistik Dialektologie Psychollinguistik Neurolinguistik Mathematische Linguistik Statistische Linguistik/ Korpuslinguistik Die Disziplin: · Theoretische Computerlinguistik entwirft, implementiert und untersicht die Modelle mit dem Ziel, zum Verständnis, zur Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen Theorien beizutragen · Angewandte Computerlinguistik entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen. (Teilbereiche können beherrscht werden, jedoch nicht alles !!!!!) Seite 1 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Potentielle Anwendungen: · Mensch – Maschine – Schnittstelle · Spracherkennung (Diktiersysteme) · Sprachsynthese · maschinelle Übersetzung geschriebener und gesprochenerer Sprache · Hilfsmittel für Behinderte - Vorlesegeräte für Behinderte - Fernsehen für Taube - Wortvervollständigung für mechanisch Behinderte · Information Extraction / Information Retrieval (Wissen in WWW, nur wo?) · Sprecherindentifikation · Call-Center-Anwendungen (Kinokarten), Auskunftssysteme (Bahnfahrplan) · Emotionserkennung · E-Commerce, Geschäfte über Mobil-Telefone · Big-Brother Anwendungen für Geheimdienste (Telefonüberwachung, Inhaltsauswertung, Schlüsselwörtersuche) L · Rechtschreibprüfprogramme (Spell Checker), Grammatikprüfprogramme (Grammar Checker) Ziele der Computerlinguistik – computational linguistics Wie der englische Name etwas genauer verrät, besteht das Ziel der Computerlinguistik nicht in erster Linie darin, Maschinen zum Sprechen zu bringen, sondern menschliche Sprache in einer berechenbaren Weise darzustellen und diese Berechenbarkeit anhand von analysierenden und generierenden Systemen zu überprüfen. Diese Berechenbarkeit kann im Grunde auf beliebige Arthergestellt werden. Jede Methode, die es schafft, sprachliche Zeichenketten ohne zwischenzeitlichen Rückgriff auf die menschliche Sprachkompetenz zu überprüfen oder auch zu erzeugen, kommt in Betracht. Daraus leiten sich die zentralen Fragen der Computerlinguistik ab: · Wie kommt man von einer natürlichsprachlichen Zeichenkette zu ihrer Verarbeitung? · Welche Methoden und Verfahren wurden dafür entwickelt? · Welche Formen linguistischen Wissens sind dabei notwendig und hilfreich? · Wie wird dieses sprachliche Wissen computerspezifisch effizient formalisiert? · Sind die Methoden und Verfahren für die Analyse und die Generierung gleich? · Wo werden sie sinnvoll eingesetzt? NLP und Microsoft: Das Ziel von NLP (Natural Language Processing) ist Software zu bauen die versteht, analysiert und Sprachen generiert in natürlicher Sprache. Somit soll es möglich werden mit Computern zu kommunizieren wie mit anderen Menschen (künstliche Intelligenz). Computer tun sich schwer mit der natürlichen Sprache obwohl ein Mensch damit es sehr einfach hat. Beispielsatz: Flying Planes can be dangerrous 2 Bedeutungen im Englischem: 1. Fliegende Flugzeuge sind gefährlich. 2. Mit (fliegenden) Flugzeugen zu fliegen kann gefährlich sein. Seite 2 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Flying Planes can be dangerrous Doppeldeutigkeit Flying Planes is / are dangerous mit can kann nicht gesehen werden ob Ein- oder Mehrzahl gemeint ist! (Formenzusammenfall Synkretismus) im Deutschen: kann / können Daher günstig für Wortspiele. Es daher darum Software zu konstruieren Doppeldeutigkeiten zu erkennen, nachzuvollziehen und richtig abzubilden und in weiterer Folge richtig zu verarbeiten. Hauptströmungen in der Computerlinguistik in der modernen herauskristallisiert: Computerlinguistik haben sich 2 gegensätzliche Konzepte 1. Computergestützte Textbeschreibung und Textmanipulation Hierbei ging es um die Einsatzmöglichkeiten des Computers bei der Aufbereitung, Verwaltung, Analyse und Auswertung sprachlichen Datenmaterials. Der Computer wird als flexibler Speicher verwendet, mit dem in erster Linie Corpora bearbeitet (z.B. annotiert) und statistisch ausgewertet werden können. 2. Simulation von Sprachkompetenz Das Vorhaben bestand darin, die menschliche Fähigkeit zur Sprachverarbeitung in Computersystemen nachzuahmen. Hierzu wird sprachliches Wissen formalisiert und implementiert. Anwendungsgebiete sind vor allem die maschinelle Übersetzung und Dialogsysteme zwischen Mensch und Maschine. Während bei der Entwicklung entsprechender Systeme zunächst die Priorität auf dem Aspekt der Nachahmung lag, als weniger auf der Effizienz als vielmehr auf der angestrebten Parallelität zu den vermuteten Abläufen menschlicher Sprachverarbeitung, verloren diese Simulationsaspekte zunehmend an Bedeutung. Maßgabe ist vielmehr die möglichst identische Input-Output-Situation. Der Computer soll mit sprachlicher Eingabe umgehen und eine korrekte sprachliche Ausgabe liefern; ob die internen Mechanismen denen der menschlichen Verarbeitung ähneln oder nicht, spielt keine Rolle mehr. Definition der Computerlinguistik: Computerlinguistik hat das Ziel, die einzelnen Komponenten eines sprachlichen Zeichens und die Operationen, die sich dieser Komponenten bedienen, computationell verfügbar zu machen. Mit der Trennung in Zeichen einerseits und Operationen zwischen Zeichen andererseits liegt eine Parallele zur informatischen Trennung in Daten und Algorithmen vor. Seite 3 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Die beiden Verfahren in der Computerlinguistik 2 sehr unterschiedliche Methoden des Herangehens an sprachliche Daten haben sich dabei durchgesetzt: die statistischen und die symbolische Verfahren. statistische Verfahren Statistische Verfahren stützen sich auf die Häufigkeiten und Wahrscheinlichkeiten bestimmter linearer Abfolgen sprachlicher Zeichen, Dies wird auf jeder sprachlichen Ebene durchgeführt. Es gibt Berechnungen über die Abfolgen bestimmter Phone, bestimmter Morphe, bestimmter Wortklassen oder bestimmter Worte. symbolische Verfahren Die symbolischen Verfahren bemühen im Gegensatz zu dem statistischen nur linguistische Repräsentationen. 22.10.03 PREPROCESSING Präparieren von Text zur eigentlichen Analyse Mehrere Teilschritte: · TOKENIZING: Vorbereiten und isolieren von linguistischen Mustern (z.B. Wörtern) zum Zweck der weiteren Analyse. · NORMALIZATION: Normalisierung ist die Reduktion und auch Transformation von Zeichen zum Zweck der Weiterverarbeitung. In zweiter Distanz auch zum präparieren des Textes. Sätze werden reduziert, aufgeteilt etc. sollte es darum gehen den gesamten Satz dementsprechend weiterzuverarbeiten. LINGUISTISCHE ANALYSE: · MORPHLOGISCHE ANALYSE: Morphlogische Analyse ist die Analyse der Wortinternen Struktur. Welche Wortformen oder Ausprägungen kommen in der Sprach vor. LPP (Linguistic Pre Processing) · TAGGING: (TREE – TAGGER, Integriert in LPP) NIBA – TAG (PERL) XML PHONETIK Naturwissenschaft IPA API PHONOLOGIE Geisteswissenschaft International Phonetik Assosiation 29.10.03 ei … Unverständlich für nicht Deutschsprachige, daher Lautschrift: [aɪ] VOKALE: a, e, i, o, u … O RAL on [ ɔ ] NASALIERUNG an – [ã] alenã anfangen ä /ɛ/ offenes e /e/ /i/ /o/ /u/ /ɛ/ /ɪ/ /ɔ/ /ʊ/ ~ … NASAL MONO|PHTONGE MONOPHTONGIEREN/ -IERUNG DI|PHTONGE ei /aɪ/ au /aʊ/ eu /ɔy/ /ɔɪ/ DIPHTONGIEREN/ -IERUNG TRI|PHTONGE iau /ɪaʊ/ iei /ɪeɪ/ Seite 4 (ZWIELAUT) Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Beispiel: Höhe der Laute Auto [aʊto] i [u] zu hoch [oto] ɪ besser: [aoto] ʊ ə e tief KONSTANTEN STOPS, PLOSIVE, OKKLUSSIVE /p/ , /t/ , /k/ u ɛ a o ɔ stimmlos, voiceless /b/ , /d/, /g/ FRIKATIVE: stimmhaft, voiced H /f/ , /s/ , /x/ GRAPHEME: stimmlos /v/ , /z/ , /Ɣ/ WINE VINE Z entspricht /ts/ Z bei Spanien /ɵ/, /s/ TH NASALE M, N /m/,/n/, UNTERSCHEIDUNG IM ENGLISCHEN LIQUIDE l, r /l/,/r/ HALBVOKALE, - KONSONANTEN j /y/,/w/ AGUA AQUA METATHESE KROKODIL MILCH GARTEN COCCODRIL MLEK GRAD DIGRIAPHEM deutsch: CH spanisch: italienisch: LL /ʎ/ GL ALLOPHONE andersklingende Laute (haben aber die selbe Bedeutung) TEQUIRES QU /k/ SPANIER DER DEN ENGLÄNDER NICHT VERSTAND DECREASE AFFRIKATIVE: dt.: tsch, sp.: ch, fr.: tch, it ciao, engl.: Charly /tʃ/ /ts/ dt.: z, it.: zero /dʒ/ it.: giorgio, giallo, engl.: John, George, Judge /ʒ/ fr. jour 05.11.03 BEISPIEL – SATZ: Der Auftrag trifft ein. Die verantwortliche Abteilung bzw. die Auftragsabteilung prüft jeden Auftrag. 1. Aufgabe: 2. Aufgabe: Kürzen Sie den Text so, das die Information dieses Textes erhalten bleibt, jedocht in reduzierter Form aufscheint. Verwenden Sie für die für das Kürzen der Texte das LPP Tool. Seite 5 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) 12.11.03 Sprachsynthese: ist die Verlautlichung von elektronisch notierter Sprache, also die Transformation von Text zu Lautfolgen, akustisch wahrnehmbarer Sprache. Speech Generation (ein anderer Begriff für Sprachsynthese) is de process witch allows the transformation of a string of phonetic and prosodic symbols into a synthetic speech signal Die sogenannte Textsynthese besteht im großen und Ganzen aus 3 Verarbeitungsschritten. Diese 3 Verarbeitungsschritte nennen wir: 1. Symbolverarbeitung Verarbeitung des Eingabetextes, Codierung der Laute mittels phonetischer Symbole 2. Verkettung Archiv von bestimmten Lauten (bestimmte Struktur) Prozess der Neuzusammensetzung der Elemente. 3. akustische Synthese Bezogen auf die Lautbausteine die zur Verfügung stehen. Lautbausteine beziehen sich auf ein bestimmtes Inventar mit bestimmten Merkmalen. Unterschiedliche Verfahren der Synthese. 2. Phase der Entwicklung der Sprachsynthese durch Maschine die Lauterzeugung modelliert. Heute gibt es eine gutfunktionierende Synthese (konkatenative Synthese). Aus einem vorhandenen Lautinventar wird die Sprache zusammengesetzt. Ein ’Diphon’ ist ein nicht isolierbares Laut Diphon zentraler Bereich des Lautes Lautübergang a b Ziel der Sprachsynthese Ambition und Dilemma Ambition: Modellierung der komplexesten kognitiven Fähigkeit des Menschen. Dilemma: bilde einen menschlichen (Vor)Leser nach, ohne sein Weltwissen, und ohne sein Sprachverständnis, und ohne seine Sprechorgane; erziele optimale Verständlichkeit und Natürlichkeit Geschichte Frühe Systeme: Späte 70er Jahren: Ende der 80er Jahre: Simulation des Sprechtaktes synthetische Sprache wird aus kleinsten natürlichsprachlichen Bausteinen zusammengebaut Minimale konkatenative System erreichte hohe Verständlichkeitsraten; wenig Akzeptanz Bausteine in unterschiedlichen prosodischen Varianten; Bausteinauswahl nach prosodischen Kriterien (Campbell) Seite 6 Lehrveranstaltung: Einführung in die CL prosodischen Kriterien: Sprachrythmus: 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) a) Sprechgeschwindigkeit, b) Lautdauer, c) Betonung Philips Zugauskunftssystem: selektives konkatenatives Verfahren: ganze Phrasen wurden als Einheiten benutzt Aufbau eines Synthesesystems: Ein Syntheseprogramm übernimmt einen Text und zerlegt ihn in Worte. Zunächst werden die geschriebenen Formen bestimmter Ausdrücke wie Geldbeträge, Einheiten, Uhrzeiten, Zahlen usw. in die Wortfolgen umgewandelt, die man beim Sprechen verwendet. So wird z.B. aus 2,48 DM die Wortfolge „Zweimarkachtundvierzig“. Für jedes Wort wird eine Aussprache per Lexikon oder, falls nicht vorhanden, per Ausspracheregel ermittelt. Außerdem wird durch eine komplexe Analyse der Sätze die Sprechmelodie und der Sprechrhythmus bestimmt. Alle Informationen werden in einer Symbolfolge kodiert, die dann an den eigentlichen Sprachgenerator geht. Dort wird diese Symbolkette mit einem Regelsatz in eine Abfolge von Mikrosegmenten umgewandelt, die erforderlichen Mikrosegmente werden ausgewählt, verknüpft und über die Soundkarte ausgegeben. Der PC spricht. Syntheseschritte: Text à Linguistische Analyse à Prosodie à Synthese à synthetische Sprache Teilaufgaben der linguistischen Textanalyse: · Textnormalisierung Identifizieren von Strings und deren Worten. · Tokenisierung z.B. Abtrennen des Punktes am Satzende. Punkt muss vom Wort getrennt werden, damit das Wort identifizierbar wird. · Tokentyp – Erkennung (numerische Ausdrücke, Abkürzungen, …) bzw. oder etc. müssen ein ganzes Wort zugeordnet werden. · Token – Wort – Konvertierung bzw. Punkt am Ende ist nicht als Satzende zu interpretieren! · Lexikalische und morphologische Analyse System schaut sich an ob ein Wort im Lexikon vorhanden ist. Das entsprechende Lautsegment wird ausgegeben. Sollte dieses Wort nicht im Lexikon vorkommen wird eine morphologische Analyse vorgenommen. Das Wort wird zerlegt in die einzelnen Silben. z.B.: Lös|ung 2 Teile à Zuordnung · Phrasierung und Akzentuierung Seite 7 Lehrveranstaltung: Einführung in die CL · · 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Es werden Wortgruppen aus dem Text herausgeschnitten und mit bestimmten Akzenten versehen. z.B.: Er hat die Lösung gefunden. Hauptakzent ist Lösung Phonologische Analyse, phonetische Transkription Umwandlung der Zeichen in Symbolketten. Die phonetische Zeichen werden in Zahlenkombinationen umgesetzt, Voraussetzung der Weiterverarbeitung Syllabifizierung Wichtig wenn es darum geht Silben vorauszusagen. Statistische Mehtoden Textvorverarbeitung / Normalisierung? einige typisch Sätze Die Konferenz soll am 22.9.1997 beginnen. Probleme mit der Zahl Am 6. Tag würfelte er eine 6. Tag und Nacht hatte er es versucht. Grammatik … Stgt nicht aussprechbar für das System. Römische Zahl Preis in DM und Punkt am Ende (Biegeangelegenheit) Datum :-( ist ein Problem Analysebeispiel Hr. Müller, kommt er schon um 11.45h? Herr Müller [Komma] kommt er schon um elf Uhr fünfundvierzig [Fragezeichen] _ hE6 mY16 kOmt e:6 So:n Um ?Elf u:6 fYnfUntfI6tsIC _ ((_ hE6 mY16) (kOmt e:6 So:n Um ?Elf u:6 fYnfUntfI6tsIC _)) _ hE6 Herr à das r wird nicht ausgesprochen, das wäre sonst nicht verständlich. E6 steht für /ɛə/ S steht für /ʃ/ ? steht für Sprechpause (nicht für Fragezeichen) Klammerung steht für die Pause. Begriffe: SONORISIERUNG DESONORISIERUNG etwas stimmhaft machen etwas stimmlos machen Seite 8 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) 19.11.03 Beispielsatz: Es ist unser Nomen, adverbiell gesagt, dass das adjektivische Substantiv, das geverbt werden sollte, um dies zu beverben, adverblich im Nomen unserer Substantive ist. Fragen: (1) Hat dieser erwähnte Satz eine Akzentverteilung? (Setzt dieser Satz Akzente / Betonungen) (2) Wo liegen die Akzente? 5 großer Akzent … 1 kleiner Akzent (3) Gibt es einen Zusammenhang zwischen den Wortgruppen in diesem Satz und den gesetzten Akzenten? Kennzeichnung durch: [ … ] ETH. Z Wetterbericht Poser Online MBROLA Verständlichkeit 1 – 10 7 10 7 Natürlichkeit 1 – 10 6 8 6 Webseiten: www.speech.cs.cmu.edu www.voicexml.org Akzentverteilung Lexikalischer Akzent Satzakzent Betonung des Wortes Akzent in Simplexwörtern und Akzent komplexer Wörter (z.B.: Komposita) Betonung von Wortgruppen / anhängig vom Satztyp (Aussagesatz / Fragesatz / Befehlssatz) abhängig von Satzzeichen 4 2 4 (1) Aufmerksamkeit 4 Aufmerksamkeitskriterium Die Akzentverteilung eines Wortes ändert sich wenn ein Wort mit einem anderen erweitert wird. Geben Sie Beispiele: (einfache Wörter, Komposita) Der Satzakzent überlagert den Wortakzent. Akzentfaktoren: - Wort - Satz - Emphase - Fokus Seite 9 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) 26.11.03 Beispielsatz: 1 3 3 3 2 3 2 2 1 1 1 3 3 2 2 1 1 2 2 Es ist unser Nomen, adverbiell gesagt, dass das adjektivische Substantiv, das geverbt werden 2 2 2 1 1 3 2 3 2 2 1 3 2 1 3 2 3 sollte, um dies zu beverben, adverblich im Nomen unserer Substantive ist. Seite 10 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript Konkordanzfindung: Findung von zusammengehörigen Wörtern und Wortgruppen. © Thomas Aichholzer ([email protected]) 03.12.03 Erster Schritt dieser Textanalyse ist suchen und finden dieser Wortgruppen. Content Analysis: Analysetechnik kontextbezogen. lange Texte auf Begriffslisten reduzieren (ohne Inhalt zu verlieren) Concept Dictionaries: Inhaltsbeschreibende Begriffe und Definitionen enthalten. Statistical Analysis: Statistische Analysen. Involviert im einfachsten Fall pures Zählen der Wörter. Produzieren von (Wort)Frequenzlisten. Es produziert aber auch das berechnen von statistischen Werten bezogen wiederum auf Wortkombinationen. Zum Beispiel kann es interessant sein herauszufinden ob in einem Text xy ein bestimmtes Nomen mit besonderer Häufigkeit an ein Adjektiv geknüpft ist. (Textklassifikationen) Textklassifikation: Statistische Analyse als Basis der Textklassifikation da die Häufigkeiten aussagen über bestimmte Merkmale und Attribute. Diese kann äußerst wichtig sein bei einer großen Menge an Texten. Die Schritte der Textanalyse: à Zunächst das Preprocessing (Vorverarbeitung): Normalisierung Normalisierung ist die Standardisierung und Reduzierung von Texten (Wegschaffen von unwichtigen nicht sehr klaren Ausdrücken wie Abkürzungen). Normalisierungen sollten diese Begriffe (Buchstabenketten) entweder eliminieren oder übersetzen in sinnvolle Begriffe. Prozess der Tokenisierung: Identifizieren von Wörtern und das abtrennen der Zeichen die nicht zu diesen Wörtern gehören (Beispiel der Punkt am Ende des Satzes). Konkordanzermittlung. Ermittlung von Wortgruppen zusammenhängender Wörter. Die Kontext bedingte Wortanalyse ist noch eine Preprocessing Angelegenheit. à Stemming, Lemmatizing Stemming: Reduzieren von Wörtern auf ihre Stammform. Beispiel: gehen und geht. Ist auf ein Wort durch Stemming zurückzuführen. Stammform wird erzeugt (geh). Beispiel: geht und ging. Stammform ?; geh ist in ging nicht drin .. was soll gemacht werden? Stringreduktion kann nicht betrieben werden. (reines Stemming nicht möglich) daher Verwendung von Lemmatizing: Suchen des Lemmas Suchen einer Grund- oder Basisform. Das Lemma von ging ist wieder geh, Lemma von geht ist auch geh. Stamm von geht ist geh, Stamm von ging ist ging. à POS – Tagging; semantisches Tagging POS – Tagging ist eine linguistische Angelegenheit. POS (Part of Speech). Kodieren durch Wortarten. Zuweisen von Symbolen nach Wortarten (Wortartensymbole). Zentrale Frage ist nicht: Was tut man mit bekannten Wörtern? sondern Was tun mit unbekannten Wörtern? Es können nicht alle Wörter in einer Datenbank gespeichert werden. Seite 11 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Es könnten Regeln in einen Tagger eingefügt werden. Zum Beispiel. Steht in einem Text ein unbekanntes Wort zwischen einem Artikel und einem Nomen so ist dieses unbekannte Wort mit höchster Wahrscheinlichkeit an Adverb. Oder Tagger kennt die Endung: zum Beispiel: Endung: -ung à Nomen Jedoch die Endung –er ist nicht eindeutig. Jäger, Sammler à Nomen älter à Adjektiv semantisches Tagging: Das semantische Tagging weist Wörtern semantische Merkmale / Kategorien zu. Zum Beispiel: Verben werden auf semantische Verbklassen zurückgeführt. versprechen, sagen, meinen … bestimmte Semantik, psychologische Interpretation. semantisches Tagging kann Aussagen treffen über semantische Stellungen von zum Beispiel Verben. à Chunk-Parsing (Shallow Parsing) Chunk-Parsing ist herausschneiden und syntaktisches analysieren von Wortgruppen auf der Basis bereits getaggtem Textes. Es ist auch ganz wesentlich das identifizieren von Nominalphrasen (NPs) (Wortgruppen). Nominalphrasen als Kopf das Nomen. Beispiel: der kleine Mann. (können auch sehr komplex sein) à Kohärenzermittlung / Anaphernauflösung Kohärenzermittlung : In welcher Form und wie hängen die Sätze in einem Text zusammen. Es gibt mehrere Arten des Zusammenhangs. Die Kohärenzermittlung ist ein Prozess der Semantikermittlung. Anaphernauflösung: ist die Ermittlung der eindeutigen Semantik von anaphorischen Elementen. zum Beispiel pronomina (personal Pronomen) Beispielsatz: Peter arbeitet in der Firma XY. Sie hat … Sie ist das anaphorische Element und bezieht sich in diesem Fall auf die Firma. Sie wird also durch die Firma ersetzt. Anaphern aufzulösen kann schwierig sein ,denn sie können Quellen von Mehrdeutigkeiten sein. Beispielsatz: Peter und Ilse haben viele Bücher gelesen. Sie sind in der Lage viele Referate zu halten. Sie bezieht sich auf Peter und Ilse. Attribute von Nomen müssen auch vorhanden sein. Bücher können keine Referate halten! à Satzreduktion Reduzieren von Einzelsätzen. Das Reduzieren von Einzelsätzen kann durch Herausfiltern von wesentlichen Wörtern aus dem Satz durchgeführt werden. Könnte man folgenden Satz reduzieren: Peter und Ilse haben viele Bücher gelesen möglich wäre: Peter Ilse lesen Bücher... Basisaussage könnte sein das gerade viele ein wichtiges Merkmal sein könnte oder haben als Form für die Zeit. Die Satzreduktion besteht im allgemeinen durch das Herausfiltern des Basisverbs und den mit diesen in Verbindung stehenden Nomina. (Subjekte und Objekte). à Prädikatsargumentsstruktur (Codiert die Bedeutung des Satzes). à Automatische Indexierung / Zusammenfassung auch bekannt als Verschlagwortung: Finden von Begriffen die den Text charakterisieren und nicht unbedingt im Text vorkommen müssen. Zusammenfassung: Summerizing Seite 12 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Aufgabe 1: Geben Sie einen 10 zeiligen Text ins Word ein, und lassen Sie diesen Text zusammenfassen. Nehmen Sie Stellung zu dieser Zusammenfassung. Aufgabe 2 Copernic Summarizer: Probieren Sie eine Zusammenfassung mit diesem Programm und vergleichen Sie die Ergebnisse. 10.12.03 Perl Skript und Python Skript. 17.12.03 1. Wortarten 2. STTS Stuttgart und Tübingen Tagset 3. Allgemeine Informationen zum Lexikon und Probleme (Overstemming) Lexikon Definition: Das Lexikon ist eine strukturierte Liste von Wörtern, wobei Wörter als die Basisform von Wörtern zu verstehen ist (Einträge von Basisformen = Lemmata). Probleme bei der Erzeugung von Basisformen: Basis Form von Studienabteilungen ??? STUDIEN ABTEILUNG EN semantische Informationen (unter anderem für die Synonymfindung / Antonymfindung) morphologische Information (Informationen zur Wortbildung, z.B. wie wird ein Wort konjugiert?) Argumentstruktur / Informationen (Wertigkeiten, z.B. lieben à 2wertig, jemand liebt jemanden) Bemerkungen zu den Folien aus der Lexikon Theorie: Mit Verben werden hauptsächlich Zustände bezeichnet. Substantive sind deklinierbar (Kasus, Numerus). Flexion Deklination (Beugung) Artikel, Nomen, Adjektive, Pronomen - Kasus - Numerus Formenzusammenfall SYNKRETISMUS Konjugation Verb Person , Numerus, Tempus, Modus 1. 2. 3. , Sg. Pl., z.B. Präsens, Indikativ … Wirklichkeitsform Konjunktiv … Möglichkeitsform Formenzusammenfall im Femininum (z.B. die Frau): bei Singular: die 1. Fall Nominativ der 2. Fall Genitiv der 3. Fall Dativ die 4. Fall Akkusativ bei Plural die 1. Fall Nominativ der 2. Fall Genitiv den 3. Fall Dativ die 4. Fall Akkusativ Keine Eindeutige Beziehung zwischen Wortformen (z.B. Artikel) und Kasuszuweisung Seite 13 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Artikel unterteilen sich in definite und infinite Artikel. definite Artikel: der die das infinite Artikel: ein, eines, ... Pronomen (Fürwörter) ich Personalpronomen mein Possessivpronomen dieser Demonstrativpronomen sich Reflexivpronomen niemand Indefinitpronomen wer, was Interrogativpronomen (Fragepronomen) Partikel Modalpartikel: ja Verbpartikel: er schreibt ab , ab könnte theoretisch auch eine Präposition sein. Adverbien sind Modifikatoren von Verben. (Umstandswörter) Es gibt unterschiedliche Arten von Adverbien: Lokaladverbien: hier (Ort) Temporaladverbien: gestern (Zeit) Modaladverbien: blöderweise (Art und Weise) Frequenzadverbien: oft, selten (Häufigkeit) Negationsadverb: nicht Konjunktion (Bindewort): beiordnend (coordinierend) und, aber unterordnende (subordinierend) dass, weil Präpositionen (Vorwort, Verhältniswort) Die den Kasus des Substantiv regieren / bestimmen. Interjektionen (Empfindungswörter, Ausrufungswörter) Beispiele: ach, hm, oh, ei, hoi Produktion von Stoppwortlisten Wichtig für die Suche in Suchmaschinen, da eine Suche nach diesen keinen Sinn ergeben würde. Beispiele: aber, alle (mit Flexionen: allem, allen, …), als, bei, auch, doch, etc. Stoppwortlisten sind im Deutschen wesentlich länger als im Englischen, da viele Wörter im englischen unflektiert eingetragen werden können. Seite 14 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) 07.01.04 Zusammenfassungssysteme, verwenden keine Linguistischen Systeme der Zusammenfassung. Texte werden einfach herausgefiltert und ausgeschnitten. Sprachgenerierung ist die Erzeugung (automatische Erzeugung) von natürlicher Sprache auf der Basis formaler Repräsentation. Diese formale Repräsentation ist eine (prädikaten-)logische Formel (im Normalfall), im Sinne der Prädikatenlogik. Diese Prädikatenlogik wird in natürliche Sprache rückübersetzt. Wann versteht eine Maschine die natürliche Sprache (im Sinne der künstlichen Intelligenz)? Für unsere Zwecke genügt eine formale Darstellung. Es gibt mehrere Schritte der Sprachverarbeitung. 1. Spracherkennung Akustische Signalanalyse. Lautsprache wird verarbeitet. 2. Syntaktische Analyse In jedem Fall notwendig, auch bei Texten in geschriebener Form. Bestimmung der Struktur der Eingabesätze. 3. Semantische Analyse (Bedeutungsanalyse) Nicht nur Analyse der Worte sondern auch die der Sätze. In vielen Fällen ist die Syntaktische und die Semantische Analyse nicht immer so einfach zu trennen, da die beiden eng verschränkt sind. 4. Pragmatische Analyse Bestimmung der Verwendung von Sätzen. Syntaktische Analyse Syntaxregeln müssen definiert werden. Wohlgeformtheitsgrad wird über solche Regeln bestimmt. Bestimmung und Formalisierung solcher Regeln ist schwierig. Wortgruppen sollen identifiziert werden. Ein Beispiel für eine Wortgruppe: „der Hund“ gehören zusammen. Beispiel: „vom Hund“ vom ist hierbei eine synthetische Form: vom < von + dem Wortgruppen können wiederum auch in Subwortgruppen beinhalten. „der Hase mit den langen Ohren“ à zusammengesetzte Nominalphrase. Weitere Aufgaben sind strukturell bedingte Doppeldeutigkeiten herauszufinden. Zu unterscheiden sind hier nicht Wortsemantische Doppeldeutigkeiten (z.B. „Bank“ als Sitzbank oder als Geldinstitut). Beispiel: „Peter sah Maria mit dem Fernglas“ Möglichkeit 1: Peter hat ein Fernglas und sieht damit Maria Möglichkeit 2: Peter sieht Maria die ein Fernglas bei sich hat. Präpositionalphrasen können häufig Doppeldeutigkeiten beinhalten. Strukturelle Doppeldeutigkeiten können in speziellen Fällen auch keine Doppeldeutigkeiten sein. Beispiel: „Ich sah den Kölner Dom auf dem Flug nach Rom“ Der Kölner Dom kann nicht in einem Flug nach Rom sein, daher gibt es keine Doppeldeutigkeit in diesem Satz. Würde der Kölner Dom durch Herrn Maier ersetzt werden, so wäre der Satz doppeldeutig. Seite 15 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Eine Grammatik ist ein Regelsystem mit deren Hilfe man wohlgeformte Sätze erzeugt. Grammatikregeln sind normalerweise Ersetzungsregeln. Ersetzungsregeln sind Regeln mit deren Hilfe man übergeordnete Kategorien durch untergeordnete Kategorien ersetzt. Parser sind Systeme zur automatischen Syntaxanalyse Grammatikregeln: Kontextfreie Ersetzungsregeln für die Erzeugung von Strukturbäumen: Satz à NP VP Satz setzt sich zusammen aus NP (Nominalphrase) und VP (Verbalphrase) NP à ART N VP à V NP ART à der, den N à Hund, Knochen terminale Regeln (Elemente Regeln) V à fraß Mit Hilfe dieser Regeln lässt sich eine Struktur aufbauen. S dominiert NP und VP (im Syntaxbaum) Aufgrund der definierten Regeln könnte auch folgender Satz möglich sein: „Der Knochen fraß den Hund“ semantisch falsch oder „den Hund fraß Der Knochen“ syntaktisch falsch etc. Parserbeispiele NTMS Struktur NTMS … Natürlichkeits- Theoretische Morpho Syntax v4 … S (Satz) v3 … VP (Verbalphrase) n3 … NP (Nominalphrase) Seite 16 Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript Beispiel für einen Passivsatz: Seite 17 © Thomas Aichholzer ([email protected]) Lehrveranstaltung: Einführung in die CL 21.01.2004 Mitschrift – Skript © Thomas Aichholzer ([email protected]) Automatische (bzw. Maschinelle) Übersetzung: 14.01.04 (A) Wort für Wort Übersetzung (B) Satz – Satz Übersetzung Volltextübersetzung (B) Satz für Satz Übersetzung: Input A Quell – Sprache B C Ziel – Sprache Interlingua Linguistische -, Morphologische -, Syntaktische -, Semantische Analyse (Zwischensprache) Konzepte Linguistische – Analyse, Struktur in der Zielsprache Morphologische Analyse: Identifikation der Wortstrukturen Syntaktische Analyse: Identifikation der Wortformen Semantische Analyse: Bedeutungskonzepte werden den Wörtern zugeordnet Übersetzungsprogramme: PT … T1 … Systran Reverso Personal Translator (ursprünglich IBM Produkt) Langenscheidt (Siemens Produkt) Probleme der Übersetzung gibt es bei den Personen. Aus Er oder Sie wird It (engl. Es). Beispiel: Er ist schwer zu verstehen à It is difficult to understand Seite 18