Document

Werbung
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
15.10.03
Linguistik:
Die Linguistik ist eine „moderne“, synchron orientierte, auf die interne Struktur der Sprache
bezogene Wissenschaft, die sprachliche Regularitäten auf allen Beschreibungsebenen
untersicht und ihre Ergebnisse in explizierter (formalisierter) Beschreibungssprache und in
integrierten Modellen darlegt.
Teilgebiete:
· nach beschreibungsebenen
Phonetik
befasst dich mit den Lauten
Phonologie Strukturanalyse, Beschreibung des Lautkontextes
Morphologie Lehre der Wortbildung
Syntax:
Lehre von der Kombinatorik der Wörter
Semantik
Lehre der Bedeutung, Bedeutung der Wörter
Pragmatik / Text / Diskurs Lehre der Sprachverwendung / Struktur der Dialoge, natürlich
sprachlich
· andere Teilgebiete
Historische Linguistik
Sozio- und Ethnolinguistik
Dialektologie
Psychollinguistik
Neurolinguistik
Mathematische Linguistik
Statistische Linguistik/ Korpuslinguistik
Die Disziplin:
· Theoretische Computerlinguistik
entwirft, implementiert und untersicht die Modelle mit dem Ziel, zum Verständnis, zur
Verifikation und zur Verbesserung der zugrundeliegenden linguistischen und psychologischen
Theorien beizutragen
· Angewandte Computerlinguistik
entwirft, implementiert und untersucht die Modelle mit dem Ziel, Softwareanwendungen zu
ermöglichen, die über eine (eingeschränkte) Beherrschung menschlicher Sprache verfügen.
(Teilbereiche können beherrscht werden, jedoch nicht alles !!!!!)
Seite 1
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Potentielle Anwendungen:
· Mensch – Maschine – Schnittstelle
· Spracherkennung (Diktiersysteme)
· Sprachsynthese
· maschinelle Übersetzung geschriebener und gesprochenerer Sprache
· Hilfsmittel für Behinderte
- Vorlesegeräte für Behinderte
- Fernsehen für Taube
- Wortvervollständigung für mechanisch Behinderte
· Information Extraction / Information Retrieval (Wissen in WWW, nur wo?)
· Sprecherindentifikation
· Call-Center-Anwendungen (Kinokarten), Auskunftssysteme (Bahnfahrplan)
· Emotionserkennung
· E-Commerce, Geschäfte über Mobil-Telefone
· Big-Brother Anwendungen für Geheimdienste
(Telefonüberwachung, Inhaltsauswertung, Schlüsselwörtersuche) L
· Rechtschreibprüfprogramme (Spell Checker), Grammatikprüfprogramme (Grammar
Checker)
Ziele der Computerlinguistik – computational linguistics
Wie der englische Name etwas genauer verrät, besteht das Ziel der Computerlinguistik nicht
in erster Linie darin, Maschinen zum Sprechen zu bringen, sondern menschliche Sprache in
einer berechenbaren Weise darzustellen und diese Berechenbarkeit anhand von
analysierenden und generierenden Systemen zu überprüfen.
Diese Berechenbarkeit kann im Grunde auf beliebige Arthergestellt werden. Jede Methode,
die es schafft, sprachliche Zeichenketten ohne zwischenzeitlichen Rückgriff auf die
menschliche Sprachkompetenz zu überprüfen oder auch zu erzeugen, kommt in Betracht.
Daraus leiten sich die zentralen Fragen der Computerlinguistik ab:
· Wie kommt man von einer natürlichsprachlichen Zeichenkette zu ihrer Verarbeitung?
· Welche Methoden und Verfahren wurden dafür entwickelt?
· Welche Formen linguistischen Wissens sind dabei notwendig und hilfreich?
· Wie wird dieses sprachliche Wissen computerspezifisch effizient formalisiert?
· Sind die Methoden und Verfahren für die Analyse und die Generierung gleich?
· Wo werden sie sinnvoll eingesetzt?
NLP und Microsoft:
Das Ziel von NLP (Natural Language Processing) ist Software zu bauen die versteht,
analysiert und Sprachen generiert in natürlicher Sprache. Somit soll es möglich werden mit
Computern zu kommunizieren wie mit anderen Menschen (künstliche Intelligenz).
Computer tun sich schwer mit der natürlichen Sprache obwohl ein Mensch damit es sehr
einfach hat.
Beispielsatz:
Flying Planes can be dangerrous
2 Bedeutungen im Englischem:
1. Fliegende Flugzeuge sind gefährlich.
2. Mit (fliegenden) Flugzeugen zu fliegen kann gefährlich sein.
Seite 2
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Flying Planes can be dangerrous
Doppeldeutigkeit
Flying Planes is / are dangerous
mit can kann nicht gesehen werden ob Ein- oder Mehrzahl gemeint ist!
(Formenzusammenfall Synkretismus)
im Deutschen: kann / können
Daher günstig für Wortspiele.
Es daher darum Software zu konstruieren Doppeldeutigkeiten zu erkennen, nachzuvollziehen
und richtig abzubilden und in weiterer Folge richtig zu verarbeiten.
Hauptströmungen in der Computerlinguistik
in der modernen
herauskristallisiert:
Computerlinguistik
haben
sich
2
gegensätzliche
Konzepte
1. Computergestützte Textbeschreibung und Textmanipulation
Hierbei ging es um die Einsatzmöglichkeiten des Computers bei der Aufbereitung,
Verwaltung, Analyse und Auswertung sprachlichen Datenmaterials.
Der Computer wird als flexibler Speicher verwendet, mit dem in erster Linie Corpora
bearbeitet (z.B. annotiert) und statistisch ausgewertet werden können.
2. Simulation von Sprachkompetenz
Das Vorhaben bestand darin, die menschliche Fähigkeit zur Sprachverarbeitung in
Computersystemen nachzuahmen. Hierzu wird sprachliches Wissen formalisiert und
implementiert. Anwendungsgebiete sind vor allem die maschinelle Übersetzung und
Dialogsysteme zwischen Mensch und Maschine. Während bei der Entwicklung
entsprechender Systeme zunächst die Priorität auf dem Aspekt der Nachahmung lag, als
weniger auf der Effizienz als vielmehr auf der angestrebten Parallelität zu den vermuteten
Abläufen menschlicher Sprachverarbeitung, verloren diese Simulationsaspekte zunehmend an
Bedeutung. Maßgabe ist vielmehr die möglichst identische Input-Output-Situation.
Der Computer soll mit sprachlicher Eingabe umgehen und eine korrekte sprachliche Ausgabe
liefern; ob die internen Mechanismen denen der menschlichen Verarbeitung ähneln oder
nicht, spielt keine Rolle mehr.
Definition der Computerlinguistik:
Computerlinguistik hat das Ziel, die einzelnen Komponenten eines sprachlichen Zeichens und
die Operationen, die sich dieser Komponenten bedienen, computationell verfügbar zu
machen. Mit der Trennung in Zeichen einerseits und Operationen zwischen Zeichen
andererseits liegt eine Parallele zur informatischen Trennung in Daten und Algorithmen vor.
Seite 3
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Die beiden Verfahren in der Computerlinguistik
2 sehr unterschiedliche Methoden des Herangehens an sprachliche Daten haben sich dabei
durchgesetzt: die statistischen und die symbolische Verfahren.
statistische Verfahren
Statistische Verfahren stützen sich auf die Häufigkeiten und Wahrscheinlichkeiten bestimmter
linearer Abfolgen sprachlicher Zeichen, Dies wird auf jeder sprachlichen Ebene durchgeführt.
Es gibt Berechnungen über die Abfolgen bestimmter Phone, bestimmter Morphe, bestimmter
Wortklassen oder bestimmter Worte.
symbolische Verfahren
Die symbolischen Verfahren bemühen im Gegensatz zu dem statistischen nur linguistische
Repräsentationen.
22.10.03
PREPROCESSING
Präparieren von Text zur eigentlichen Analyse
Mehrere Teilschritte:
· TOKENIZING:
Vorbereiten und isolieren von linguistischen Mustern (z.B. Wörtern) zum Zweck der
weiteren Analyse.
· NORMALIZATION:
Normalisierung ist die Reduktion und auch Transformation von Zeichen zum Zweck der
Weiterverarbeitung. In zweiter Distanz auch zum präparieren des Textes.
Sätze werden reduziert, aufgeteilt etc. sollte es darum gehen den gesamten Satz
dementsprechend weiterzuverarbeiten.
LINGUISTISCHE ANALYSE:
· MORPHLOGISCHE ANALYSE:
Morphlogische Analyse ist die Analyse der Wortinternen Struktur. Welche Wortformen
oder Ausprägungen kommen in der Sprach vor.
LPP (Linguistic Pre Processing)
· TAGGING:
(TREE – TAGGER, Integriert in LPP)
NIBA – TAG (PERL) XML
PHONETIK
Naturwissenschaft
IPA
API
PHONOLOGIE
Geisteswissenschaft
International Phonetik Assosiation
29.10.03
ei … Unverständlich für
nicht Deutschsprachige,
daher Lautschrift: [aɪ]
VOKALE:
a, e, i, o, u … O RAL
on [ ɔ ] NASALIERUNG
an – [ã] alenã
anfangen
ä /ɛ/ offenes e
/e/ /i/ /o/ /u/
/ɛ/ /ɪ/ /ɔ/ /ʊ/
~ … NASAL
MONO|PHTONGE
MONOPHTONGIEREN/ -IERUNG
DI|PHTONGE
ei /aɪ/ au /aʊ/ eu /ɔy/ /ɔɪ/ DIPHTONGIEREN/ -IERUNG
TRI|PHTONGE
iau /ɪaʊ/ iei /ɪeɪ/
Seite 4
(ZWIELAUT)
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Beispiel:
Höhe der Laute
Auto [aʊto]
i
[u] zu hoch
[oto]
ɪ
besser: [aoto]
ʊ
ə
e
tief
KONSTANTEN
STOPS, PLOSIVE, OKKLUSSIVE
/p/ , /t/ , /k/
u
ɛ
a
o
ɔ
stimmlos, voiceless
/b/ , /d/, /g/
FRIKATIVE:
stimmhaft, voiced
H
/f/ , /s/ , /x/
GRAPHEME:
stimmlos
/v/ , /z/ , /Ɣ/
WINE
VINE
Z entspricht /ts/
Z bei Spanien /ɵ/, /s/
TH
NASALE
M, N
/m/,/n/,
UNTERSCHEIDUNG
IM ENGLISCHEN
LIQUIDE
l, r
/l/,/r/
HALBVOKALE, - KONSONANTEN
j /y/,/w/
AGUA
AQUA
METATHESE
KROKODIL MILCH GARTEN
COCCODRIL MLEK GRAD
DIGRIAPHEM
deutsch:
CH
spanisch:
italienisch:
LL /ʎ/
GL
ALLOPHONE
andersklingende Laute (haben aber die selbe Bedeutung)
TEQUIRES
QU /k/
SPANIER DER DEN ENGLÄNDER NICHT VERSTAND
DECREASE
AFFRIKATIVE:
dt.: tsch, sp.: ch, fr.: tch, it ciao, engl.: Charly
/tʃ/
/ts/
dt.: z, it.: zero
/dʒ/
it.: giorgio, giallo, engl.: John, George, Judge
/ʒ/
fr. jour
05.11.03
BEISPIEL – SATZ:
Der Auftrag trifft ein. Die verantwortliche Abteilung bzw. die Auftragsabteilung prüft jeden
Auftrag.
1. Aufgabe:
2. Aufgabe:
Kürzen Sie den Text so, das die Information dieses Textes erhalten bleibt,
jedocht in reduzierter Form aufscheint.
Verwenden Sie für die für das Kürzen der Texte das LPP Tool.
Seite 5
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
12.11.03
Sprachsynthese:
ist die Verlautlichung von elektronisch notierter Sprache, also die Transformation von Text zu
Lautfolgen, akustisch wahrnehmbarer Sprache.
Speech Generation (ein anderer Begriff für Sprachsynthese) is de process witch allows the
transformation of a string of phonetic and prosodic symbols into a synthetic speech signal
Die sogenannte Textsynthese besteht im großen und Ganzen aus 3 Verarbeitungsschritten.
Diese 3 Verarbeitungsschritte nennen wir:
1. Symbolverarbeitung
Verarbeitung des Eingabetextes, Codierung der Laute mittels phonetischer Symbole
2. Verkettung
Archiv von bestimmten Lauten (bestimmte Struktur)
Prozess der Neuzusammensetzung der Elemente.
3. akustische Synthese
Bezogen auf die Lautbausteine die zur Verfügung stehen.
Lautbausteine beziehen sich auf ein bestimmtes Inventar mit bestimmten Merkmalen.
Unterschiedliche Verfahren der Synthese.
2. Phase der Entwicklung der Sprachsynthese durch Maschine die Lauterzeugung modelliert.
Heute gibt es eine gutfunktionierende Synthese (konkatenative Synthese). Aus einem
vorhandenen Lautinventar wird die Sprache zusammengesetzt.
Ein ’Diphon’ ist ein nicht isolierbares Laut
Diphon
zentraler
Bereich
des Lautes
Lautübergang
a
b
Ziel der Sprachsynthese
Ambition und Dilemma
Ambition: Modellierung der komplexesten kognitiven Fähigkeit des Menschen.
Dilemma: bilde einen menschlichen (Vor)Leser nach, ohne sein Weltwissen, und ohne sein
Sprachverständnis, und ohne seine Sprechorgane; erziele optimale Verständlichkeit und
Natürlichkeit
Geschichte
Frühe Systeme:
Späte 70er Jahren:
Ende der 80er Jahre:
Simulation des Sprechtaktes
synthetische Sprache wird aus kleinsten natürlichsprachlichen
Bausteinen
zusammengebaut
Minimale
konkatenative
System
erreichte
hohe
Verständlichkeitsraten; wenig Akzeptanz
Bausteine in unterschiedlichen prosodischen Varianten;
Bausteinauswahl nach prosodischen Kriterien (Campbell)
Seite 6
Lehrveranstaltung:
Einführung in die CL
prosodischen Kriterien:
Sprachrythmus:
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
a) Sprechgeschwindigkeit,
b) Lautdauer,
c) Betonung
Philips Zugauskunftssystem: selektives konkatenatives Verfahren: ganze Phrasen wurden als
Einheiten benutzt
Aufbau eines Synthesesystems:
Ein Syntheseprogramm übernimmt einen Text und zerlegt ihn in Worte. Zunächst werden die
geschriebenen Formen bestimmter Ausdrücke wie Geldbeträge, Einheiten, Uhrzeiten, Zahlen
usw. in die Wortfolgen umgewandelt, die man beim Sprechen verwendet. So wird z.B. aus
2,48 DM die Wortfolge „Zweimarkachtundvierzig“. Für jedes Wort wird eine Aussprache per
Lexikon oder, falls nicht vorhanden, per Ausspracheregel ermittelt. Außerdem wird durch
eine komplexe Analyse der Sätze die Sprechmelodie und der Sprechrhythmus bestimmt. Alle
Informationen werden in einer Symbolfolge kodiert, die dann an den eigentlichen
Sprachgenerator geht. Dort wird diese Symbolkette mit einem Regelsatz in eine Abfolge von
Mikrosegmenten umgewandelt, die erforderlichen Mikrosegmente werden ausgewählt,
verknüpft und über die Soundkarte ausgegeben. Der PC spricht.
Syntheseschritte:
Text à Linguistische Analyse à Prosodie à Synthese à synthetische Sprache
Teilaufgaben der linguistischen Textanalyse:
· Textnormalisierung
Identifizieren von Strings und deren Worten.
· Tokenisierung
z.B. Abtrennen des Punktes am Satzende. Punkt muss vom Wort getrennt werden, damit
das Wort identifizierbar wird.
· Tokentyp – Erkennung (numerische Ausdrücke, Abkürzungen, …)
bzw. oder etc. müssen ein ganzes Wort zugeordnet werden.
· Token – Wort – Konvertierung
bzw. Punkt am Ende ist nicht als Satzende zu interpretieren!
· Lexikalische und morphologische Analyse
System schaut sich an ob ein Wort im Lexikon vorhanden ist. Das entsprechende
Lautsegment wird ausgegeben. Sollte dieses Wort nicht im Lexikon vorkommen wird eine
morphologische Analyse vorgenommen. Das Wort wird zerlegt in die einzelnen Silben.
z.B.: Lös|ung 2 Teile à Zuordnung
· Phrasierung und Akzentuierung
Seite 7
Lehrveranstaltung:
Einführung in die CL
·
·
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Es werden Wortgruppen aus dem Text herausgeschnitten und mit bestimmten Akzenten
versehen.
z.B.: Er hat die Lösung gefunden.
Hauptakzent ist Lösung
Phonologische Analyse, phonetische Transkription
Umwandlung der Zeichen in Symbolketten.
Die phonetische Zeichen werden in Zahlenkombinationen umgesetzt, Voraussetzung der
Weiterverarbeitung
Syllabifizierung
Wichtig wenn es darum geht Silben vorauszusagen. Statistische Mehtoden
Textvorverarbeitung / Normalisierung?
einige typisch Sätze
Die Konferenz soll am 22.9.1997 beginnen.
Probleme mit der Zahl
Am 6. Tag würfelte er eine 6. Tag und Nacht hatte er es versucht.
Grammatik
…
Stgt nicht aussprechbar für das System.
Römische Zahl
Preis in DM und Punkt am Ende (Biegeangelegenheit)
Datum
:-( ist ein Problem
Analysebeispiel
Hr. Müller, kommt er schon um 11.45h?
Herr Müller [Komma] kommt er schon um elf Uhr fünfundvierzig [Fragezeichen]
_ hE6 mY16 kOmt e:6 So:n Um ?Elf u:6 fYnfUntfI6tsIC _
((_ hE6 mY16) (kOmt e:6 So:n Um ?Elf u:6 fYnfUntfI6tsIC _))
_ hE6 Herr à das r wird nicht ausgesprochen, das wäre sonst nicht verständlich.
E6 steht für /ɛə/
S steht für /ʃ/
? steht für Sprechpause (nicht für Fragezeichen)
Klammerung steht für die Pause.
Begriffe:
SONORISIERUNG
DESONORISIERUNG
etwas stimmhaft machen
etwas stimmlos machen
Seite 8
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
19.11.03
Beispielsatz:
Es ist unser Nomen, adverbiell gesagt, dass das adjektivische Substantiv, das geverbt werden
sollte, um dies zu beverben, adverblich im Nomen unserer Substantive ist.
Fragen:
(1) Hat dieser erwähnte Satz eine Akzentverteilung?
(Setzt dieser Satz Akzente / Betonungen)
(2) Wo liegen die Akzente?
5 großer Akzent … 1 kleiner Akzent
(3) Gibt es einen Zusammenhang zwischen den Wortgruppen in diesem Satz und den
gesetzten Akzenten?
Kennzeichnung durch: [ … ]
ETH. Z Wetterbericht
Poser Online
MBROLA
Verständlichkeit
1 – 10
7
10
7
Natürlichkeit
1 – 10
6
8
6
Webseiten:
www.speech.cs.cmu.edu
www.voicexml.org
Akzentverteilung
Lexikalischer Akzent
Satzakzent
Betonung des Wortes
Akzent in Simplexwörtern und Akzent
komplexer Wörter
(z.B.: Komposita)
Betonung von Wortgruppen
/ anhängig vom Satztyp
(Aussagesatz / Fragesatz / Befehlssatz)
abhängig von Satzzeichen
4
2
4
(1)
Aufmerksamkeit
4
Aufmerksamkeitskriterium
Die Akzentverteilung eines Wortes ändert sich wenn ein Wort mit einem anderen erweitert
wird.
Geben Sie Beispiele: (einfache Wörter, Komposita)
Der Satzakzent überlagert den Wortakzent.
Akzentfaktoren:
- Wort
- Satz
- Emphase
- Fokus
Seite 9
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
26.11.03
Beispielsatz:
1
3
3
3
2
3
2
2
1
1 1
3
3
2 2
1
1 2
2
Es ist unser Nomen, adverbiell gesagt, dass das adjektivische Substantiv, das geverbt werden
2
2
2
1 1
3
2
3
2
2
1
3
2
1
3
2
3
sollte, um dies zu beverben, adverblich im Nomen unserer Substantive ist.
Seite 10
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
Konkordanzfindung:
Findung von zusammengehörigen Wörtern und Wortgruppen.
© Thomas Aichholzer
([email protected])
03.12.03
Erster Schritt dieser Textanalyse ist suchen und finden dieser Wortgruppen.
Content Analysis:
Analysetechnik kontextbezogen.
lange Texte auf Begriffslisten reduzieren (ohne Inhalt zu verlieren)
Concept Dictionaries:
Inhaltsbeschreibende Begriffe und Definitionen enthalten.
Statistical Analysis:
Statistische Analysen. Involviert im einfachsten Fall pures Zählen der Wörter. Produzieren
von (Wort)Frequenzlisten.
Es produziert aber auch das berechnen von statistischen Werten bezogen wiederum auf
Wortkombinationen.
Zum Beispiel kann es interessant sein herauszufinden ob in einem Text xy ein bestimmtes
Nomen mit besonderer Häufigkeit an ein Adjektiv geknüpft ist. (Textklassifikationen)
Textklassifikation:
Statistische Analyse als Basis der Textklassifikation da die Häufigkeiten aussagen über
bestimmte Merkmale und Attribute. Diese kann äußerst wichtig sein bei einer großen Menge
an Texten.
Die Schritte der Textanalyse:
à
Zunächst das Preprocessing (Vorverarbeitung): Normalisierung
Normalisierung ist die Standardisierung und Reduzierung von Texten (Wegschaffen von
unwichtigen nicht sehr klaren Ausdrücken wie Abkürzungen).
Normalisierungen sollten diese Begriffe (Buchstabenketten) entweder eliminieren oder
übersetzen in sinnvolle Begriffe.
Prozess der Tokenisierung: Identifizieren von Wörtern und das abtrennen der Zeichen die
nicht zu diesen Wörtern gehören (Beispiel der Punkt am Ende des Satzes).
Konkordanzermittlung. Ermittlung von Wortgruppen zusammenhängender Wörter.
Die Kontext bedingte Wortanalyse ist noch eine Preprocessing Angelegenheit.
à
Stemming, Lemmatizing
Stemming: Reduzieren von Wörtern auf ihre Stammform.
Beispiel: gehen und geht. Ist auf ein Wort durch Stemming zurückzuführen. Stammform wird
erzeugt (geh).
Beispiel: geht und ging. Stammform ?; geh ist in ging nicht drin .. was soll gemacht werden?
Stringreduktion kann nicht betrieben werden. (reines Stemming nicht möglich)
daher Verwendung von Lemmatizing: Suchen des Lemmas
Suchen einer Grund- oder Basisform. Das Lemma von ging ist wieder geh, Lemma von geht
ist auch geh. Stamm von geht ist geh, Stamm von ging ist ging.
à
POS – Tagging; semantisches Tagging
POS – Tagging ist eine linguistische Angelegenheit.
POS (Part of Speech). Kodieren durch Wortarten. Zuweisen von Symbolen nach Wortarten
(Wortartensymbole).
Zentrale Frage ist nicht: Was tut man mit bekannten Wörtern? sondern Was tun mit
unbekannten Wörtern? Es können nicht alle Wörter in einer Datenbank gespeichert werden.
Seite 11
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Es könnten Regeln in einen Tagger eingefügt werden.
Zum Beispiel. Steht in einem Text ein unbekanntes Wort zwischen einem Artikel und einem
Nomen so ist dieses unbekannte Wort mit höchster Wahrscheinlichkeit an Adverb.
Oder Tagger kennt die Endung: zum Beispiel: Endung: -ung à Nomen
Jedoch die Endung –er ist nicht eindeutig.
Jäger, Sammler
à Nomen
älter
à Adjektiv
semantisches Tagging:
Das semantische Tagging weist Wörtern semantische Merkmale / Kategorien zu.
Zum Beispiel: Verben werden auf semantische Verbklassen zurückgeführt.
versprechen, sagen, meinen … bestimmte Semantik, psychologische Interpretation.
semantisches Tagging kann Aussagen treffen über semantische Stellungen von zum Beispiel
Verben.
à
Chunk-Parsing (Shallow Parsing)
Chunk-Parsing ist herausschneiden und syntaktisches analysieren von Wortgruppen auf der
Basis bereits getaggtem Textes. Es ist auch ganz wesentlich das identifizieren von
Nominalphrasen (NPs) (Wortgruppen). Nominalphrasen als Kopf das Nomen.
Beispiel: der kleine Mann. (können auch sehr komplex sein)
à
Kohärenzermittlung / Anaphernauflösung
Kohärenzermittlung : In welcher Form und wie hängen die Sätze in einem Text zusammen.
Es gibt mehrere Arten des Zusammenhangs.
Die Kohärenzermittlung ist ein Prozess der Semantikermittlung.
Anaphernauflösung: ist die Ermittlung der eindeutigen Semantik von anaphorischen
Elementen. zum Beispiel pronomina (personal Pronomen)
Beispielsatz: Peter arbeitet in der Firma XY. Sie hat …
Sie ist das anaphorische Element und bezieht sich in diesem Fall auf die Firma.
Sie wird also durch die Firma ersetzt.
Anaphern aufzulösen kann schwierig sein ,denn sie können Quellen von Mehrdeutigkeiten
sein.
Beispielsatz:
Peter und Ilse haben viele Bücher gelesen. Sie sind in der Lage viele Referate zu halten.
Sie bezieht sich auf Peter und Ilse.
Attribute von Nomen müssen auch vorhanden sein. Bücher können keine Referate halten!
à
Satzreduktion
Reduzieren von Einzelsätzen. Das Reduzieren von Einzelsätzen kann durch Herausfiltern von
wesentlichen Wörtern aus dem Satz durchgeführt werden.
Könnte man folgenden Satz reduzieren:
Peter und Ilse haben viele Bücher gelesen
möglich wäre: Peter Ilse lesen Bücher...
Basisaussage könnte sein das gerade viele ein wichtiges Merkmal sein könnte oder haben als
Form für die Zeit.
Die Satzreduktion besteht im allgemeinen durch das Herausfiltern des Basisverbs und den mit
diesen in Verbindung stehenden Nomina. (Subjekte und Objekte).
à Prädikatsargumentsstruktur (Codiert die Bedeutung des Satzes).
à
Automatische Indexierung / Zusammenfassung
auch bekannt als Verschlagwortung:
Finden von Begriffen die den Text charakterisieren und nicht unbedingt im Text vorkommen
müssen.
Zusammenfassung: Summerizing
Seite 12
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Aufgabe 1:
Geben Sie einen 10 zeiligen Text ins Word ein, und lassen Sie diesen Text zusammenfassen.
Nehmen Sie Stellung zu dieser Zusammenfassung.
Aufgabe 2 Copernic Summarizer:
Probieren Sie eine Zusammenfassung mit diesem Programm und vergleichen Sie die
Ergebnisse.
10.12.03
Perl Skript und Python Skript.
17.12.03
1. Wortarten
2. STTS Stuttgart und Tübingen Tagset
3. Allgemeine Informationen zum Lexikon und Probleme (Overstemming)
Lexikon Definition:
Das Lexikon ist eine strukturierte Liste von Wörtern, wobei Wörter als die Basisform von
Wörtern zu verstehen ist (Einträge von Basisformen = Lemmata).
Probleme bei der Erzeugung von Basisformen:
Basis Form von Studienabteilungen ???
STUDIEN ABTEILUNG EN
semantische Informationen (unter anderem für die Synonymfindung / Antonymfindung)
morphologische Information (Informationen zur Wortbildung, z.B. wie wird ein Wort
konjugiert?)
Argumentstruktur / Informationen (Wertigkeiten, z.B. lieben à 2wertig, jemand liebt
jemanden)
Bemerkungen zu den Folien aus der Lexikon Theorie:
Mit Verben werden hauptsächlich Zustände bezeichnet.
Substantive sind deklinierbar (Kasus, Numerus).
Flexion
Deklination
(Beugung)
Artikel, Nomen, Adjektive, Pronomen
- Kasus
- Numerus
Formenzusammenfall
SYNKRETISMUS
Konjugation
Verb
Person , Numerus, Tempus, Modus
1. 2. 3. , Sg. Pl., z.B. Präsens,
Indikativ … Wirklichkeitsform
Konjunktiv … Möglichkeitsform
Formenzusammenfall im Femininum (z.B. die Frau):
bei Singular: die
1. Fall Nominativ
der
2. Fall Genitiv
der
3. Fall Dativ
die
4. Fall Akkusativ
bei Plural
die
1. Fall Nominativ
der
2. Fall Genitiv
den 3. Fall Dativ
die
4. Fall Akkusativ
Keine Eindeutige Beziehung zwischen Wortformen (z.B. Artikel) und Kasuszuweisung
Seite 13
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Artikel unterteilen sich in definite und infinite Artikel.
definite Artikel:
der die das
infinite Artikel:
ein, eines, ...
Pronomen (Fürwörter)
ich
Personalpronomen
mein
Possessivpronomen
dieser
Demonstrativpronomen
sich
Reflexivpronomen
niemand
Indefinitpronomen
wer, was
Interrogativpronomen (Fragepronomen)
Partikel
Modalpartikel:
ja
Verbpartikel: er schreibt ab , ab könnte theoretisch auch eine Präposition sein.
Adverbien sind Modifikatoren von Verben. (Umstandswörter)
Es gibt unterschiedliche Arten von Adverbien:
Lokaladverbien:
hier
(Ort)
Temporaladverbien: gestern
(Zeit)
Modaladverbien:
blöderweise (Art und Weise)
Frequenzadverbien: oft, selten
(Häufigkeit)
Negationsadverb:
nicht
Konjunktion (Bindewort):
beiordnend (coordinierend)
und, aber
unterordnende (subordinierend)
dass, weil
Präpositionen (Vorwort, Verhältniswort)
Die den Kasus des Substantiv regieren / bestimmen.
Interjektionen (Empfindungswörter, Ausrufungswörter)
Beispiele: ach, hm, oh, ei, hoi
Produktion von Stoppwortlisten
Wichtig für die Suche in Suchmaschinen, da eine Suche nach diesen keinen Sinn ergeben
würde.
Beispiele: aber, alle (mit Flexionen: allem, allen, …), als, bei, auch, doch, etc.
Stoppwortlisten sind im Deutschen wesentlich länger als im Englischen, da viele Wörter im
englischen unflektiert eingetragen werden können.
Seite 14
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
07.01.04
Zusammenfassungssysteme, verwenden keine Linguistischen Systeme der Zusammenfassung.
Texte werden einfach herausgefiltert und ausgeschnitten.
Sprachgenerierung ist die Erzeugung (automatische Erzeugung) von natürlicher Sprache auf
der Basis formaler Repräsentation.
Diese formale Repräsentation ist eine (prädikaten-)logische Formel (im Normalfall), im Sinne
der Prädikatenlogik. Diese Prädikatenlogik wird in natürliche Sprache rückübersetzt.
Wann versteht eine Maschine die natürliche Sprache (im Sinne der künstlichen Intelligenz)?
Für unsere Zwecke genügt eine formale Darstellung.
Es gibt mehrere Schritte der Sprachverarbeitung.
1. Spracherkennung
Akustische Signalanalyse. Lautsprache wird verarbeitet.
2. Syntaktische Analyse
In jedem Fall notwendig, auch bei Texten in geschriebener Form. Bestimmung der Struktur
der Eingabesätze.
3. Semantische Analyse (Bedeutungsanalyse)
Nicht nur Analyse der Worte sondern auch die der Sätze.
In vielen Fällen ist die Syntaktische und die Semantische Analyse nicht immer so einfach zu
trennen, da die beiden eng verschränkt sind.
4. Pragmatische Analyse
Bestimmung der Verwendung von Sätzen.
Syntaktische Analyse
Syntaxregeln müssen definiert werden. Wohlgeformtheitsgrad wird über solche Regeln
bestimmt. Bestimmung und Formalisierung solcher Regeln ist schwierig.
Wortgruppen sollen identifiziert werden. Ein Beispiel für eine Wortgruppe: „der Hund“
gehören zusammen.
Beispiel: „vom Hund“ vom ist hierbei eine synthetische Form: vom < von + dem
Wortgruppen können wiederum auch in Subwortgruppen beinhalten.
„der Hase mit den langen Ohren“ à zusammengesetzte Nominalphrase.
Weitere Aufgaben sind strukturell bedingte Doppeldeutigkeiten herauszufinden. Zu
unterscheiden sind hier nicht Wortsemantische Doppeldeutigkeiten (z.B. „Bank“ als Sitzbank
oder als Geldinstitut).
Beispiel: „Peter sah Maria mit dem Fernglas“
Möglichkeit 1: Peter hat ein Fernglas und sieht damit Maria
Möglichkeit 2: Peter sieht Maria die ein Fernglas bei sich hat.
Präpositionalphrasen können häufig Doppeldeutigkeiten beinhalten.
Strukturelle Doppeldeutigkeiten können in speziellen Fällen auch keine Doppeldeutigkeiten
sein. Beispiel: „Ich sah den Kölner Dom auf dem Flug nach Rom“
Der Kölner Dom kann nicht in einem Flug nach Rom sein, daher gibt es keine
Doppeldeutigkeit in diesem Satz. Würde der Kölner Dom durch Herrn Maier ersetzt werden,
so wäre der Satz doppeldeutig.
Seite 15
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Eine Grammatik ist ein Regelsystem mit deren Hilfe man wohlgeformte Sätze erzeugt.
Grammatikregeln sind normalerweise Ersetzungsregeln. Ersetzungsregeln sind Regeln mit
deren Hilfe man übergeordnete Kategorien durch untergeordnete Kategorien ersetzt.
Parser sind Systeme zur automatischen Syntaxanalyse
Grammatikregeln:
Kontextfreie Ersetzungsregeln für die Erzeugung von Strukturbäumen:
Satz à NP VP
Satz setzt sich zusammen aus NP (Nominalphrase) und VP (Verbalphrase)
NP à ART N
VP à V NP
ART à der, den
N à Hund, Knochen
terminale Regeln (Elemente Regeln)
V à fraß
Mit Hilfe dieser Regeln lässt sich eine Struktur aufbauen.
S dominiert NP und VP (im Syntaxbaum)
Aufgrund der definierten Regeln könnte auch folgender Satz möglich sein:
„Der Knochen fraß den Hund“ semantisch falsch oder
„den Hund fraß Der Knochen“ syntaktisch falsch etc.
Parserbeispiele
NTMS Struktur
NTMS … Natürlichkeits- Theoretische Morpho Syntax
v4 … S (Satz)
v3 … VP (Verbalphrase)
n3 … NP (Nominalphrase)
Seite 16
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
Beispiel für einen Passivsatz:
Seite 17
© Thomas Aichholzer
([email protected])
Lehrveranstaltung:
Einführung in die CL
21.01.2004
Mitschrift – Skript
© Thomas Aichholzer
([email protected])
Automatische (bzw. Maschinelle) Übersetzung:
14.01.04
(A)
Wort für Wort
Übersetzung
(B)
Satz – Satz
Übersetzung
Volltextübersetzung
(B)
Satz für Satz Übersetzung:
Input
A
Quell –
Sprache
B
C
Ziel –
Sprache
Interlingua
Linguistische -,
Morphologische -,
Syntaktische -,
Semantische
Analyse
(Zwischensprache)
Konzepte
Linguistische – Analyse,
Struktur in der
Zielsprache
Morphologische Analyse: Identifikation der Wortstrukturen
Syntaktische Analyse: Identifikation der Wortformen
Semantische Analyse: Bedeutungskonzepte werden den Wörtern zugeordnet
Übersetzungsprogramme:
PT
…
T1
…
Systran
Reverso
Personal Translator (ursprünglich IBM Produkt)
Langenscheidt (Siemens Produkt)
Probleme der Übersetzung gibt es bei den Personen. Aus Er oder Sie wird It (engl. Es).
Beispiel:
Er ist schwer zu verstehen à It is difficult to understand
Seite 18
Herunterladen