Tagging: Wortarten Wortarten

Werbung
Tagging: Wortarten
Machine Language Processing
Heike Zinsmeister
WS 2008/09
Wortarten - Hintergrund
• Kategorien
– Grundbegriffe eines Systems
– Philosophie: Kategorienlehre von Aristoteles als
Systematik der Grundformen des Seins
• Substanz, Quantität, Qualität, Relation, Ort, Zeit,
Lage, Haben, Wirken und Leiden
– syntaktische/grammatische Kategorien: Wortarten
('parts of speech')!
• Dionysios Thrax (ca. 170"90 v.Chr), Alexandria
– erste griechische Grammatik
– 8 Wortarten:
• Adverben, Artikel, Konjunktionen, Nomen,
Partizipien, Präpositionen, Pronomen und Verben
1
Wortarten - Kriterien
• Morphologische Kriterien
– flektierbar oder nicht, Art der Flektion
– wortartenspezifische Affigierung in der Wortbildung
• Semantische Kriterien
– teilweise Bildung von Unterklassen durch
Bedeutungsunterschiede
• Distributionelle Kriterien
– Wortartenkontexte / Positionen im Satz, in denen ein
Element typischerweise auftritt
!Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen.
2
Wortarten - Übersicht
• Klassifizierung nach morphologischen Kriterien
Wort
flektierbar
deklinierbar
Substantive
Adjektive
Artikel
nicht-flektierbar
konjugierbar
Verben
Konjunktionen
Präpositionen
Adverbien
Partikeln
Interjektionen
3
(nach Pittner & Berman: 2004: 15)!
die Tagsets: STTS (Deutsch)
und Penn Treebank Tagset
(Englisch)!
4
STTS
• das Stuttgart-Tübingen Tagset (Schiller et al. 1999)!
• Wortarten-Analyse für die manuelle (und automatische)
Annotation von deutschen Textkorpora
• Vereinfachung: Leerzeichen = Wortgrenze
– es werden zunächst keine Mehrwortlexeme
berücksichtigt
• Orientierung am Standard der Text Encoding Initiative (TEI)!
– 11 Hauptwortarten, spezifiziert in
– 54 Wortarten-Tags (48 & 6 Zusatztags)
5
STTS Hauptwortarten
Tagaufbau
(Schiller et al. 1999:4)!
– hierarchisch von links nach rechts: vom Allgemeinen zum
Spezifischeren
– Bsp. Pronomen
(1) Diese Lösung klappt. (2) Diese klappt nicht.
ad (1): Pronomen demonstrativ attribuierend, PDAT
ad (2): Pronomen demonstrativ substituierend, PDS
6
Das Penn Treebank Tagset (1)!
• vgl. Santorini (1991)!
• 45 Tags (36 & 9 'punctuation tags')!
• basiert auf dem umfangreicheren Tagset des Brown Corpus
(Francis & Ku!era 1982)!
• Typen von Tags
– Hauptklassen: noun, common and proper; verb; adjective;
adverb
– Funktionswörter: determiners, prepositions, conjunctions,
pronouns, etc.
– wichtige Einzelwörter: to, there
– Interpunktion
– Fremdsprachl. Material, Symbole, Interjektionen, List Marker
7
Das Penn Treebank Tagset (2)!
• Tagnamen sind weniger hierarchisch aufgebaut
als im STTS
• Manche Tags sind nicht intuitiv, z.B.
– “JJ” für Adjektive
– “RB” für Adverb
• To ist immer als TO getaggt
(1) to_TO go_VB to_TO university_NN
• existenzielles there ist als EX getaggt
(2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT
garden_NN
8
Die Wortarten im Allgemeinen
9
Nomen (1)!
• auch: Substantiv
• morphologische Eigenschaften
– festes Genus
• Maskulin, Feminin, Neutrum
• Aber: dialektale bzw. regionale Schwankungen
(1) der/das Teller, der/die Butter, der/das Radio
•
Aber: Neue Wörter und andere Unsicherheiten
(2) der/das Jogurt, der/das Virus, der/das Chip
– werden nach Numerus und Kasus dekliniert
• Aber: Pluralia Tanta (treten nur im Plural auf)!
(3) Geschwister, Alpen,...
•
Stoffsubstantive und manch andere (sind nicht
zählbar)! treten nur im Singular auf (“Reis ist...”)!
(4) Reis, Mehl, Sand, Ruhe, Haß, Wut,...
10
Nomen (2)!
• Semantische Eigenschaften
– Konkreta -- Abstrakta
• Gegenständliches -- Vorstellungen/ Handlungen/
Vorgänge/Zustände/Eigenschaften/...
(1) Stuhl / Obst -- Meinung / Ruhe
– belebt -- unbelebt
(2) Katze / Alge -- Weg / Schule
– Gattungsbezeichnungen (Appellativa) -- Eigennamen
• (3) ein/der Hund -- Fido
– diskret / zählbar – nicht zählbar
(4) zwei Stühle vs. zwei *Obst
(5) zwei Meinungen vs. zwei *Ruhen
11
Nomen (3)!
• Distributionelle Kriterien, typische Kontexte:
– Artikel (Adjektiv)* Nomen
(1) Er liest ein neues Buch.
•
aber: Eigennamen, Plurale, Stoffsubstantive,
Funktionsverbgefüge, ...
(2) Max liest gerne Comics.
(3) Er isst Obst.
(4) Er hat Freundschaft mit ihr geschlossen.
– Präposition (Artikel)? (Adjektiv)* Nomen
(5) Sie zieht die Option in Betracht.
Notation:
* = “Kleene Star”
(x)* = x kommt null mal, ein mal oder beliebig oft vor
(x)? = x kommt nicht oder genau einmal vor
12
Nomen (4)!
• STTS:
– NN: “normales” Nomen ('common noun')!
– NE: Eigenname
• Penn Treebank
–
–
–
–
NN: noun, singular or mass
NNS: noun, plural
NNP: proper noun, singular
NNPs: proper noun, plural
13
Verb (1)!
• Morphologische Eigenschaften
•
werden konjugiert Dt.: Tempus, Modus, Numerus, Person
• Semantische Eigenschaften
– Vollverben (lexikalische Verben)!
•
eigene Semantik
– Hilfsverben (Auxiliare)!
•
grammatische Bedeutung: Tempus, Konjunktiv,Passiv
– Modalverben
•
drücken Möglichkeit, Notwendigkeit, Erlaubnis,
Einschätzung der Wahrscheinlichkeit u.ä. aus
– Kopulaverben
•
drücken Zustand oder Fortdauern aus: sind
grammatischer Kitt für nicht-verbale Prädikate
14
Verb (2)!
• Distributionelle Eigenschaften
– Vollverben
•
treten selbstständig auf (mit ihren Argumenten)!
– Hilfsverben
•
treten nur zusammen mit einem infiniten Vollverb
auf (im Partizip Perfekt oder Infinitiv)!
(1) haben, sein, werden
– Modalverben
• treten mit infiniten Vollverben und Kopulaverben auf
(2) können, dürfen, müssen, sollen, wollen, mögen
– [Halbmodalverben mit Vollverb im zu-Infinitiv
(3) scheint zu schlafen, verspricht zu bleiben, droht
zu...]
15
Verb (3)!
• Distributionelle Eigenschaften (Fortsetzung)!
– Kopulaverben
• treten mit nicht-verbalem Prädikat auf
• zählen mehr zu den Vollverben als zu den
Auxiliaren
• sein, bleiben, werden
(1) Er ist [NP ein guter Fußballer].
(2) Sie wird [AdjP gesund].
(3) Ein Gewitter ist [PP im Anmarsch].
16
Verb (4)!
•
•
STTS: Vollverben
•
VVFIN: Vollverb, finit
•
VVIMP: Vollverb, Imperativ
•
VVINF: Vollverb, Infinitiv
•
VVIZU: Vollverb, zu-Infinitiv
•
VVPP: Vollverb, Partizip Perfekt
– Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA)!
– Modalverben: VMFIN, VMINF,VMPP
Penn Treebank
– VB: Verb, base form
– VBD: Verb, past tense
– VBG: Verb, gerund or present participle
– VPN: Verb, past participle
– VBP: Verb, non-3rd person singular present
– VBZ: Verb, 3rd person singular present
17
Adjektiv (1)!
• Morphologische Eigenschaften
– deklinierbar: großer, große, großes, ....
– komparierbar: große, größere, größte
• Semantische Eigenschaften, Beispiele:
– Qualitität
(1) rot, rund, laut, gut, angeblich,..
– Relation
(2) asiatisch, ärztlich, hölzern,..
– quantifizierend
(3) viel, wenig, eine, hundert, dritter, vierter,...
– adjektivisch gebrauchte Partizipien
(4) suchend, belastend, gesucht, belastet,...
18
Adjektiv (2)!
• Distributionelle Eigenschaften
– prädikativ mit Kopulaverb (nicht flektiert)!
(1) Der Ball ist rot, Die Freunde sind quitt.
– adverbial verwendet mit Vollverb (nicht flektiert)!
(2) Das Auto fährt schnell
– attribuierend (normalerweise flektiert)!
(3) Der rote Ball, Das lila Kleid
• können Argumente selegieren
(4) er ist stolz [PP auf seinen Sieg]
(5) Sie ist imstande [VP zu gehen]
19
Adjektiv (3)!
• STTS
– ADJA: Adjektiv, attribuierend
– ADJD: Adjektiv, adverbial oder prädikativ
– anderen Wortklassen zugeordnet
• PIS/PIAT: viele, manche,...
• CARD: zwei Männer, ..
• Penn Treebank
– JJ: adjective
– JJR: adjective, comparative
– JJS: Adjective, superlative
• CD: two men, ...
20
Pronomen (1)!
• Morphologische Eigenschaften
– flektieren
• Semantische Eigenschaften
– Beitrag zur Referenz
– ersetzen Nomen (siehe dort)!
– Unterklassen, z.B.
• Personalpronomen: ich, du,...
• Possessivpronomen: mein, dein,...
• Demonstrativpronomen: dieser, jener
• Reflexivpronomen: sich, einander
• Fragepronomen: wer, wie, was, warum
• Relativpronomen: der, die, das,
21
Pronomen (2)!
• Distributionelle Eigenschaften
– attribuierend (ersetzen einen Artikel)!
(1) dieser Baum
(2) welcher Baum?
– substituierend (ersetzen eine Nominalphrase, oder
ähnliches)!
(3) Er hat diesen gefällt.
(4) Welchen hat er gefällt
22
Pronomen (3)!
• STTS
–
–
–
–
–
–
–
–
–
PDS, PDAT: Demonstrativpronomen
PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,...
PPER: Personalpronomen
PPOSS, PPOSAT: Possessivpronomen
PRELS, PRELAT:Relativpronomen
PRF: Reflexiv- und Reziprokpronomen: sich, einander,...
PWS, PWAT:Interrogativpronomen
PWAV: adverbiales Interrogativ- oder Relativpronomen: warum
PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
•
in STTS keine w-Pronominaladverbien, sind alle PWAV
•
PAV heißt in der Tübinger Baumbank “PROP”, vgl. ausgeteilte
STTS-Übersicht
•
und in der TIGER Baumbank “PROAV”
23
Pronomen (4)!
• Penn Treebank
– PRP, PRP$: personal pronoun, possessive pronoun
– WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb
24
Determiner (1)!
• auch: Artikel
• Morphologische Eigenschaften
– werden flektiert
• Semantische Eigenschaften
– legen Referenz des Substantivs fest
• definit/indefinit, bestimmt/unbestimmt
• Distributionelle Eigenschaften
– treten stets zusammen mit einem Substantiv auf
– Scheinbare Ausnahme: Ellipsen
(1) Ich nehme das große Stück, du bekommst [das
kleine ___ ].
25
Determiner (2)!
• STTS
– ART
– anderen Wortarten zugeordnet
• APPART: Präposition mit Artikel: zum
• PDAT: attribuierende Demonstrativpronomen:
diese NN
• Penn Treebank
– DT
26
Adverb (1)!
• Morphologische Eigenschaften
– wird nicht flektiert (manche werden kompariert)!
– Engl.: werden mit -ly gebildet
• aber: friendly (Adjektiv), seldom/often (Adverb)!
• Semantische Eigenschaften, Beispiele:
–
–
–
–
temporal: heute, oft,..
lokal: dort, hier, unten, dorthin,...
modal: eilend, flugs, gerne,..
kausal: deswegen, umständehalber,...
27
Adverb (2)!
• Semantische Eigenschaften (Fortsetzung)!
• Satzadverbien:!
– Stellungnahme: leider, hoffentlich
– Wahrscheinlichkeit: vielleicht, möglicherweise,...
– Bewertung: dummerweise, ...
• Konjuktionaladverbien:!
– Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb
...
• Pronominaladverbien:!
– da-/hier-/wo-+Präposition
(1) Er kümmert sich darum, dass nichts passiert.
28
Adverb (3)!
• Distributionelle Eigenschaften
– Dt.:Können am Satzanfang alleine vor dem finiten
Verb auftreten
29
Adverb (4)!
• STTS
– ADV
• Anderen Hauptklassen zugeordnet:
– PWAV, adverbiales Fragepronomen: warum, wann, worüber,
wobei,...
– PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
•
in STTS keine w-Pronominaladverbien, sind alle PWAV
•
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
•
und in der TIGER Baumbank “PROAV”
• Penn Treebank
– RB, RBR, RBS - Steigerungsformen
30
Präposition (1)!
• allgemeiner: Adposition
• Morphologische Eigenschaften
– werden nicht flektiert
• Semantische Eigenschaften
– Zeitangaben (temporal)!
(1) Sie besucht uns in drei Wochen
– Modalangabe (Art und Weise)!
(2) Die Tür wird in Rot gestrichen.
– Kausalangabe (Grund)!
(3) Er weint vor Freude.
31
Präposition (2)!
• (Fortsetzung: Semantische Eigenschaften')!
– Lokalangabe (Ort), Temporalangabe (Zeit)
(4) Sie wartet auf dem Bahnsteig
– neutral (grammatikalisiert)
(5) Sie wartet auf den Zug.
32
Präposition (3)!
• Distributionelle Eigenschaften
– treten normalerweise mit Nominalphrasen auf,
bestimmen (“regieren”) deren Kasus
(1) neben dem Haus, *neben des Hauses
(2) in das Haus (direktional) / in dem Haus (lokal)!
(3) Er ist von hier (mit Adverb)!
– Präposition
• geht dem Nomen voran: vor dem Nomen
– Postposition:
• folgt dem Nomen nach: den Zaun entlang
– Zirkumposition:
• zweigeteilt: um .. willen, um ... herum
33
Präposition (4)!
• STTS
–
–
–
–
APPR: Präposition
APPRART: Präposition mit Artikel: zum, am, ...
APPO: Postposition
APZR: rechter Teil einer Zirkumposition
(1) Um ihn herum stehen viele Leute
(2) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT
Leute_NN
• Penn Treebank
– IN: Präpositionen und subordinierende Konjunktionen
(siehe Folie 39)!
34
Konjunktion
• auch: Koordinierende Konjunktion
• Morphologische Eigenschaften
– wird nicht flektiert
• Semantische Eigenschaften
– verbindet zwei (oder mehr) gleichwertige Sätze oder
Satzteile
(1) und, oder, sowohl ... als auch
• STTS: KON
• Penn Treebank: CC (coordinating conjunction)!
35
Subjunktion (1)!
• auch: subordinierende Konjunktion
• Morphologische Eigenschaften
– wird nicht flektiert
• Semantische Eigenschaften
–
–
–
–
bindet Sätze in andere Sätze ein, z.B.
Argumentsatz: ..., dass....
temporal: ..., dann ...
kausal: ..., weil ...
• Distributionelle Eigenschaften
– tritt (fast) nur an der ersten Position im Teilsatz auf
36
Subjunktion (2)!
• STTS
– KOUS: subordinierende Konjunktion mit Satz
(1) ..., weil er nach Hause geht.
– KOUI: subordinierende Konjunktion mit zu-Infinitiv
(2) ... um nach Hause zu gehen.
• Penn Treebank
– IN: gemeinsames Tag für subordinierende
Konjunktionen und Präpositionen
(3) I think that_IN he left early.
(4) The kettle is on_IN the fire.
37
Partikel (1)!
• Morphologische Eigenschaften
– nicht flektiert
• Semantische Eigenschaften
– Modalpartikel: “Abtönungspartikel”
(1) Er hat ja/doch/einfach keine Zeit
– Fokuspartikel: Alternativenbezug!
(2) Auch/nur/sogar Peter kommt.
– Steigerungspartikel: “intensifier”
(3) ziemlich/sehr/ungemein dumm
– Antwortpartikel: ja, nein
38
Partikel (2)!
• STTS
– PTKZU: zu mit zu-Infinitiv
– PTKNEG: Negationspartikel nicht
– PTKVZ: abgetrennte Verbpartikel
(1) er kommt_VVFIN hier mit_PTKVZ.
Vergleiche:
(2) dass er hier mitkommt_VVFIN .
– PTKANT: Antwortpartikel
(3) ja, nein, danke, bitte
– PTKA: Partikel mit Adjektiven/Adverbien
(4) am schönsten, zu schnell
• Penn Treebank
– RP
39
0ffene und geschlossene Klassen
• lexikalische Klassen (Inhaltswörter)!
– offene Klassen: erlauben Neubildungen
– Nomen, Verben, Adjektive, Adverbien
• Funktionswörter
– geschlossene Klassen: kaum Neubildungen
– Präpositionen, Artikel, Modalpartikel
• Grammatikalisierung
– Verlust der lexikalischen Bedeutung bei
gleichzeitiger Verwendung als Funktionswort
(1) Das ist voll gut
40
Sind Wortarten universell?
• Wortarten sind nicht universell
– Bsp.: Latein besitzt, anders als Griechisch, keine Artikel.
Folge: Anpassung der klassischen 8 Wortarten von Thrax
an die Gegebenheiten des Latein durch Ersetzung der
Wortart “Artikel” mit “Interjektion” ('uh').
• Grammatiken durch das Griechische / das Lateinische
geprägt (bzw. verzerrt)!
• Standardisierungsbestrebungen
– EAGLES-Empfehlungen für europäische Sprachen
http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm
– GOLD-Ontologie http://www.linguisticsontology.org/gold.html
41
Beispiele für sprachspezifische Wortarten bzw.
deren Fehlen (1)!
• Deutsch
– Verschmelzung von Präposition und definitem Artikel.
Unterklasse: Kontrahierte Form
(1) am, zum, beim usw.
• Dänisch
– Definiter Artikel als Affix, wenn kein Adjektiv beim
Nomen: Unterklasse: definites Nomen
(2) en bog (ein Buch) / bogen (das Buch)!
• Inuktitut, Japanisch, Latein, Polnisch, Russisch, ...
– besitzen keine Artikel
(3) Polnisch: ch"opiec #piewa (Ein/Der Junge singt.)!
42
Beispiele für sprachspezifische Wortarten bzw.
deren Fehlen (2)!
• Inuktitut
– Ist stark agglutinierend, d.h. es werden sehr
komplexe Wörter aus vielen Morphemen gebildet
• keine subordinierenden Konjunktionen
• keine Präpositionen (sondern Kasusmorpheme)
• “Adjektive” existieren nur als gebundene
Morpheme
(1) silaluk
sila -luk = Wetter-schlecht "schlechtes Wetter"
(2) ijiluktunga
iji -luk -tunga
Auge-schlecht-1.singular_intransitiv
"Ich habe schlechte Augen" (Nowak 2007: 41)!
43
Referenzen (1)!
• Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik.
Stuttgart / Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5
• Dudenverlag: Duden – Die Grammatik (Bd. 4).
• W. Nelson Francis und Henry Ku!era. 1982. Frequency analysis of
English usage : lexicon and grammar. Boston : Houghton Mifflin, 1982;
http://icame.uib.no/brown/bcm.html
• Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin.
http://www.tu-berlin.de/fak1/el/
board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0
44
Referenzen (2)!
• Anne Schiller, Simone Teufel, Christine Stöckert und
Christine Thielen. 1999. Guidelines für das Tagging
deutscher Textcorpora mit STTS. Technischer Bericht.
Institut für maschinelle Sprachverarbeitung, Stuttgart.
http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf
• Beatrice Santorini. 1990. Part-of-Speech Tagging
Guidelines for the Penn Treebank Project. Technischer
Bericht. University of Pennsylvania.
ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz
45
Herunterladen