Tagging: Wortarten Machine Language Processing Heike Zinsmeister WS 2008/09 Wortarten - Hintergrund • Kategorien – Grundbegriffe eines Systems – Philosophie: Kategorienlehre von Aristoteles als Systematik der Grundformen des Seins • Substanz, Quantität, Qualität, Relation, Ort, Zeit, Lage, Haben, Wirken und Leiden – syntaktische/grammatische Kategorien: Wortarten ('parts of speech')! • Dionysios Thrax (ca. 170"90 v.Chr), Alexandria – erste griechische Grammatik – 8 Wortarten: • Adverben, Artikel, Konjunktionen, Nomen, Partizipien, Präpositionen, Pronomen und Verben 1 Wortarten - Kriterien • Morphologische Kriterien – flektierbar oder nicht, Art der Flektion – wortartenspezifische Affigierung in der Wortbildung • Semantische Kriterien – teilweise Bildung von Unterklassen durch Bedeutungsunterschiede • Distributionelle Kriterien – Wortartenkontexte / Positionen im Satz, in denen ein Element typischerweise auftritt !Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen. 2 Wortarten - Übersicht • Klassifizierung nach morphologischen Kriterien Wort flektierbar deklinierbar Substantive Adjektive Artikel nicht-flektierbar konjugierbar Verben Konjunktionen Präpositionen Adverbien Partikeln Interjektionen 3 (nach Pittner & Berman: 2004: 15)! die Tagsets: STTS (Deutsch) und Penn Treebank Tagset (Englisch)! 4 STTS • das Stuttgart-Tübingen Tagset (Schiller et al. 1999)! • Wortarten-Analyse für die manuelle (und automatische) Annotation von deutschen Textkorpora • Vereinfachung: Leerzeichen = Wortgrenze – es werden zunächst keine Mehrwortlexeme berücksichtigt • Orientierung am Standard der Text Encoding Initiative (TEI)! – 11 Hauptwortarten, spezifiziert in – 54 Wortarten-Tags (48 & 6 Zusatztags) 5 STTS Hauptwortarten Tagaufbau (Schiller et al. 1999:4)! – hierarchisch von links nach rechts: vom Allgemeinen zum Spezifischeren – Bsp. Pronomen (1) Diese Lösung klappt. (2) Diese klappt nicht. ad (1): Pronomen demonstrativ attribuierend, PDAT ad (2): Pronomen demonstrativ substituierend, PDS 6 Das Penn Treebank Tagset (1)! • vgl. Santorini (1991)! • 45 Tags (36 & 9 'punctuation tags')! • basiert auf dem umfangreicheren Tagset des Brown Corpus (Francis & Ku!era 1982)! • Typen von Tags – Hauptklassen: noun, common and proper; verb; adjective; adverb – Funktionswörter: determiners, prepositions, conjunctions, pronouns, etc. – wichtige Einzelwörter: to, there – Interpunktion – Fremdsprachl. Material, Symbole, Interjektionen, List Marker 7 Das Penn Treebank Tagset (2)! • Tagnamen sind weniger hierarchisch aufgebaut als im STTS • Manche Tags sind nicht intuitiv, z.B. – “JJ” für Adjektive – “RB” für Adverb • To ist immer als TO getaggt (1) to_TO go_VB to_TO university_NN • existenzielles there ist als EX getaggt (2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT garden_NN 8 Die Wortarten im Allgemeinen 9 Nomen (1)! • auch: Substantiv • morphologische Eigenschaften – festes Genus • Maskulin, Feminin, Neutrum • Aber: dialektale bzw. regionale Schwankungen (1) der/das Teller, der/die Butter, der/das Radio • Aber: Neue Wörter und andere Unsicherheiten (2) der/das Jogurt, der/das Virus, der/das Chip – werden nach Numerus und Kasus dekliniert • Aber: Pluralia Tanta (treten nur im Plural auf)! (3) Geschwister, Alpen,... • Stoffsubstantive und manch andere (sind nicht zählbar)! treten nur im Singular auf (“Reis ist...”)! (4) Reis, Mehl, Sand, Ruhe, Haß, Wut,... 10 Nomen (2)! • Semantische Eigenschaften – Konkreta -- Abstrakta • Gegenständliches -- Vorstellungen/ Handlungen/ Vorgänge/Zustände/Eigenschaften/... (1) Stuhl / Obst -- Meinung / Ruhe – belebt -- unbelebt (2) Katze / Alge -- Weg / Schule – Gattungsbezeichnungen (Appellativa) -- Eigennamen • (3) ein/der Hund -- Fido – diskret / zählbar – nicht zählbar (4) zwei Stühle vs. zwei *Obst (5) zwei Meinungen vs. zwei *Ruhen 11 Nomen (3)! • Distributionelle Kriterien, typische Kontexte: – Artikel (Adjektiv)* Nomen (1) Er liest ein neues Buch. • aber: Eigennamen, Plurale, Stoffsubstantive, Funktionsverbgefüge, ... (2) Max liest gerne Comics. (3) Er isst Obst. (4) Er hat Freundschaft mit ihr geschlossen. – Präposition (Artikel)? (Adjektiv)* Nomen (5) Sie zieht die Option in Betracht. Notation: * = “Kleene Star” (x)* = x kommt null mal, ein mal oder beliebig oft vor (x)? = x kommt nicht oder genau einmal vor 12 Nomen (4)! • STTS: – NN: “normales” Nomen ('common noun')! – NE: Eigenname • Penn Treebank – – – – NN: noun, singular or mass NNS: noun, plural NNP: proper noun, singular NNPs: proper noun, plural 13 Verb (1)! • Morphologische Eigenschaften • werden konjugiert Dt.: Tempus, Modus, Numerus, Person • Semantische Eigenschaften – Vollverben (lexikalische Verben)! • eigene Semantik – Hilfsverben (Auxiliare)! • grammatische Bedeutung: Tempus, Konjunktiv,Passiv – Modalverben • drücken Möglichkeit, Notwendigkeit, Erlaubnis, Einschätzung der Wahrscheinlichkeit u.ä. aus – Kopulaverben • drücken Zustand oder Fortdauern aus: sind grammatischer Kitt für nicht-verbale Prädikate 14 Verb (2)! • Distributionelle Eigenschaften – Vollverben • treten selbstständig auf (mit ihren Argumenten)! – Hilfsverben • treten nur zusammen mit einem infiniten Vollverb auf (im Partizip Perfekt oder Infinitiv)! (1) haben, sein, werden – Modalverben • treten mit infiniten Vollverben und Kopulaverben auf (2) können, dürfen, müssen, sollen, wollen, mögen – [Halbmodalverben mit Vollverb im zu-Infinitiv (3) scheint zu schlafen, verspricht zu bleiben, droht zu...] 15 Verb (3)! • Distributionelle Eigenschaften (Fortsetzung)! – Kopulaverben • treten mit nicht-verbalem Prädikat auf • zählen mehr zu den Vollverben als zu den Auxiliaren • sein, bleiben, werden (1) Er ist [NP ein guter Fußballer]. (2) Sie wird [AdjP gesund]. (3) Ein Gewitter ist [PP im Anmarsch]. 16 Verb (4)! • • STTS: Vollverben • VVFIN: Vollverb, finit • VVIMP: Vollverb, Imperativ • VVINF: Vollverb, Infinitiv • VVIZU: Vollverb, zu-Infinitiv • VVPP: Vollverb, Partizip Perfekt – Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA)! – Modalverben: VMFIN, VMINF,VMPP Penn Treebank – VB: Verb, base form – VBD: Verb, past tense – VBG: Verb, gerund or present participle – VPN: Verb, past participle – VBP: Verb, non-3rd person singular present – VBZ: Verb, 3rd person singular present 17 Adjektiv (1)! • Morphologische Eigenschaften – deklinierbar: großer, große, großes, .... – komparierbar: große, größere, größte • Semantische Eigenschaften, Beispiele: – Qualitität (1) rot, rund, laut, gut, angeblich,.. – Relation (2) asiatisch, ärztlich, hölzern,.. – quantifizierend (3) viel, wenig, eine, hundert, dritter, vierter,... – adjektivisch gebrauchte Partizipien (4) suchend, belastend, gesucht, belastet,... 18 Adjektiv (2)! • Distributionelle Eigenschaften – prädikativ mit Kopulaverb (nicht flektiert)! (1) Der Ball ist rot, Die Freunde sind quitt. – adverbial verwendet mit Vollverb (nicht flektiert)! (2) Das Auto fährt schnell – attribuierend (normalerweise flektiert)! (3) Der rote Ball, Das lila Kleid • können Argumente selegieren (4) er ist stolz [PP auf seinen Sieg] (5) Sie ist imstande [VP zu gehen] 19 Adjektiv (3)! • STTS – ADJA: Adjektiv, attribuierend – ADJD: Adjektiv, adverbial oder prädikativ – anderen Wortklassen zugeordnet • PIS/PIAT: viele, manche,... • CARD: zwei Männer, .. • Penn Treebank – JJ: adjective – JJR: adjective, comparative – JJS: Adjective, superlative • CD: two men, ... 20 Pronomen (1)! • Morphologische Eigenschaften – flektieren • Semantische Eigenschaften – Beitrag zur Referenz – ersetzen Nomen (siehe dort)! – Unterklassen, z.B. • Personalpronomen: ich, du,... • Possessivpronomen: mein, dein,... • Demonstrativpronomen: dieser, jener • Reflexivpronomen: sich, einander • Fragepronomen: wer, wie, was, warum • Relativpronomen: der, die, das, 21 Pronomen (2)! • Distributionelle Eigenschaften – attribuierend (ersetzen einen Artikel)! (1) dieser Baum (2) welcher Baum? – substituierend (ersetzen eine Nominalphrase, oder ähnliches)! (3) Er hat diesen gefällt. (4) Welchen hat er gefällt 22 Pronomen (3)! • STTS – – – – – – – – – PDS, PDAT: Demonstrativpronomen PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,... PPER: Personalpronomen PPOSS, PPOSAT: Possessivpronomen PRELS, PRELAT:Relativpronomen PRF: Reflexiv- und Reziprokpronomen: sich, einander,... PWS, PWAT:Interrogativpronomen PWAV: adverbiales Interrogativ- oder Relativpronomen: warum PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ... • in STTS keine w-Pronominaladverbien, sind alle PWAV • PAV heißt in der Tübinger Baumbank “PROP”, vgl. ausgeteilte STTS-Übersicht • und in der TIGER Baumbank “PROAV” 23 Pronomen (4)! • Penn Treebank – PRP, PRP$: personal pronoun, possessive pronoun – WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb 24 Determiner (1)! • auch: Artikel • Morphologische Eigenschaften – werden flektiert • Semantische Eigenschaften – legen Referenz des Substantivs fest • definit/indefinit, bestimmt/unbestimmt • Distributionelle Eigenschaften – treten stets zusammen mit einem Substantiv auf – Scheinbare Ausnahme: Ellipsen (1) Ich nehme das große Stück, du bekommst [das kleine ___ ]. 25 Determiner (2)! • STTS – ART – anderen Wortarten zugeordnet • APPART: Präposition mit Artikel: zum • PDAT: attribuierende Demonstrativpronomen: diese NN • Penn Treebank – DT 26 Adverb (1)! • Morphologische Eigenschaften – wird nicht flektiert (manche werden kompariert)! – Engl.: werden mit -ly gebildet • aber: friendly (Adjektiv), seldom/often (Adverb)! • Semantische Eigenschaften, Beispiele: – – – – temporal: heute, oft,.. lokal: dort, hier, unten, dorthin,... modal: eilend, flugs, gerne,.. kausal: deswegen, umständehalber,... 27 Adverb (2)! • Semantische Eigenschaften (Fortsetzung)! • Satzadverbien:! – Stellungnahme: leider, hoffentlich – Wahrscheinlichkeit: vielleicht, möglicherweise,... – Bewertung: dummerweise, ... • Konjuktionaladverbien:! – Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb ... • Pronominaladverbien:! – da-/hier-/wo-+Präposition (1) Er kümmert sich darum, dass nichts passiert. 28 Adverb (3)! • Distributionelle Eigenschaften – Dt.:Können am Satzanfang alleine vor dem finiten Verb auftreten 29 Adverb (4)! • STTS – ADV • Anderen Hauptklassen zugeordnet: – PWAV, adverbiales Fragepronomen: warum, wann, worüber, wobei,... – PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ... • in STTS keine w-Pronominaladverbien, sind alle PWAV • PAV heißt in der Tübinger Baumbank “PROP”, vgl. ausgeteilte STTS-Übersicht • und in der TIGER Baumbank “PROAV” • Penn Treebank – RB, RBR, RBS - Steigerungsformen 30 Präposition (1)! • allgemeiner: Adposition • Morphologische Eigenschaften – werden nicht flektiert • Semantische Eigenschaften – Zeitangaben (temporal)! (1) Sie besucht uns in drei Wochen – Modalangabe (Art und Weise)! (2) Die Tür wird in Rot gestrichen. – Kausalangabe (Grund)! (3) Er weint vor Freude. 31 Präposition (2)! • (Fortsetzung: Semantische Eigenschaften')! – Lokalangabe (Ort), Temporalangabe (Zeit) (4) Sie wartet auf dem Bahnsteig – neutral (grammatikalisiert) (5) Sie wartet auf den Zug. 32 Präposition (3)! • Distributionelle Eigenschaften – treten normalerweise mit Nominalphrasen auf, bestimmen (“regieren”) deren Kasus (1) neben dem Haus, *neben des Hauses (2) in das Haus (direktional) / in dem Haus (lokal)! (3) Er ist von hier (mit Adverb)! – Präposition • geht dem Nomen voran: vor dem Nomen – Postposition: • folgt dem Nomen nach: den Zaun entlang – Zirkumposition: • zweigeteilt: um .. willen, um ... herum 33 Präposition (4)! • STTS – – – – APPR: Präposition APPRART: Präposition mit Artikel: zum, am, ... APPO: Postposition APZR: rechter Teil einer Zirkumposition (1) Um ihn herum stehen viele Leute (2) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT Leute_NN • Penn Treebank – IN: Präpositionen und subordinierende Konjunktionen (siehe Folie 39)! 34 Konjunktion • auch: Koordinierende Konjunktion • Morphologische Eigenschaften – wird nicht flektiert • Semantische Eigenschaften – verbindet zwei (oder mehr) gleichwertige Sätze oder Satzteile (1) und, oder, sowohl ... als auch • STTS: KON • Penn Treebank: CC (coordinating conjunction)! 35 Subjunktion (1)! • auch: subordinierende Konjunktion • Morphologische Eigenschaften – wird nicht flektiert • Semantische Eigenschaften – – – – bindet Sätze in andere Sätze ein, z.B. Argumentsatz: ..., dass.... temporal: ..., dann ... kausal: ..., weil ... • Distributionelle Eigenschaften – tritt (fast) nur an der ersten Position im Teilsatz auf 36 Subjunktion (2)! • STTS – KOUS: subordinierende Konjunktion mit Satz (1) ..., weil er nach Hause geht. – KOUI: subordinierende Konjunktion mit zu-Infinitiv (2) ... um nach Hause zu gehen. • Penn Treebank – IN: gemeinsames Tag für subordinierende Konjunktionen und Präpositionen (3) I think that_IN he left early. (4) The kettle is on_IN the fire. 37 Partikel (1)! • Morphologische Eigenschaften – nicht flektiert • Semantische Eigenschaften – Modalpartikel: “Abtönungspartikel” (1) Er hat ja/doch/einfach keine Zeit – Fokuspartikel: Alternativenbezug! (2) Auch/nur/sogar Peter kommt. – Steigerungspartikel: “intensifier” (3) ziemlich/sehr/ungemein dumm – Antwortpartikel: ja, nein 38 Partikel (2)! • STTS – PTKZU: zu mit zu-Infinitiv – PTKNEG: Negationspartikel nicht – PTKVZ: abgetrennte Verbpartikel (1) er kommt_VVFIN hier mit_PTKVZ. Vergleiche: (2) dass er hier mitkommt_VVFIN . – PTKANT: Antwortpartikel (3) ja, nein, danke, bitte – PTKA: Partikel mit Adjektiven/Adverbien (4) am schönsten, zu schnell • Penn Treebank – RP 39 0ffene und geschlossene Klassen • lexikalische Klassen (Inhaltswörter)! – offene Klassen: erlauben Neubildungen – Nomen, Verben, Adjektive, Adverbien • Funktionswörter – geschlossene Klassen: kaum Neubildungen – Präpositionen, Artikel, Modalpartikel • Grammatikalisierung – Verlust der lexikalischen Bedeutung bei gleichzeitiger Verwendung als Funktionswort (1) Das ist voll gut 40 Sind Wortarten universell? • Wortarten sind nicht universell – Bsp.: Latein besitzt, anders als Griechisch, keine Artikel. Folge: Anpassung der klassischen 8 Wortarten von Thrax an die Gegebenheiten des Latein durch Ersetzung der Wortart “Artikel” mit “Interjektion” ('uh'). • Grammatiken durch das Griechische / das Lateinische geprägt (bzw. verzerrt)! • Standardisierungsbestrebungen – EAGLES-Empfehlungen für europäische Sprachen http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm – GOLD-Ontologie http://www.linguisticsontology.org/gold.html 41 Beispiele für sprachspezifische Wortarten bzw. deren Fehlen (1)! • Deutsch – Verschmelzung von Präposition und definitem Artikel. Unterklasse: Kontrahierte Form (1) am, zum, beim usw. • Dänisch – Definiter Artikel als Affix, wenn kein Adjektiv beim Nomen: Unterklasse: definites Nomen (2) en bog (ein Buch) / bogen (das Buch)! • Inuktitut, Japanisch, Latein, Polnisch, Russisch, ... – besitzen keine Artikel (3) Polnisch: ch"opiec #piewa (Ein/Der Junge singt.)! 42 Beispiele für sprachspezifische Wortarten bzw. deren Fehlen (2)! • Inuktitut – Ist stark agglutinierend, d.h. es werden sehr komplexe Wörter aus vielen Morphemen gebildet • keine subordinierenden Konjunktionen • keine Präpositionen (sondern Kasusmorpheme) • “Adjektive” existieren nur als gebundene Morpheme (1) silaluk sila -luk = Wetter-schlecht "schlechtes Wetter" (2) ijiluktunga iji -luk -tunga Auge-schlecht-1.singular_intransitiv "Ich habe schlechte Augen" (Nowak 2007: 41)! 43 Referenzen (1)! • Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik. Stuttgart / Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5 • Dudenverlag: Duden – Die Grammatik (Bd. 4). • W. Nelson Francis und Henry Ku!era. 1982. Frequency analysis of English usage : lexicon and grammar. Boston : Houghton Mifflin, 1982; http://icame.uib.no/brown/bcm.html • Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin. http://www.tu-berlin.de/fak1/el/ board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0 44 Referenzen (2)! • Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für maschinelle Sprachverarbeitung, Stuttgart. http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf • Beatrice Santorini. 1990. Part-of-Speech Tagging Guidelines for the Penn Treebank Project. Technischer Bericht. University of Pennsylvania. ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz 45