Wortarten und Tagsets Korpuslinguistik Dr. Heike Zinsmeister WS 2009/10 Wortarten - Hintergrund Kategorien Grundbegriffe eines Systems Philosophie: Kategorienlehre von Aristoteles als Systematik der Grundformen des Seins Substanz, Quantität, Qualität, Relation, Ort, Zeit, Lage, Haben, Wirken und Leiden ̶ syntaktische/grammatische Kategorien: Wortarten (Englisch: 'parts of speech') Dionysios Thrax (ca. 170‑90 v.Chr), Alexandria erste griechische Grammatik 8 Wortarten: ̶ 4.11.2009 Adverben, Artikel, Konjunktionen, Nomen, Partizipien, Präpositionen, Pronomen und Verben 2 Wortarten - Kriterien Morphologische Kriterien flektierbar oder nicht, Art der Flektion wortartenspezifische Affigierung in der Wortbildung Semantische Kriterien teilweise Bildung von Unterklassen durch Bedeutungsunterschiede Distributionelle Kriterien Wortartenkontexte / Positionen im Satz, in denen ein Element typischerweise auftritt ➢ Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen. 4.11.2009 3 Klassifizierung nach morphologischen Kriterien Wort flektierbar deklinierbar nicht-flektierbar konjugierbar Substantive Adjektive Artikel Konjunktionen Verben Präpositionen Adverbien Partikeln Interjektionen (nach Pittner & Berman: 2004: 15) 4.11.2009 4 Einschub: Tagsets STTS (Deutsch) und Penn Treebank Tagset (Englisch) 4.11.2009 5 STTS das Stuttgart-Tübingen Tagset (Schiller et al. 1999) Wortarten-Analyse für die manuelle (und automatische) Annotation von deutschen Textkorpora Vereinfachung: Leerzeichen = Wortgrenze es werden zunächst keine Mehrwortlexeme berücksichtigt Analog zum Standard der Text Encoding Initiative (TEI) 11 Hauptwortarten, spezifiziert in 54 Wortarten-Tags (48 & 6 Zusatztags: • 4.11.2009 Interpunktion, Fremdsprachliches, Nicht-Wörter, Truncs) 6 STTS-Hauptwortarten (Schiller et al. 1999:4) • Aufbau der Labels hierarchisch von links nach rechts: vom Allgemeinen zum Spezifischeren Bsp. Pronomen (1) Diese Lösung klappt. (2) Diese klappt nicht. ad (1): Pronomen demonstrativ attribuierend, PDAT ad (2): Pronomen demonstrativ substituierend, PDS 4.11.2009 7 Das Penn Treebank Tagset (1) vgl. Santorini (1991) 45 Tags (36 & 9 'punctuation tags') basiert auf dem umfangreicheren Tagset des Brown Corpus (Francis & Kučera 1982) Typen von Tags Hauptklassen: noun (common and proper); verb; adjective; adverb Funktionswörter: determiners, prepositions, conjunctions, pronouns, etc. wichtige Einzelwörter: to, there Interpunktion Fremdsprachl. Material, Symbole, Interjektionen, List Marker 4.11.2009 8 Das Penn Treebank Tagset (2) Tagnamen sind weniger hierarchisch aufgebaut als im STTS Manche Tags sind nicht intuitiv, z.B. “JJ” für Adjektive “RB” für Adverb To ist immer als TO getaggt (1) to_TO go_VB to_TO university_NN existenzielles there ist als EX getaggt (2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT garden_NN 4.11.2009 9 Zurück zu den Wortarten im Allgemeinen 4.11.2009 10 Nomen: Morphologische Eigenschaften (1) (auch: Substantiv) festes Genus - Maskulin, Feminin, Neutrum - Aber: dialektale bzw. regionale Schwankungen (1) der/das Teller, der/die Butter, der/das Radio - Aber: Neue Wörter und andere Unsicherheiten (2) der/das Jogurt, der/das Virus, der/das Chip 4.11.2009 11 Nomen: Morphologische Eigenschaften (2) (Fortsetzung) werden nach Numerus und Kasus dekliniert - Aber: Pluralia Tanta (treten nur im Plural auf) (3) Geschwister, Alpen,... - Stoffsubstantive und manch andere (sind nicht zählbar) treten nur im Singular auf (“Reis ist...”) (4) Reis, Mehl, Sand, Ruhe, Hass, Wut,... 4.11.2009 12 Nomen: Semantische Eigenschaften Konkreta – Abstrakta - Gegenständliches – Vorstellungen/ Handlungen/ Vorgänge/Zustände/Eigenschaften/... (1) Stuhl / Obst – Meinung / Ruhe Belebt – unbelebt (2) Katze / Alge – Weg / Schule Gattungsbezeichnungen (Appellativa) – Eigennamen (3) ein/der Hund – Fido Diskret / zählbar – nicht zählbar (4) zwei Stühle vs. zwei *Obst (5) zwei Meinungen vs. zwei *Ruhen 4.11.2009 13 Nomen: Distributionelle Kriterien Notation: Typische Kontexte: Artikel (Adjektiv)* Nomen (1) Er liest ein neues Buch. * = “Kleene Star” (x)* = x kommt null mal, ein mal oder beliebig oft vor (x)? = x kommt nicht oder genau einmal vor - Aber: Eigennamen, Plurale, Stoffsubstantive, Funktionsverbgefüge (z.B. Freundschaft schließen), ... (2) Max liest gerne Comics. (3) Er isst Obst. (4) Er hat Freundschaft mit ihr geschlossen. Präposition (Artikel)? (Adjektiv)* Nomen (5) Sie zieht die Option in Betracht. 4.11.2009 14 Nomen in den Tagsets STTS: NN: “normales” Nomen ('common noun') NE: Eigenname Penn Treebank NN: noun, singular or mass NNS: noun, plural NNP: proper noun, singular NNPs: proper noun, plural 4.11.2009 15 Verb (1) Morphologische Eigenschaften werden konjugiert Dt.: Tempus, Modus, Numerus, Person ̶ Semantische Eigenschaften Vollverben (lexikalische Verben) eigene Semantik ̶ Hilfsverben (Auxiliare) grammatische Bedeutung: Tempus, Konjunktiv,Passiv ̶ Modalverben drücken Möglichkeit, Notwendigkeit, Erlaubnis, Einschätzung der Wahrscheinlichkeit u.ä. aus ̶ Kopulaverben ̶ 4.11.2009 drücken Zustand oder Fortdauern aus: sind grammatischer Kitt für nicht-verbale Prädikate 16 Verb (2) Distributionelle Eigenschaften Vollverben treten selbstständig auf (mit ihren Argumenten) ̶ Hilfsverben treten nur zusammen mit einem infiniten Vollverb auf (im Partizip Perfekt oder Infinitiv) ̶ (1) haben, sein, werden Modalverben treten mit infiniten Vollverben und Kopulaverben auf ̶ (2) können, dürfen, müssen, sollen, wollen, mögen [Halbmodalverben mit Vollverb im zu-Infinitiv (3) scheint zu schlafen, verspricht zu bleiben, droht zu...] 4.11.2009 17 Verb (3) Distributionelle Eigenschaften (Fortsetzung) Kopulaverben ̶ treten mit nicht-verbalem Prädikat auf ̶ zählen mehr zu den Vollverben als zu den Auxiliaren ̶ sein, bleiben, werden (1) Er ist [NP ein guter Fußballer]. (2) Sie wird [AdjP gesund]. (3) Ein Gewitter ist [PP im Anmarsch]. 4.11.2009 18 Verben in den Tagsets STTS: Vollverben ̶ VVFIN: Vollverb, finit ̶ VVIMP: Vollverb, Imperativ ̶ VVINF: Vollverb, Infinitiv ̶ VVIZU: Vollverb, zu-Infinitiv ̶ VVPP: Vollverb, Partizip Perfekt Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA) Modalverben: VMFIN, VMINF,VMPP Penn Treebank VB: Verb, base form VBD: Verb, past tense VBG: Verb, gerund or present participle VPN: Verb, past participle VBP: Verb, non-3rd person singular present VBZ: Verb, 3rd person singular present 4.11.2009 19 Adjektiv (1) Morphologische Eigenschaften deklinierbar: großer, große, großes, .... komparierbar: große, größere, größte Semantische Eigenschaften, Beispiele: Qualitität (1) rot, rund, laut, gut, angeblich,.. Relation (2) asiatisch, ärztlich, hölzern,.. Quantifizierend (3) viel, wenig, eine, hundert, dritter, vierter,... Adjektivisch gebrauchte Partizipien (4) suchend, belastend, gesucht, belastet,... 4.11.2009 20 Adjektiv (2) Distributionelle Eigenschaften prädikativ mit Kopulaverb (nicht flektiert) (1) Der Ball ist rot. / Die Freunde sind quitt. adverbial verwendet mit Vollverb (nicht flektiert) (2) Das Auto fährt schnell. attribuierend (normalerweise flektiert, Ausnahme z.B. lila) (3) Der rote Ball / Das lila Kleid können Argumente selegieren (4) Er ist [PP auf seinen Sieg] stolz. (5) Sie ist [VP zu gehen] imstande. 4.11.2009 21 Adjektive in den Tagsets STTS ADJA: Adjektiv, attribuierend ADJD: Adjektiv, adverbial oder prädikativ anderen Wortklassen zugeordnet ̶ PIS/PIAT: viele, manche,... ̶ CARD: zwei Männer, .. Penn Treebank JJ: adjective JJR: adjective, comparative JJS: Adjective, superlative ̶ 4.11.2009 CD: two men, ... 22 Pronomen (1) Morphologische Eigenschaften flektieren Semantische Eigenschaften Beitrag zur Referenz ersetzen Nomen (siehe dort) Unterklassen, z.B. 4.11.2009 ̶ Personalpronomen: ich, du,... ̶ Possessivpronomen: mein, dein,... ̶ Demonstrativpronomen: dieser, jener ̶ Reflexivpronomen: sich, einander ̶ Fragepronomen: wer, wie, was, warum ̶ Relativpronomen: der, die, das, 23 Pronomen (2) Distributionelle Eigenschaften attribuierend (ersetzen einen Artikel) (1) dieser Baum (2) welcher Baum? substituierend (ersetzen eine Nominalphrase, oder ähnliches) (3) Er hat diesen gefällt. (4) Welchen hat er gefällt. 4.11.2009 24 Pronomen in den Tagsets (1) STTS PDS, PDAT: Demonstrativpronomen PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,... PPER: Personalpronomen PPOSS, PPOSAT: Possessivpronomen PRELS, PRELAT:Relativpronomen PRF: Reflexiv- und Reziprokpronomen: sich, einander,... PWS, PWAT:Interrogativpronomen PWAV: adverbiales Interrogativ- oder Relativpronomen: warum PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ... in STTS keine w-Pronominaladverbien, sind alle PWAV ̶ PAV heißt in der Tübinger Baumbank “PROP”, vgl. ausgeteilte STTS-Übersicht ̶ ̶ 4.11.2009 und in der TIGER Baumbank “PROAV” 25 Pronomen in den Tagsets (2) Penn Treebank PRP, PRP$: personal pronoun, possessive pronoun WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb 4.11.2009 26 Determinierer auch: Artikel Morphologische Eigenschaften werden flektiert Semantische Eigenschaften legen Referenz des Substantivs fest ̶ definit/indefinit, bestimmt/unbestimmt Distributionelle Eigenschaften treten stets zusammen mit einem Substantiv auf Scheinbare Ausnahme: Ellipsen (1) Ich nehme das große Stück. Du bekommst [das kleine ___ ]. 4.11.2009 27 Determinierer in den Tagsets STTS ART anderen Wortarten zugeordnet APPART: Präposition mit Artikel: zum ̶ ̶ PDAT: attribuierende Demonstrativpronomen: diese NN Penn Treebank DT 4.11.2009 28 Adverb (1) Morphologische Eigenschaften wird nicht flektiert (manche werden kompariert) Engl.: werden mit -ly gebildet ̶ aber: friendly (Adjektiv), seldom/often (Adverb) Semantische Eigenschaften, Beispiele: temporal: heute, oft,.. lokal: dort, hier, unten, dorthin,... modal: eilend, flugs, gerne,.. kausal: deswegen, umständehalber,... 4.11.2009 29 Adverb (2) Semantische Eigenschaften (Fortsetzung) Satzadverbien: Stellungnahme: leider, hoffentlich Wahrscheinlichkeit: vielleicht, möglicherweise,... Bewertung: dummerweise, ... Konjuktionaladverbien: Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb ... Pronominaladverbien: da-/hier-/wo-+Präposition (1) Er kümmert sich darum, dass nichts passiert. 4.11.2009 30 Adverb (3) Distributionelle Eigenschaften Deutsch: Können am Satzanfang alleine vor dem finiten Verb auftreten (1) Leider/Heute/Hier regnet es. 4.11.2009 31 Adverben in den Tagsets STTS ADV oder anderen Hauptklassen zugeordnet: PWAV, adverbiales Fragepronomen: warum, wann, worüber, wobei,... PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ... in STTS keine w-Pronominaladverbien, sind alle PWAV ̶ PAV heißt in der Tübinger Baumbank “PROP”, vgl. ausgeteilte STTS-Übersicht ̶ ̶ und in der TIGER Baumbank “PROAV” Penn Treebank RB, RBR, RBS - Steigerungsformen 4.11.2009 32 Präposition (1) allgemeiner: Adposition Morphologische Eigenschaften werden nicht flektiert Semantische Eigenschaften Zeitangaben (temporal) (1) Sie besucht uns in drei Wochen Modalangabe (Art und Weise) (2) Die Tür wird in Rot gestrichen. Kausalangabe (Grund) (3) Er weint vor Freude. 4.11.2009 33 Präposition (2) (Fortsetzung: Semantische Eigenschaften') Lokalangabe (Ort), Temporalangabe (Zeit) (4) Sie wartet auf dem Bahnsteig Neutral (grammatikalisiert) (5) Sie wartet auf den Zug. 4.11.2009 34 Präposition (3) Distributionelle Eigenschaften treten normalerweise mit Nominalphrasen auf, bestimmen (“regieren”) deren Kasus (1) neben dem Haus, *neben des Hauses (2) in das Haus (direktional) / in dem Haus (lokal) (3) Er ist von hier (mit Adverb) Präposition geht dem Nomen voran: vor dem Nomen ̶ Postposition: folgt dem Nomen nach: den Zaun entlang ̶ Zirkumposition: ̶ 4.11.2009 zweigeteilt: um .. willen, um ... herum 35 Präpositionen in den Tagsets STTS APPR: Präposition APPRART: Präposition mit Artikel: zum, am, ... APPO: Postposition APZR: rechter Teil einer Zirkumposition (1) Um ihn herum stehen viele Leute (1”) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT Leute_NN Penn Treebank IN: Präpositionen und subordinierende Konjunktionen (siehe Folie 39) 4.11.2009 36 Konjunktion auch: Koordinierende Konjunktion Morphologische Eigenschaften wird nicht flektiert Semantische Eigenschaften verbindet zwei (oder mehr) gleichwertige Sätze oder Satzteile (1) und, oder, sowohl ... als auch STTS: KON Penn Treebank: CC (coordinating conjunction) 4.11.2009 37 Subjunktion auch: subordinierende Konjunktion Morphologische Eigenschaften wird nicht flektiert Semantische Eigenschaften bindet Sätze in andere Sätze ein, z.B. Argumentsatz: ..., dass.... temporal: ..., dann ... kausal: ..., weil ... Distributionelle Eigenschaften tritt (fast) nur an der ersten Position im Teilsatz auf 4.11.2009 38 Subjunktionen in den Tagsets STTS KOUS: subordinierende Konjunktion mit Satz (1) ..., weil er nach Hause geht. KOUI: subordinierende Konjunktion mit zu-Infinitiv (2) ... um nach Hause zu gehen. Penn Treebank IN: gemeinsames Tag für subordinierende Konjunktionen und Präpositionen (3) I think that_IN he left early. (4) The kettle is on_IN the fire. 4.11.2009 39 Partikeln Morphologische Eigenschaften nicht flektiert Semantische Eigenschaften Modalpartikel: “Abtönungspartikel” (1) Er hat ja/doch/einfach keine Zeit Fokuspartikel: Alternativenbezug (2) Auch/nur/sogar Peter kommt. Steigerungspartikel: “intensifier” (3) ziemlich/sehr/ungemein dumm Antwortpartikel: ja, nein 4.11.2009 40 Partikeln in den Tagsets STTS PTKZU: zu mit zu-Infinitiv PTKNEG: Negationspartikel nicht PTKVZ: abgetrennte Verbpartikel (1) er kommt_VVFIN hier mit_PTKVZ. Vergleiche: (2) dass er hier mitkommt_VVFIN . PTKANT: Antwortpartikel (3) ja, nein, danke, bitte PTKA: Partikel mit Adjektiven/Adverbien (4) am schönsten, zu schnell Penn Treebank RP 4.11.2009 41 0ffene und geschlossene Klassen lexikalische Klassen (Inhaltswörter) offene Klassen: erlauben Neubildungen Nomen, Verben, Adjektive, Adverbien Funktionswörter geschlossene Klassen: kaum Neubildungen Präpositionen, Artikel, Modalpartikel Grammatikalisierung Verlust der lexikalischen Bedeutung bei gleichzeitiger Verwendung als Funktionswort (1) Das ist voll gut 4.11.2009 42 Sind Wortarten universell? Wortarten sind nicht universell Bsp.: Latein besitzt, anders als Griechisch, keine Artikel. Folge: Anpassung der klassischen 8 Wortarten von Thrax an die Gegebenheiten des Lateinischen durch Ersetzung der Wortart “Artikel” mit “Interjektion” ('uh'). Grammatiken durch das Griechische / das Lateinische geprägt (bzw. verzerrt) Standardisierungsbestrebungen EAGLES-Empfehlungen für europäische Sprachen http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm GOLD-Ontologie http://www.linguistics-ontology.org/gold.html 4.11.2009 43 Beispiele für sprachspezifische Wortarten bzw. deren Fehlen (1) Deutsch Verschmelzung von Präposition und definitem Artikel. Unterklasse: Kontrahierte Form (1) am, zum, beim usw. Dänisch Definiter Artikel als Affix, wenn kein Adjektiv beim Nomen: Unterklasse: definites Nomen (2) en bog (ein Buch) / bogen (das Buch) Japanisch, Latein, Polnisch, Russisch, Inuktitut, ... besitzen keine Artikel (3) Polnisch: chłopiec śpiewa (Ein/Der Junge singt.) 4.11.2009 44 Beispiele für sprachspezifische Wortarten bzw. deren Fehlen (2) Inuktitut Ist stark agglutinierend, d.h. es werden sehr komplexe Wörter aus vielen Morphemen gebildet ̶ keine subordinierenden Konjunktionen ̶ keine Präpositionen (sondern Kasusmorpheme) ̶ “Adjektive” existieren nur als gebundene Morpheme (1) silaluk sila -luk = Wetter-schlecht "schlechtes Wetter" (2) ijiluktunga iji -luk -tunga = Auge-schlecht-1.singular_intransitiv "Ich habe schlechte Augen" (Nowak 2007: 41) 4.11.2009 45 Referenzen Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik. Stuttgart / Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5 Dudenverlag: Duden – Die Grammatik (Bd. 4). W. Nelson Francis und Henry Kučera. 1982. Frequency analysis of English usage : lexicon and grammar. Boston : Houghton Mifflin, 1982; http://icame.uib.no/brown/bcm.html Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin. http://www.tuberlin.de/fak1/el/ board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0 Karin Pittner und Judith Berman. 2004. Deutsche Syntax. Ein Arbeitsbuch. Tübingen: Narr. Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für maschinelle Sprachverarbeitung, Stuttgart. http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf Beatrice Santorini. 1990. Part-of-Speech Tagging Guidelines for the Penn Treebank Project. Technischer Bericht. University of Pennsylvania. ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz 4.11.2009 46