Wortarten - Hintergrund Kategorien Grundbegriffe eines Systems Philosophie: Kategorienlehre von Aristoteles als Systematik der Grundformen des Seins Wortarten und Tagsets Substanz, Quantität, Qualität, Relation, Ort, Zeit, Lage, Haben, Wirken und Leiden ̶ syntaktische/grammatische Kategorien: Wortarten (Englisch: 'parts of speech') Korpuslinguistik Dr. Heike Zinsmeister Dionysios Thrax (ca. 170‑90 v.Chr), Alexandria erste griechische Grammatik WS 2009/10 8 Wortarten: Adverben, Artikel, Konjunktionen, Nomen, Partizipien, Präpositionen, Pronomen und Verben ̶ 4.11.2009 Wortarten - Kriterien Klassifizierung nach morphologischen Kriterien Morphologische Kriterien flektierbar oder nicht, Art der Flektion wortartenspezifische Affigierung in der Wortbildung Wort flektierbar Semantische Kriterien 2 deklinierbar teilweise Bildung von Unterklassen durch Bedeutungsunterschiede konjugierbar Substantive Adjektive Distributionelle Kriterien nicht-flektierbar Wortartenkontexte / Positionen im Satz, in denen ein Element typischerweise auftritt Konjunktionen Verben Artikel Adverbien Partikeln Interjektionen ➢ Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen. 4.11.2009 Präpositionen (nach Pittner & Berman: 2004: 15) 4.11.2009 3 4 STTS Einschub: Tagsets STTS (Deutsch) und Penn Treebank Tagset (Englisch) das Stuttgart-Tübingen Tagset (Schiller et al. 1999) Wortarten-Analyse für die manuelle (und automatische) Annotation von deutschen Textkorpora Vereinfachung: Leerzeichen = Wortgrenze es werden zunächst keine Mehrwortlexeme berücksichtigt Analog zum Standard der Text Encoding Initiative (TEI) 11 Hauptwortarten, spezifiziert in 54 Wortarten-Tags (48 & 6 Zusatztags: • 4.11.2009 5 4.11.2009 Interpunktion, Fremdsprachliches, Nicht-Wörter, Truncs) 6 1 STTS-Hauptwortarten Das Penn Treebank Tagset (1) vgl. Santorini (1991) 45 Tags (36 & 9 'punctuation tags') (Schiller et al. 1999:4) • Aufbau der Labels basiert auf dem umfangreicheren Tagset des Brown Corpus (Francis & Kučera 1982) Typen von Tags hierarchisch von links nach rechts: vom Allgemeinen zum Spezifischeren Bsp. Pronomen (1) Diese Lösung klappt. (2) Diese klappt nicht. Hauptklassen: noun (common and proper); verb; adjective; adverb Funktionswörter: determiners, prepositions, conjunctions, pronouns, etc. wichtige Einzelwörter: to, there ad (1): Pronomen demonstrativ attribuierend, PDAT Interpunktion ad (2): Pronomen demonstrativ substituierend, PDS Fremdsprachl. Material, Symbole, Interjektionen, List Marker 4.11.2009 4.11.2009 7 8 Das Penn Treebank Tagset (2) Tagnamen sind weniger hierarchisch aufgebaut als im STTS Manche Tags sind nicht intuitiv, z.B. “JJ” für Adjektive “RB” für Adverb Zurück zu den Wortarten im Allgemeinen To ist immer als TO getaggt (1) to_TO go_VB to_TO university_NN existenzielles there ist als EX getaggt (2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT garden_NN 4.11.2009 Nomen: Morphologische Eigenschaften (1) (auch: Substantiv) festes Genus 4.11.2009 9 10 Nomen: Morphologische Eigenschaften (2) (Fortsetzung) werden nach Numerus und Kasus dekliniert - Aber: Pluralia Tanta (treten nur im Plural auf) - Maskulin, Feminin, Neutrum (3) Geschwister, Alpen,... - Aber: dialektale bzw. regionale Schwankungen - Stoffsubstantive und manch andere (sind nicht zählbar) t reten nur im Singular auf (“Reis ist...”) (1) der/das Teller, der/die Butter, der/das Radio (4) Reis, Mehl, Sand, Ruhe, Hass, Wut,... - Aber: Neue Wörter und andere Unsicherheiten (2) der/das Jogurt, der/das Virus, der/das Chip 4.11.2009 11 4.11.2009 12 2 Nomen: Distributionelle Kriterien Nomen: Semantische Eigenschaften Notation: Konkreta – Abstrakta Typische Kontexte: - Gegenständliches – Vorstellungen/ Handlungen/ Vorgänge/Zustände/Eigenschaften/... Artikel (Adjektiv)* Nomen (1) Er liest ein neues Buch. (1) Stuhl / Obst – Meinung / Ruhe (3) Er isst Obst. Gattungsbezeichnungen (Appellativa) – Eigennamen (4) Er hat Freundschaft mit ihr geschlossen. (3) ein/der Hund – Fido Präposition (Artikel)? (Adjektiv)* Nomen Diskret / zählbar – nicht zählbar (x)? = x kommt nicht oder genau einmal vor (2) Max liest gerne Comics. (2) Katze / Alge – Weg / Schule (x)* = x kommt null mal, ein mal oder beliebig oft vor - Aber: Eigennamen, Plurale, Stoffsubstantive, Funktionsverbgefüge (z.B. Freundschaft schließen), ... Belebt – unbelebt * = “Kleene Star” (5) Sie zieht die Option in Betracht. (4) zwei Stühle vs. zwei *Obst (5) zwei Meinungen vs. zwei *Ruhen 4.11.2009 4.11.2009 13 14 Nomen in den Tagsets Verb (1) STTS: Morphologische Eigenschaften Semantische Eigenschaften werden konjugiert Dt.: Tempus, Modus, Numerus, Person ̶ NN: “normales” Nomen ('common noun') NE: Eigenname Vollverben (lexikalische Verben) Hilfsverben (Auxiliare) Modalverben eigene Semantik Penn Treebank ̶ NN: noun, singular or mass NNS: noun, plural NNP: proper noun, singular NNPs: proper noun, plural grammatische Bedeutung: Tempus, Konjunktiv,Passiv ̶ drücken Möglichkeit, Notwendigkeit, Erlaubnis, Einschätzung der Wahrscheinlichkeit u.ä. aus ̶ Kopulaverben ̶ 4.11.2009 drücken Zustand oder Fortdauern aus: sind grammatischer Kitt für nicht-verbale Prädikate 4.11.2009 15 16 Verb (2) Verb (3) Distributionelle Eigenschaften ̶ treten mit nicht-verbalem Prädikat auf ̶ zählen mehr zu den Vollverben als zu den Auxiliaren ̶ sein, bleiben, werden treten nur zusammen mit einem infiniten Vollverb auf (im Partizip Perfekt oder Infinitiv) (1) haben, sein, werden (1) Er ist [NP ein guter Fußballer]. Modalverben ̶ (2) Sie wird [AdjP gesund]. treten mit infiniten Vollverben und Kopulaverben auf (2) können, dürfen, müssen, sollen, wollen, mögen Kopulaverben Hilfsverben ̶ Distributionelle Eigenschaften (Fortsetzung) treten selbstständig auf (mit ihren Argumenten) ̶ Vollverben (3) Ein Gewitter ist [PP im Anmarsch]. [Halbmodalverben mit Vollverb im zu-Infinitiv (3) scheint zu schlafen, verspricht zu bleiben, droht zu...] 4.11.2009 17 4.11.2009 18 3 Verben in den Tagsets Adjektiv (1) STTS: Vollverben ̶ VVFIN: Vollverb, finit ̶ VVIMP: Vollverb, Imperativ ̶ VVINF: Vollverb, Infinitiv ̶ VVIZU: Vollverb, zu-Infinitiv ̶ VVPP: Vollverb, Partizip Perfekt Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA) Modalverben: VMFIN, VMINF,VMPP deklinierbar: großer, große, großes, .... komparierbar: große, größere, größte Semantische Eigenschaften, Beispiele: Qualitität (1) rot, rund, laut, gut, angeblich,.. Penn Treebank Morphologische Eigenschaften Relation (2) asiatisch, ärztlich, hölzern,.. VB: Verb, base form VBD: Verb, past tense VBG: Verb, gerund or present participle VPN: Verb, past participle VBP: Verb, non-3rd person singular present VBZ: Verb, 3rd person singular present 4.11.2009 Quantifizierend (3) viel, wenig, eine, hundert, dritter, vierter,... Adjektivisch gebrauchte Partizipien (4) suchend, belastend, gesucht, belastet,... 4.11.2009 19 Adjektive in den Tagsets Adjektiv (2) Distributionelle Eigenschaften prädikativ mit Kopulaverb (nicht flektiert) (1) Der Ball ist rot. / Die Freunde sind quitt. adverbial verwendet mit Vollverb (nicht flektiert) STTS ADJA: Adjektiv, attribuierend ADJD: Adjektiv, adverbial oder prädikativ anderen Wortklassen zugeordnet ̶ PIS/PIAT: viele, manche,... ̶ CARD: zwei Männer, .. (2) Das Auto fährt schnell. attribuierend (normalerweise flektiert, Ausnahme z.B. lila) (3) Der rote Ball / Das lila Kleid können Argumente selegieren (4) Er ist [PP auf seinen Sieg] stolz. Penn Treebank JJ: adjective JJR: adjective, comparative JJS: Adjective, superlative (5) Sie ist [ VP zu gehen] imstande. 4.11.2009 ̶ 22 Pronomen (2) Morphologische Eigenschaften CD: two men, ... 4.11.2009 21 Pronomen (1) flektieren Distributionelle Eigenschaften Semantische Eigenschaften attribuierend (ersetzen einen Artikel) Beitrag zur Referenz (1) dieser Baum ersetzen Nomen (siehe dort) (2) welcher Baum? Unterklassen, z.B. 4.11.2009 ̶ Personalpronomen: ich, du,... ̶ Possessivpronomen: mein, dein,... ̶ Demonstrativpronomen: dieser, jener ̶ Reflexivpronomen: sich, einander ̶ Fragepronomen: wer, wie, was, warum ̶ Relativpronomen: der, die, das, 20 substituierend (ersetzen eine Nominalphrase, oder ähnliches) (3) Er hat diesen gefällt. (4) Welchen hat er gefällt. 23 4.11.2009 24 4 Pronomen in den Tagsets (1) Pronomen in den Tagsets (2) STTS Penn Treebank PDS, PDAT: Demonstrativpronomen PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,... PPER: Personalpronomen PPOSS, PPOSAT: Possessivpronomen PRELS, PRELAT:Relativpronomen PRF: Reflexiv- und Reziprokpronomen: sich, einander,... PWS, PWAT:Interrogativpronomen PWAV: adverbiales Interrogativ- oder Relativpronomen: warum PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ... PRP, PRP$: personal pronoun, possessive pronoun WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb in STTS keine w-Pronominaladverbien, sind alle PWAV ̶ PAV heißt in der Tübinger Baumbank “PROP”, vgl. ausgeteilte STTS-Übersicht ̶ ̶ 4.11.2009 und in der TIGER Baumbank “PROAV” 4.11.2009 25 Determinierer in den Tagsets Determinierer auch: Artikel Morphologische Eigenschaften STTS ART anderen Wortarten zugeordnet werden flektiert APPART: Präposition mit Artikel: zum ̶ legen Referenz des Substantivs fest ̶ definit/indefinit, bestimmt/unbestimmt ̶ Semantische Eigenschaften Distributionelle Eigenschaften treten stets zusammen mit einem Substantiv auf Scheinbare Ausnahme: Ellipsen 26 PDAT: attribuierende Demonstrativpronomen: diese NN Penn Treebank DT (1) Ich nehme das große Stück. Du bekommst [das kleine ___ ]. 4.11.2009 4.11.2009 27 Adverb (1) wird nicht flektiert (manche werden kompariert) Engl.: werden mit -ly gebildet ̶ Adverb (2) Morphologische Eigenschaften Semantische Eigenschaften (Fortsetzung) Satzadverbien: aber: friendly (Adjektiv), seldom/often (Adverb) Semantische Eigenschaften, Beispiele: temporal: heute, oft,.. lokal: dort, hier, unten, dorthin,... modal: eilend, flugs, gerne,.. kausal: deswegen, umständehalber,... 28 Stellungnahme: leider, hoffentlich Wahrscheinlichkeit: vielleicht, möglicherweise,... Bewertung: dummerweise, ... Konjuktionaladverbien: Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb ... Pronominaladverbien: da-/hier-/wo-+Präposition (1) Er kümmert sich darum, dass nichts passiert. 4.11.2009 29 4.11.2009 30 5 Adverb (3) Adverben in den Tagsets Distributionelle Eigenschaften STTS Deutsch: Können am Satzanfang alleine vor dem finiten Verb auftreten (1) Leider/Heute/Hier regnet es. ADV oder anderen Hauptklassen zugeordnet: PWAV, adverbiales Fragepronomen: warum, wann, worüber, wobei,... PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ... in STTS keine w-Pronominaladverbien, sind alle PWAV ̶ PAV heißt in der Tübinger Baumbank “PROP”, vgl. ausgeteilte STTS-Übersicht ̶ ̶ Penn Treebank 4.11.2009 RB, RBR, RBS - Steigerungsformen 4.11.2009 31 Präposition (1) allgemeiner: Adposition Morphologische Eigenschaften (Fortsetzung: Semantische Eigenschaften') werden nicht flektiert Lokalangabe (Ort), Temporalangabe (Zeit) (4) Sie wartet auf dem Bahnsteig Zeitangaben (temporal) Neutral (grammatikalisiert) (5) Sie wartet auf den Zug. (1) Sie besucht uns in drei Wochen 32 Präposition (2) Semantische Eigenschaften und in der TIGER Baumbank “PROAV” Modalangabe (Art und Weise) (2) Die Tür wird in Rot gestrichen. Kausalangabe (Grund) (3) Er weint vor Freude. 4.11.2009 4.11.2009 33 Präpositionen in den Tagsets Präposition (3) Distributionelle Eigenschaften treten normalerweise mit Nominalphrasen auf, bestimmen (“regieren”) deren Kasus STTS APPR: Präposition (1) neben dem Haus, *neben des Hauses APPRART: Präposition mit Artikel: zum, am, ... (2) in das Haus (direktional) / in dem Haus (lokal) APPO: Postposition (3) Er ist von hier (mit Adverb) APZR: rechter Teil einer Zirkumposition (1”) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT Leute_NN geht dem Nomen voran: vor dem Nomen Postposition: folgt dem Nomen nach: den Zaun entlang ̶ (1) Um ihn herum stehen viele Leute Präposition ̶ ̶ Penn Treebank Zirkumposition: 4.11.2009 34 zweigeteilt: um .. willen, um ... herum 35 IN: Präpositionen und subordinierende Konjunktionen (siehe Folie 39) 4.11.2009 36 6 Konjunktion Subjunktion auch: Koordinierende Konjunktion auch: subordinierende Konjunktion Morphologische Eigenschaften Morphologische Eigenschaften Semantische Eigenschaften wird nicht flektiert verbindet zwei (oder mehr) gleichwertige Sätze oder Satzteile (1) und, oder, sowohl ... als auch STTS: KON Penn Treebank: CC (coordinating conjunction) Semantische Eigenschaften bindet Sätze in andere Sätze ein, z.B. Argumentsatz: ..., dass.... temporal: ..., dann ... kausal: ..., weil ... Distributionelle Eigenschaften 4.11.2009 wird nicht flektiert tritt (fast) nur an der ersten Position im Teilsatz auf 4.11.2009 37 Subjunktionen in den Tagsets Partikeln STTS KOUS: subordinierende Konjunktion mit Satz KOUI: subordinierende Konjunktion mit zu-Infinitiv (3) I think that_IN he left early. Antwortpartikel: ja, nein 4.11.2009 39 Partikeln in den Tagsets STTS lexikalische Klassen (Inhaltswörter) PTKZU: zu mit zu-Infinitiv PTKNEG: Negationspartikel nicht offene Klassen: erlauben Neubildungen PTKVZ: abgetrennte Verbpartikel Nomen, Verben, Adjektive, Adverbien Vergleiche: (2) dass er hier mitkommt_VVFIN . PTKANT: Antwortpartikel (3) ja, nein, danke, bitte PTKA: Partikel mit Adjektiven/Adverbien (4) am schönsten, zu schnell Funktionswörter geschlossene Klassen: kaum Neubildungen Präpositionen, Artikel, Modalpartikel Grammatikalisierung Penn Treebank Verlust der lexikalischen Bedeutung bei gleichzeitiger Verwendung als Funktionswort (1) Das ist voll gut RP 4.11.2009 40 0ffene und geschlossene Klassen (1) er kommt_VVFIN hier mit_PTKVZ. Steigerungspartikel: “intensifier” (3) ziemlich/sehr/ungemein dumm (4) The kettle is on_IN the fire. Fokuspartikel: Alternativenbezug (2) Auch/nur/sogar Peter kommt. IN: gemeinsames Tag für subordinierende Konjunktionen und Präpositionen 4.11.2009 Modalpartikel: “Abtönungspartikel” (1) Er hat ja/doch/einfach keine Zeit Penn Treebank nicht flektiert Semantische Eigenschaften (2) ... um nach Hause zu gehen. Morphologische Eigenschaften (1) ..., weil er nach Hause geht. 38 41 4.11.2009 42 7 Beispiele für sprachspezifische Wortarten bzw. deren Fehlen (1) Sind Wortarten universell? Wortarten sind nicht universell Bsp.: Latein besitzt, anders als Griechisch, keine Artikel. Folge: Anpassung der klassischen 8 Wortarten von Thrax an die Gegebenheiten des Lateinischen durch Ersetzung der Wortart “Artikel” mit “Interjektion” ('uh'). Grammatiken durch das Griechische / das Lateinische geprägt (bzw. verzerrt) Verschmelzung von Präposition und definitem Artikel. Unterklasse: Kontrahierte Form (1) am, zum, beim usw. Dänisch Standardisierungsbestrebungen Deutsch Definiter Artikel als Affix, wenn kein Adjektiv beim Nomen: Unterklasse: definites Nomen (2) en bog (ein Buch) / bogen (das Buch) EAGLES-Empfehlungen für europäische Sprachen http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm GOLD-Ontologie http://www.linguistics-ontology.org/gold.html Japanisch, Latein, Polnisch, Russisch, Inuktitut, ... besitzen keine Artikel (3) Polnisch: chłopiec śpiewa (Ein/Der Junge singt.) 4.11.2009 4.11.2009 43 Beispiele für sprachspezifische Wortarten bzw. deren Fehlen (2) Inuktitut Referenzen Ist stark agglutinierend, d.h. es werden sehr komplexe Wörter aus vielen Morphemen gebildet ̶ keine subordinierenden Konjunktionen ̶ keine Präpositionen (sondern Kasusmorpheme) ̶ “Adjektive” existieren nur als gebundene Morpheme (1) silaluk sila -luk = Wetter-schlecht "schlechtes Wetter" (2) ijiluktunga iji -luk -tunga = Auge-schlecht-1.singular_intransitiv "Ich habe schlechte Augen" (Nowak 2007: 41) 4.11.2009 45 44 Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik. Stuttgart / Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5 Dudenverlag: Duden – Die Grammatik (Bd. 4). W. Nelson Francis und Henry Kučera. 1982. Frequency analysis of English usage : lexicon and grammar. Boston : Houghton Mifflin, 1982; http://icame.uib.no/brown/bcm.html Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin. http://www.tuberlin.de/fak1/el/ board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0 Karin Pittner und Judith Berman. 2004. Deutsche Syntax. Ein Arbeitsbuch. Tübingen: Narr. Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für maschinelle Sprachverarbeitung, Stuttgart. http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf Beatrice Santorini. 1990. Part-of-Speech Tagging Guidelines for the Penn Treebank Project. Technischer Bericht. University of Pennsylvania. ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz 4.11.2009 46 8