Wortarten und Tagsets
Korpuslinguistik
Dr. Heike Zinsmeister
WS 2009/10
Wortarten - Hintergrund
Kategorien
Grundbegriffe eines Systems
Philosophie: Kategorienlehre von Aristoteles als Systematik der
Grundformen des Seins
Substanz, Quantität, Qualität, Relation, Ort, Zeit, Lage,
Haben, Wirken und Leiden
̶
syntaktische/grammatische Kategorien: Wortarten (Englisch:
'parts of speech')
Dionysios Thrax (ca. 170‑90 v.Chr), Alexandria
erste griechische Grammatik
8 Wortarten:
̶
4.11.2009
Adverben, Artikel, Konjunktionen, Nomen, Partizipien,
Präpositionen, Pronomen und Verben
2
Wortarten - Kriterien
Morphologische Kriterien
flektierbar oder nicht, Art der Flektion
wortartenspezifische Affigierung in der Wortbildung
Semantische Kriterien
teilweise Bildung von Unterklassen durch
Bedeutungsunterschiede
Distributionelle Kriterien
Wortartenkontexte / Positionen im Satz, in denen ein
Element typischerweise auftritt
➢ Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen.
4.11.2009
3
Klassifizierung nach morphologischen Kriterien
Wort
flektierbar
deklinierbar
nicht-flektierbar
konjugierbar
Substantive
Adjektive
Artikel
Konjunktionen
Verben
Präpositionen
Adverbien
Partikeln
Interjektionen
(nach Pittner & Berman: 2004: 15)
4.11.2009
4
Einschub: Tagsets
STTS (Deutsch) und Penn
Treebank Tagset (Englisch)
4.11.2009
5
STTS
das Stuttgart-Tübingen Tagset (Schiller et al. 1999)
Wortarten-Analyse für die manuelle (und
automatische) Annotation von deutschen
Textkorpora
Vereinfachung: Leerzeichen = Wortgrenze
es werden zunächst keine Mehrwortlexeme berücksichtigt
Analog zum Standard der Text Encoding Initiative
(TEI)
11 Hauptwortarten, spezifiziert in
54 Wortarten-Tags (48 & 6 Zusatztags:
•
4.11.2009
Interpunktion, Fremdsprachliches, Nicht-Wörter, Truncs)
6
STTS-Hauptwortarten
(Schiller et al. 1999:4)
• Aufbau der Labels
hierarchisch von links nach rechts: vom Allgemeinen zum
Spezifischeren
Bsp. Pronomen
(1) Diese Lösung klappt. (2) Diese klappt nicht.
ad (1): Pronomen demonstrativ attribuierend, PDAT
ad (2): Pronomen demonstrativ substituierend, PDS
4.11.2009
7
Das Penn Treebank Tagset (1)
vgl. Santorini (1991)
45 Tags (36 & 9 'punctuation tags')
basiert auf dem umfangreicheren Tagset des Brown
Corpus (Francis & Kučera 1982)
Typen von Tags
Hauptklassen: noun (common and proper); verb; adjective;
adverb
Funktionswörter: determiners, prepositions, conjunctions,
pronouns, etc.
wichtige Einzelwörter: to, there
Interpunktion
Fremdsprachl. Material, Symbole, Interjektionen, List Marker
4.11.2009
8
Das Penn Treebank Tagset (2)
Tagnamen sind weniger hierarchisch aufgebaut als im
STTS
Manche Tags sind nicht intuitiv, z.B.
“JJ” für Adjektive
“RB” für Adverb
To ist immer als TO getaggt
(1) to_TO go_VB to_TO university_NN
existenzielles there ist als EX getaggt
(2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT
garden_NN
4.11.2009
9
Zurück zu den Wortarten im
Allgemeinen
4.11.2009
10
Nomen: Morphologische Eigenschaften (1)
(auch: Substantiv)
festes Genus
- Maskulin, Feminin, Neutrum
- Aber: dialektale bzw. regionale Schwankungen
(1) der/das Teller, der/die Butter, der/das Radio
- Aber: Neue Wörter und andere Unsicherheiten
(2) der/das Jogurt, der/das Virus, der/das Chip
4.11.2009
11
Nomen: Morphologische Eigenschaften (2)
(Fortsetzung)
werden nach Numerus und Kasus dekliniert
- Aber: Pluralia Tanta (treten nur im Plural auf)
(3) Geschwister, Alpen,...
- Stoffsubstantive und manch andere (sind nicht zählbar) treten
nur im Singular auf (“Reis ist...”)
(4) Reis, Mehl, Sand, Ruhe, Hass, Wut,...
4.11.2009
12
Nomen: Semantische Eigenschaften
Konkreta – Abstrakta
- Gegenständliches – Vorstellungen/ Handlungen/
Vorgänge/Zustände/Eigenschaften/...
(1) Stuhl / Obst – Meinung / Ruhe
Belebt – unbelebt
(2) Katze / Alge – Weg / Schule
Gattungsbezeichnungen (Appellativa) – Eigennamen
(3) ein/der Hund – Fido
Diskret / zählbar – nicht zählbar
(4) zwei Stühle vs. zwei *Obst
(5) zwei Meinungen vs. zwei *Ruhen
4.11.2009
13
Nomen: Distributionelle Kriterien
Notation:
Typische Kontexte:
Artikel (Adjektiv)* Nomen
(1) Er liest ein neues Buch.
* = “Kleene Star”
(x)* = x kommt null mal, ein mal
oder beliebig oft vor
(x)? = x kommt nicht oder genau
einmal vor
- Aber: Eigennamen, Plurale, Stoffsubstantive,
Funktionsverbgefüge (z.B. Freundschaft schließen), ...
(2) Max liest gerne Comics.
(3) Er isst Obst.
(4) Er hat Freundschaft mit ihr geschlossen.
Präposition (Artikel)? (Adjektiv)* Nomen
(5) Sie zieht die Option in Betracht.
4.11.2009
14
Nomen in den Tagsets
STTS:
NN: “normales” Nomen ('common noun')
NE: Eigenname
Penn Treebank
NN: noun, singular or mass
NNS: noun, plural
NNP: proper noun, singular
NNPs: proper noun, plural
4.11.2009
15
Verb (1)
Morphologische Eigenschaften
werden konjugiert Dt.: Tempus, Modus, Numerus, Person
̶
Semantische Eigenschaften
Vollverben (lexikalische Verben)
eigene Semantik
̶
Hilfsverben (Auxiliare)
grammatische Bedeutung: Tempus, Konjunktiv,Passiv
̶
Modalverben
drücken Möglichkeit, Notwendigkeit, Erlaubnis,
Einschätzung der Wahrscheinlichkeit u.ä. aus
̶
Kopulaverben
̶
4.11.2009
drücken Zustand oder Fortdauern aus: sind grammatischer
Kitt für nicht-verbale Prädikate
16
Verb (2)
Distributionelle Eigenschaften
Vollverben
treten selbstständig auf (mit ihren Argumenten)
̶
Hilfsverben
treten nur zusammen mit einem infiniten Vollverb auf (im
Partizip Perfekt oder Infinitiv)
̶
(1) haben, sein, werden
Modalverben
treten mit infiniten Vollverben und Kopulaverben auf
̶
(2) können, dürfen, müssen, sollen, wollen, mögen
[Halbmodalverben mit Vollverb im zu-Infinitiv
(3) scheint zu schlafen, verspricht zu bleiben, droht zu...]
4.11.2009
17
Verb (3)
Distributionelle Eigenschaften (Fortsetzung)
Kopulaverben
̶
treten mit nicht-verbalem Prädikat auf
̶
zählen mehr zu den Vollverben als zu den Auxiliaren
̶
sein, bleiben, werden
(1) Er ist [NP ein guter Fußballer].
(2) Sie wird [AdjP gesund].
(3) Ein Gewitter ist [PP im Anmarsch].
4.11.2009
18
Verben in den Tagsets
STTS: Vollverben
̶
VVFIN: Vollverb, finit
̶
VVIMP: Vollverb, Imperativ
̶
VVINF: Vollverb, Infinitiv
̶
VVIZU: Vollverb, zu-Infinitiv
̶
VVPP: Vollverb, Partizip Perfekt
Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA)
Modalverben: VMFIN, VMINF,VMPP
Penn Treebank
VB: Verb, base form
VBD: Verb, past tense
VBG: Verb, gerund or present participle
VPN: Verb, past participle
VBP: Verb, non-3rd person singular present
VBZ: Verb, 3rd person singular present
4.11.2009
19
Adjektiv (1)
Morphologische Eigenschaften
deklinierbar: großer, große, großes, ....
komparierbar: große, größere, größte
Semantische Eigenschaften, Beispiele:
Qualitität
(1) rot, rund, laut, gut, angeblich,..
Relation
(2) asiatisch, ärztlich, hölzern,..
Quantifizierend
(3) viel, wenig, eine, hundert, dritter, vierter,...
Adjektivisch gebrauchte Partizipien
(4) suchend, belastend, gesucht, belastet,...
4.11.2009
20
Adjektiv (2)
Distributionelle Eigenschaften
prädikativ mit Kopulaverb (nicht flektiert)
(1) Der Ball ist rot. / Die Freunde sind quitt.
adverbial verwendet mit Vollverb (nicht flektiert)
(2) Das Auto fährt schnell.
attribuierend (normalerweise flektiert, Ausnahme z.B. lila)
(3) Der rote Ball / Das lila Kleid
können Argumente selegieren
(4) Er ist [PP auf seinen Sieg] stolz.
(5) Sie ist [VP zu gehen] imstande.
4.11.2009
21
Adjektive in den Tagsets
STTS
ADJA: Adjektiv, attribuierend
ADJD: Adjektiv, adverbial oder prädikativ
anderen Wortklassen zugeordnet
̶
PIS/PIAT: viele, manche,...
̶
CARD: zwei Männer, ..
Penn Treebank
JJ: adjective
JJR: adjective, comparative
JJS: Adjective, superlative
̶
4.11.2009
CD: two men, ...
22
Pronomen (1)
Morphologische Eigenschaften
flektieren
Semantische Eigenschaften
Beitrag zur Referenz
ersetzen Nomen (siehe dort)
Unterklassen, z.B.
4.11.2009
̶
Personalpronomen: ich, du,...
̶
Possessivpronomen: mein, dein,...
̶
Demonstrativpronomen: dieser, jener
̶
Reflexivpronomen: sich, einander
̶
Fragepronomen: wer, wie, was, warum
̶
Relativpronomen: der, die, das,
23
Pronomen (2)
Distributionelle Eigenschaften
attribuierend (ersetzen einen Artikel)
(1) dieser Baum
(2) welcher Baum?
substituierend (ersetzen eine Nominalphrase, oder
ähnliches)
(3) Er hat diesen gefällt.
(4) Welchen hat er gefällt.
4.11.2009
24
Pronomen in den Tagsets (1)
STTS
PDS, PDAT: Demonstrativpronomen
PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,...
PPER: Personalpronomen
PPOSS, PPOSAT: Possessivpronomen
PRELS, PRELAT:Relativpronomen
PRF: Reflexiv- und Reziprokpronomen: sich, einander,...
PWS, PWAT:Interrogativpronomen
PWAV: adverbiales Interrogativ- oder Relativpronomen: warum
PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
in STTS keine w-Pronominaladverbien, sind alle PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶
4.11.2009
und in der TIGER Baumbank “PROAV”
25
Pronomen in den Tagsets (2)
Penn Treebank
PRP, PRP$: personal pronoun, possessive pronoun
WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb
4.11.2009
26
Determinierer
auch: Artikel
Morphologische Eigenschaften
werden flektiert
Semantische Eigenschaften
legen Referenz des Substantivs fest
̶
definit/indefinit, bestimmt/unbestimmt
Distributionelle Eigenschaften
treten stets zusammen mit einem Substantiv auf
Scheinbare Ausnahme: Ellipsen
(1) Ich nehme das große Stück. Du bekommst [das kleine ___ ].
4.11.2009
27
Determinierer in den Tagsets
STTS
ART
anderen Wortarten zugeordnet
APPART: Präposition mit Artikel: zum
̶
̶
PDAT: attribuierende Demonstrativpronomen:
diese NN
Penn Treebank
DT
4.11.2009
28
Adverb (1)
Morphologische Eigenschaften
wird nicht flektiert (manche werden kompariert)
Engl.: werden mit -ly gebildet
̶
aber: friendly (Adjektiv), seldom/often (Adverb)
Semantische Eigenschaften, Beispiele:
temporal: heute, oft,..
lokal: dort, hier, unten, dorthin,...
modal: eilend, flugs, gerne,..
kausal: deswegen, umständehalber,...
4.11.2009
29
Adverb (2)
Semantische Eigenschaften (Fortsetzung)
Satzadverbien:
Stellungnahme: leider, hoffentlich
Wahrscheinlichkeit: vielleicht, möglicherweise,...
Bewertung: dummerweise, ...
Konjuktionaladverbien:
Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb ...
Pronominaladverbien:
da-/hier-/wo-+Präposition
(1) Er kümmert sich darum, dass nichts passiert.
4.11.2009
30
Adverb (3)
Distributionelle Eigenschaften
Deutsch: Können am Satzanfang alleine vor dem
finiten Verb auftreten
(1) Leider/Heute/Hier regnet es.
4.11.2009
31
Adverben in den Tagsets
STTS
ADV oder anderen Hauptklassen zugeordnet:
PWAV, adverbiales Fragepronomen: warum, wann, worüber,
wobei,...
PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
in STTS keine w-Pronominaladverbien, sind alle
PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶
und in der TIGER Baumbank “PROAV”
Penn Treebank
RB, RBR, RBS - Steigerungsformen
4.11.2009
32
Präposition (1)
allgemeiner: Adposition
Morphologische Eigenschaften
werden nicht flektiert
Semantische Eigenschaften
Zeitangaben (temporal)
(1) Sie besucht uns in drei Wochen
Modalangabe (Art und Weise)
(2) Die Tür wird in Rot gestrichen.
Kausalangabe (Grund)
(3) Er weint vor Freude.
4.11.2009
33
Präposition (2)
(Fortsetzung: Semantische Eigenschaften')
Lokalangabe (Ort), Temporalangabe (Zeit)
(4) Sie wartet auf dem Bahnsteig
Neutral (grammatikalisiert)
(5) Sie wartet auf den Zug.
4.11.2009
34
Präposition (3)
Distributionelle Eigenschaften
treten normalerweise mit Nominalphrasen auf, bestimmen
(“regieren”) deren Kasus
(1) neben dem Haus, *neben des Hauses
(2) in das Haus (direktional) / in dem Haus (lokal)
(3) Er ist von hier (mit Adverb)
Präposition
geht dem Nomen voran: vor dem Nomen
̶
Postposition:
folgt dem Nomen nach: den Zaun entlang
̶
Zirkumposition:
̶
4.11.2009
zweigeteilt: um .. willen, um ... herum
35
Präpositionen in den Tagsets
STTS
APPR: Präposition
APPRART: Präposition mit Artikel: zum, am, ...
APPO: Postposition
APZR: rechter Teil einer Zirkumposition
(1) Um ihn herum stehen viele Leute
(1”) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT
Leute_NN
Penn Treebank
IN: Präpositionen und subordinierende Konjunktionen
(siehe Folie 39)
4.11.2009
36
Konjunktion
auch: Koordinierende Konjunktion
Morphologische Eigenschaften
wird nicht flektiert
Semantische Eigenschaften
verbindet zwei (oder mehr) gleichwertige Sätze oder Satzteile
(1) und, oder, sowohl ... als auch
STTS: KON
Penn Treebank: CC (coordinating conjunction)
4.11.2009
37
Subjunktion
auch: subordinierende Konjunktion
Morphologische Eigenschaften
wird nicht flektiert
Semantische Eigenschaften
bindet Sätze in andere Sätze ein, z.B.
Argumentsatz: ..., dass....
temporal: ..., dann ...
kausal: ..., weil ...
Distributionelle Eigenschaften
tritt (fast) nur an der ersten Position im Teilsatz auf
4.11.2009
38
Subjunktionen in den Tagsets
STTS
KOUS: subordinierende Konjunktion mit Satz
(1) ..., weil er nach Hause geht.
KOUI: subordinierende Konjunktion mit zu-Infinitiv
(2) ... um nach Hause zu gehen.
Penn Treebank
IN: gemeinsames Tag für subordinierende Konjunktionen und
Präpositionen
(3) I think that_IN he left early.
(4) The kettle is on_IN the fire.
4.11.2009
39
Partikeln
Morphologische Eigenschaften
nicht flektiert
Semantische Eigenschaften
Modalpartikel: “Abtönungspartikel”
(1) Er hat ja/doch/einfach keine Zeit
Fokuspartikel: Alternativenbezug
(2) Auch/nur/sogar Peter kommt.
Steigerungspartikel: “intensifier”
(3) ziemlich/sehr/ungemein dumm
Antwortpartikel: ja, nein
4.11.2009
40
Partikeln in den Tagsets
STTS
PTKZU: zu mit zu-Infinitiv
PTKNEG: Negationspartikel nicht
PTKVZ: abgetrennte Verbpartikel
(1) er kommt_VVFIN hier mit_PTKVZ.
Vergleiche: (2) dass er hier mitkommt_VVFIN .
PTKANT: Antwortpartikel
(3) ja, nein, danke, bitte
PTKA: Partikel mit Adjektiven/Adverbien
(4) am schönsten, zu schnell
Penn Treebank
RP
4.11.2009
41
0ffene und geschlossene Klassen
lexikalische Klassen (Inhaltswörter)
offene Klassen: erlauben Neubildungen
Nomen, Verben, Adjektive, Adverbien
Funktionswörter
geschlossene Klassen: kaum Neubildungen
Präpositionen, Artikel, Modalpartikel
Grammatikalisierung
Verlust der lexikalischen Bedeutung bei gleichzeitiger
Verwendung als Funktionswort
(1) Das ist voll gut
4.11.2009
42
Sind Wortarten universell?
Wortarten sind nicht universell
Bsp.: Latein besitzt, anders als Griechisch, keine Artikel. Folge:
Anpassung der klassischen 8 Wortarten von Thrax an die
Gegebenheiten des Lateinischen durch Ersetzung der Wortart
“Artikel” mit “Interjektion” ('uh').
Grammatiken durch das Griechische / das
Lateinische geprägt (bzw. verzerrt)
Standardisierungsbestrebungen
EAGLES-Empfehlungen für europäische Sprachen
http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm
GOLD-Ontologie http://www.linguistics-ontology.org/gold.html
4.11.2009
43
Beispiele für sprachspezifische Wortarten
bzw. deren Fehlen (1)
Deutsch
Verschmelzung von Präposition und definitem Artikel. Unterklasse:
Kontrahierte Form
(1) am, zum, beim usw.
Dänisch
Definiter Artikel als Affix, wenn kein Adjektiv beim Nomen:
Unterklasse: definites Nomen
(2) en bog (ein Buch) / bogen (das Buch)
Japanisch, Latein, Polnisch, Russisch, Inuktitut, ... besitzen
keine Artikel
(3) Polnisch: chłopiec śpiewa (Ein/Der Junge singt.)
4.11.2009
44
Beispiele für sprachspezifische Wortarten bzw.
deren Fehlen (2)
Inuktitut
Ist stark agglutinierend, d.h. es werden sehr komplexe Wörter
aus vielen Morphemen gebildet
̶
keine subordinierenden Konjunktionen
̶
keine Präpositionen (sondern Kasusmorpheme)
̶
“Adjektive” existieren nur als gebundene Morpheme
(1) silaluk
sila -luk = Wetter-schlecht "schlechtes Wetter"
(2) ijiluktunga
iji -luk -tunga = Auge-schlecht-1.singular_intransitiv
"Ich habe schlechte Augen"
(Nowak 2007: 41)
4.11.2009
45
Referenzen
Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik. Stuttgart /
Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5
Dudenverlag: Duden – Die Grammatik (Bd. 4).
W. Nelson Francis und Henry Kučera. 1982. Frequency analysis of English usage :
lexicon and grammar. Boston : Houghton Mifflin, 1982;
http://icame.uib.no/brown/bcm.html
Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin. http://www.tuberlin.de/fak1/el/ board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0
Karin Pittner und Judith Berman. 2004. Deutsche Syntax. Ein Arbeitsbuch. Tübingen:
Narr.
Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines
für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für
maschinelle Sprachverarbeitung, Stuttgart. http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf
Beatrice Santorini. 1990. Part-of-Speech Tagging Guidelines for the Penn Treebank
Project. Technischer Bericht. University of Pennsylvania.
ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz
4.11.2009
46