Wortarten - Hintergrund
Kategorien
Grundbegriffe eines Systems
Philosophie: Kategorienlehre von Aristoteles als Systematik der
Grundformen des Seins
Wortarten und Tagsets
Substanz, Quantität, Qualität, Relation, Ort, Zeit, Lage,
Haben, Wirken und Leiden
̶
syntaktische/grammatische Kategorien: Wortarten (Englisch:
'parts of speech')
Korpuslinguistik
Dr. Heike Zinsmeister
Dionysios Thrax (ca. 170‑90 v.Chr), Alexandria
erste griechische Grammatik
WS 2009/10
8 Wortarten:
Adverben, Artikel, Konjunktionen, Nomen, Partizipien,
Präpositionen, Pronomen und Verben
̶
4.11.2009
Wortarten - Kriterien
Klassifizierung nach morphologischen Kriterien
Morphologische Kriterien
flektierbar oder nicht, Art der Flektion
wortartenspezifische Affigierung in der Wortbildung
Wort
flektierbar
Semantische Kriterien
2
deklinierbar
teilweise Bildung von Unterklassen durch
Bedeutungsunterschiede
konjugierbar
Substantive
Adjektive
Distributionelle Kriterien
nicht-flektierbar
Wortartenkontexte / Positionen im Satz, in denen ein
Element typischerweise auftritt
Konjunktionen
Verben
Artikel
Adverbien
Partikeln
Interjektionen
➢ Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen.
4.11.2009
Präpositionen
(nach Pittner & Berman: 2004: 15)
4.11.2009
3
4
STTS
Einschub: Tagsets
STTS (Deutsch) und Penn
Treebank Tagset (Englisch)
das Stuttgart-Tübingen Tagset (Schiller et al. 1999)
Wortarten-Analyse für die manuelle (und
automatische) Annotation von deutschen
Textkorpora
Vereinfachung: Leerzeichen = Wortgrenze
es werden zunächst keine Mehrwortlexeme berücksichtigt
Analog zum Standard der Text Encoding Initiative
(TEI)
11 Hauptwortarten, spezifiziert in
54 Wortarten-Tags (48 & 6 Zusatztags:
•
4.11.2009
5
4.11.2009
Interpunktion, Fremdsprachliches, Nicht-Wörter, Truncs)
6
1
STTS-Hauptwortarten
Das Penn Treebank Tagset (1)
vgl. Santorini (1991)
45 Tags (36 & 9 'punctuation tags')
(Schiller et al. 1999:4)
• Aufbau der Labels
basiert auf dem umfangreicheren Tagset des Brown
Corpus (Francis & Kučera 1982)
Typen von Tags
hierarchisch von links nach rechts: vom Allgemeinen zum
Spezifischeren
Bsp. Pronomen
(1) Diese Lösung klappt. (2) Diese klappt nicht.
Hauptklassen: noun (common and proper); verb; adjective;
adverb
Funktionswörter: determiners, prepositions, conjunctions,
pronouns, etc.
wichtige Einzelwörter: to, there
ad (1): Pronomen demonstrativ attribuierend, PDAT
Interpunktion
ad (2): Pronomen demonstrativ substituierend, PDS
Fremdsprachl. Material, Symbole, Interjektionen, List Marker
4.11.2009
4.11.2009
7
8
Das Penn Treebank Tagset (2)
Tagnamen sind weniger hierarchisch aufgebaut als im
STTS
Manche Tags sind nicht intuitiv, z.B.
“JJ” für Adjektive
“RB” für Adverb
Zurück zu den Wortarten im
Allgemeinen
To ist immer als TO getaggt
(1) to_TO go_VB to_TO university_NN
existenzielles there ist als EX getaggt
(2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT
garden_NN
4.11.2009
Nomen: Morphologische Eigenschaften (1)
(auch: Substantiv)
festes Genus
4.11.2009
9
10
Nomen: Morphologische Eigenschaften (2)
(Fortsetzung)
werden nach Numerus und Kasus dekliniert
- Aber: Pluralia Tanta (treten nur im Plural auf)
- Maskulin, Feminin, Neutrum
(3) Geschwister, Alpen,...
- Aber: dialektale bzw. regionale Schwankungen
- Stoffsubstantive und manch andere (sind nicht zählbar) t reten
nur im Singular auf (“Reis ist...”)
(1) der/das Teller, der/die Butter, der/das Radio
(4) Reis, Mehl, Sand, Ruhe, Hass, Wut,...
- Aber: Neue Wörter und andere Unsicherheiten
(2) der/das Jogurt, der/das Virus, der/das Chip
4.11.2009
11
4.11.2009
12
2
Nomen: Distributionelle Kriterien
Nomen: Semantische Eigenschaften
Notation:
Konkreta – Abstrakta
Typische Kontexte:
- Gegenständliches – Vorstellungen/ Handlungen/
Vorgänge/Zustände/Eigenschaften/...
Artikel (Adjektiv)* Nomen
(1) Er liest ein neues Buch.
(1) Stuhl / Obst – Meinung / Ruhe
(3) Er isst Obst.
Gattungsbezeichnungen (Appellativa) – Eigennamen
(4) Er hat Freundschaft mit ihr geschlossen.
(3) ein/der Hund – Fido
Präposition (Artikel)? (Adjektiv)* Nomen
Diskret / zählbar – nicht zählbar
(x)? = x kommt nicht oder genau
einmal vor
(2) Max liest gerne Comics.
(2) Katze / Alge – Weg / Schule
(x)* = x kommt null mal, ein mal
oder beliebig oft vor
- Aber: Eigennamen, Plurale, Stoffsubstantive,
Funktionsverbgefüge (z.B. Freundschaft schließen), ...
Belebt – unbelebt
* = “Kleene Star”
(5) Sie zieht die Option in Betracht.
(4) zwei Stühle vs. zwei *Obst
(5) zwei Meinungen vs. zwei *Ruhen
4.11.2009
4.11.2009
13
14
Nomen in den Tagsets
Verb (1)
STTS:
Morphologische Eigenschaften
Semantische Eigenschaften
werden konjugiert Dt.: Tempus, Modus, Numerus, Person
̶
NN: “normales” Nomen ('common noun')
NE: Eigenname
Vollverben (lexikalische Verben)
Hilfsverben (Auxiliare)
Modalverben
eigene Semantik
Penn Treebank
̶
NN: noun, singular or mass
NNS: noun, plural
NNP: proper noun, singular
NNPs: proper noun, plural
grammatische Bedeutung: Tempus, Konjunktiv,Passiv
̶
drücken Möglichkeit, Notwendigkeit, Erlaubnis,
Einschätzung der Wahrscheinlichkeit u.ä. aus
̶
Kopulaverben
̶
4.11.2009
drücken Zustand oder Fortdauern aus: sind grammatischer
Kitt für nicht-verbale Prädikate
4.11.2009
15
16
Verb (2)
Verb (3)
Distributionelle Eigenschaften
̶
treten mit nicht-verbalem Prädikat auf
̶
zählen mehr zu den Vollverben als zu den Auxiliaren
̶
sein, bleiben, werden
treten nur zusammen mit einem infiniten Vollverb auf (im
Partizip Perfekt oder Infinitiv)
(1) haben, sein, werden
(1) Er ist [NP ein guter Fußballer].
Modalverben
̶
(2) Sie wird [AdjP gesund].
treten mit infiniten Vollverben und Kopulaverben auf
(2) können, dürfen, müssen, sollen, wollen, mögen
Kopulaverben
Hilfsverben
̶
Distributionelle Eigenschaften (Fortsetzung)
treten selbstständig auf (mit ihren Argumenten)
̶
Vollverben
(3) Ein Gewitter ist [PP im Anmarsch].
[Halbmodalverben mit Vollverb im zu-Infinitiv
(3) scheint zu schlafen, verspricht zu bleiben, droht zu...]
4.11.2009
17
4.11.2009
18
3
Verben in den Tagsets
Adjektiv (1)
STTS: Vollverben
̶
VVFIN: Vollverb, finit
̶
VVIMP: Vollverb, Imperativ
̶
VVINF: Vollverb, Infinitiv
̶
VVIZU: Vollverb, zu-Infinitiv
̶
VVPP: Vollverb, Partizip Perfekt
Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA)
Modalverben: VMFIN, VMINF,VMPP
deklinierbar: großer, große, großes, ....
komparierbar: große, größere, größte
Semantische Eigenschaften, Beispiele:
Qualitität
(1) rot, rund, laut, gut, angeblich,..
Penn Treebank
Morphologische Eigenschaften
Relation
(2) asiatisch, ärztlich, hölzern,..
VB: Verb, base form
VBD: Verb, past tense
VBG: Verb, gerund or present participle
VPN: Verb, past participle
VBP: Verb, non-3rd person singular present
VBZ: Verb, 3rd person singular present
4.11.2009
Quantifizierend
(3) viel, wenig, eine, hundert, dritter, vierter,...
Adjektivisch gebrauchte Partizipien
(4) suchend, belastend, gesucht, belastet,...
4.11.2009
19
Adjektive in den Tagsets
Adjektiv (2)
Distributionelle Eigenschaften
prädikativ mit Kopulaverb (nicht flektiert)
(1) Der Ball ist rot. / Die Freunde sind quitt.
adverbial verwendet mit Vollverb (nicht flektiert)
STTS
ADJA: Adjektiv, attribuierend
ADJD: Adjektiv, adverbial oder prädikativ
anderen Wortklassen zugeordnet
̶
PIS/PIAT: viele, manche,...
̶
CARD: zwei Männer, ..
(2) Das Auto fährt schnell.
attribuierend (normalerweise flektiert, Ausnahme z.B. lila)
(3) Der rote Ball / Das lila Kleid
können Argumente selegieren
(4) Er ist [PP auf seinen Sieg] stolz.
Penn Treebank
JJ: adjective
JJR: adjective, comparative
JJS: Adjective, superlative
(5) Sie ist [ VP zu gehen] imstande.
4.11.2009
̶
22
Pronomen (2)
Morphologische Eigenschaften
CD: two men, ...
4.11.2009
21
Pronomen (1)
flektieren
Distributionelle Eigenschaften
Semantische Eigenschaften
attribuierend (ersetzen einen Artikel)
Beitrag zur Referenz
(1) dieser Baum
ersetzen Nomen (siehe dort)
(2) welcher Baum?
Unterklassen, z.B.
4.11.2009
̶
Personalpronomen: ich, du,...
̶
Possessivpronomen: mein, dein,...
̶
Demonstrativpronomen: dieser, jener
̶
Reflexivpronomen: sich, einander
̶
Fragepronomen: wer, wie, was, warum
̶
Relativpronomen: der, die, das,
20
substituierend (ersetzen eine Nominalphrase, oder
ähnliches)
(3) Er hat diesen gefällt.
(4) Welchen hat er gefällt.
23
4.11.2009
24
4
Pronomen in den Tagsets (1)
Pronomen in den Tagsets (2)
STTS
Penn Treebank
PDS, PDAT: Demonstrativpronomen
PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,...
PPER: Personalpronomen
PPOSS, PPOSAT: Possessivpronomen
PRELS, PRELAT:Relativpronomen
PRF: Reflexiv- und Reziprokpronomen: sich, einander,...
PWS, PWAT:Interrogativpronomen
PWAV: adverbiales Interrogativ- oder Relativpronomen: warum
PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
PRP, PRP$: personal pronoun, possessive pronoun
WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb
in STTS keine w-Pronominaladverbien, sind alle PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶
4.11.2009
und in der TIGER Baumbank “PROAV”
4.11.2009
25
Determinierer in den Tagsets
Determinierer
auch: Artikel
Morphologische Eigenschaften
STTS
ART
anderen Wortarten zugeordnet
werden flektiert
APPART: Präposition mit Artikel: zum
̶
legen Referenz des Substantivs fest
̶
definit/indefinit, bestimmt/unbestimmt
̶
Semantische Eigenschaften
Distributionelle Eigenschaften
treten stets zusammen mit einem Substantiv auf
Scheinbare Ausnahme: Ellipsen
26
PDAT: attribuierende Demonstrativpronomen:
diese NN
Penn Treebank
DT
(1) Ich nehme das große Stück. Du bekommst [das kleine ___ ].
4.11.2009
4.11.2009
27
Adverb (1)
wird nicht flektiert (manche werden kompariert)
Engl.: werden mit -ly gebildet
̶
Adverb (2)
Morphologische Eigenschaften
Semantische Eigenschaften (Fortsetzung)
Satzadverbien:
aber: friendly (Adjektiv), seldom/often (Adverb)
Semantische Eigenschaften, Beispiele:
temporal: heute, oft,..
lokal: dort, hier, unten, dorthin,...
modal: eilend, flugs, gerne,..
kausal: deswegen, umständehalber,...
28
Stellungnahme: leider, hoffentlich
Wahrscheinlichkeit: vielleicht, möglicherweise,...
Bewertung: dummerweise, ...
Konjuktionaladverbien:
Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb ...
Pronominaladverbien:
da-/hier-/wo-+Präposition
(1) Er kümmert sich darum, dass nichts passiert.
4.11.2009
29
4.11.2009
30
5
Adverb (3)
Adverben in den Tagsets
Distributionelle Eigenschaften
STTS
Deutsch: Können am Satzanfang alleine vor dem
finiten Verb auftreten
(1) Leider/Heute/Hier regnet es.
ADV oder anderen Hauptklassen zugeordnet:
PWAV, adverbiales Fragepronomen: warum, wann, worüber,
wobei,...
PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
in STTS keine w-Pronominaladverbien, sind alle
PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶
Penn Treebank
4.11.2009
RB, RBR, RBS - Steigerungsformen
4.11.2009
31
Präposition (1)
allgemeiner: Adposition
Morphologische Eigenschaften
(Fortsetzung: Semantische Eigenschaften')
werden nicht flektiert
Lokalangabe (Ort), Temporalangabe (Zeit)
(4) Sie wartet auf dem Bahnsteig
Zeitangaben (temporal)
Neutral (grammatikalisiert)
(5) Sie wartet auf den Zug.
(1) Sie besucht uns in drei Wochen
32
Präposition (2)
Semantische Eigenschaften
und in der TIGER Baumbank “PROAV”
Modalangabe (Art und Weise)
(2) Die Tür wird in Rot gestrichen.
Kausalangabe (Grund)
(3) Er weint vor Freude.
4.11.2009
4.11.2009
33
Präpositionen in den Tagsets
Präposition (3)
Distributionelle Eigenschaften
treten normalerweise mit Nominalphrasen auf, bestimmen
(“regieren”) deren Kasus
STTS
APPR: Präposition
(1) neben dem Haus, *neben des Hauses
APPRART: Präposition mit Artikel: zum, am, ...
(2) in das Haus (direktional) / in dem Haus (lokal)
APPO: Postposition
(3) Er ist von hier (mit Adverb)
APZR: rechter Teil einer Zirkumposition
(1”) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT
Leute_NN
geht dem Nomen voran: vor dem Nomen
Postposition:
folgt dem Nomen nach: den Zaun entlang
̶
(1) Um ihn herum stehen viele Leute
Präposition
̶
̶
Penn Treebank
Zirkumposition:
4.11.2009
34
zweigeteilt: um .. willen, um ... herum
35
IN: Präpositionen und subordinierende Konjunktionen
(siehe Folie 39)
4.11.2009
36
6
Konjunktion
Subjunktion
auch: Koordinierende Konjunktion
auch: subordinierende Konjunktion
Morphologische Eigenschaften
Morphologische Eigenschaften
Semantische Eigenschaften
wird nicht flektiert
verbindet zwei (oder mehr) gleichwertige Sätze oder Satzteile
(1) und, oder, sowohl ... als auch
STTS: KON
Penn Treebank: CC (coordinating conjunction)
Semantische Eigenschaften
bindet Sätze in andere Sätze ein, z.B.
Argumentsatz: ..., dass....
temporal: ..., dann ...
kausal: ..., weil ...
Distributionelle Eigenschaften
4.11.2009
wird nicht flektiert
tritt (fast) nur an der ersten Position im Teilsatz auf
4.11.2009
37
Subjunktionen in den Tagsets
Partikeln
STTS
KOUS: subordinierende Konjunktion mit Satz
KOUI: subordinierende Konjunktion mit zu-Infinitiv
(3) I think that_IN he left early.
Antwortpartikel: ja, nein
4.11.2009
39
Partikeln in den Tagsets
STTS
lexikalische Klassen (Inhaltswörter)
PTKZU: zu mit zu-Infinitiv
PTKNEG: Negationspartikel nicht
offene Klassen: erlauben Neubildungen
PTKVZ: abgetrennte Verbpartikel
Nomen, Verben, Adjektive, Adverbien
Vergleiche: (2) dass er hier mitkommt_VVFIN .
PTKANT: Antwortpartikel
(3) ja, nein, danke, bitte
PTKA: Partikel mit Adjektiven/Adverbien
(4) am schönsten, zu schnell
Funktionswörter
geschlossene Klassen: kaum Neubildungen
Präpositionen, Artikel, Modalpartikel
Grammatikalisierung
Penn Treebank
Verlust der lexikalischen Bedeutung bei gleichzeitiger
Verwendung als Funktionswort
(1) Das ist voll gut
RP
4.11.2009
40
0ffene und geschlossene Klassen
(1) er kommt_VVFIN hier mit_PTKVZ.
Steigerungspartikel: “intensifier”
(3) ziemlich/sehr/ungemein dumm
(4) The kettle is on_IN the fire.
Fokuspartikel: Alternativenbezug
(2) Auch/nur/sogar Peter kommt.
IN: gemeinsames Tag für subordinierende Konjunktionen und
Präpositionen
4.11.2009
Modalpartikel: “Abtönungspartikel”
(1) Er hat ja/doch/einfach keine Zeit
Penn Treebank
nicht flektiert
Semantische Eigenschaften
(2) ... um nach Hause zu gehen.
Morphologische Eigenschaften
(1) ..., weil er nach Hause geht.
38
41
4.11.2009
42
7
Beispiele für sprachspezifische Wortarten
bzw. deren Fehlen (1)
Sind Wortarten universell?
Wortarten sind nicht universell
Bsp.: Latein besitzt, anders als Griechisch, keine Artikel. Folge:
Anpassung der klassischen 8 Wortarten von Thrax an die
Gegebenheiten des Lateinischen durch Ersetzung der Wortart
“Artikel” mit “Interjektion” ('uh').
Grammatiken durch das Griechische / das
Lateinische geprägt (bzw. verzerrt)
Verschmelzung von Präposition und definitem Artikel. Unterklasse:
Kontrahierte Form
(1) am, zum, beim usw.
Dänisch
Standardisierungsbestrebungen
Deutsch
Definiter Artikel als Affix, wenn kein Adjektiv beim Nomen:
Unterklasse: definites Nomen
(2) en bog (ein Buch) / bogen (das Buch)
EAGLES-Empfehlungen für europäische Sprachen
http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm
GOLD-Ontologie http://www.linguistics-ontology.org/gold.html
Japanisch, Latein, Polnisch, Russisch, Inuktitut, ... besitzen
keine Artikel
(3) Polnisch: chłopiec śpiewa (Ein/Der Junge singt.)
4.11.2009
4.11.2009
43
Beispiele für sprachspezifische Wortarten bzw.
deren Fehlen (2)
Inuktitut
Referenzen
Ist stark agglutinierend, d.h. es werden sehr komplexe Wörter
aus vielen Morphemen gebildet
̶
keine subordinierenden Konjunktionen
̶
keine Präpositionen (sondern Kasusmorpheme)
̶
“Adjektive” existieren nur als gebundene Morpheme
(1) silaluk
sila -luk = Wetter-schlecht "schlechtes Wetter"
(2) ijiluktunga
iji -luk -tunga = Auge-schlecht-1.singular_intransitiv
"Ich habe schlechte Augen"
(Nowak 2007: 41)
4.11.2009
45
44
Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik. Stuttgart /
Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5
Dudenverlag: Duden – Die Grammatik (Bd. 4).
W. Nelson Francis und Henry Kučera. 1982. Frequency analysis of English usage :
lexicon and grammar. Boston : Houghton Mifflin, 1982;
http://icame.uib.no/brown/bcm.html
Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin. http://www.tuberlin.de/fak1/el/ board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0
Karin Pittner und Judith Berman. 2004. Deutsche Syntax. Ein Arbeitsbuch. Tübingen:
Narr.
Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines
für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für
maschinelle Sprachverarbeitung, Stuttgart. http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf
Beatrice Santorini. 1990. Part-of-Speech Tagging Guidelines for the Penn Treebank
Project. Technischer Bericht. University of Pennsylvania.
ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz
4.11.2009
46
8