Wortartenannotation

Werbung
Wortarten und Tagsets
Korpuslinguistik
Dr. Heike Zinsmeister
WS 2009/10
Wortarten - Hintergrund

Kategorien
Grundbegriffe eines Systems

Philosophie: Kategorienlehre von Aristoteles als Systematik der
Grundformen des Seins

Substanz, Quantität, Qualität, Relation, Ort, Zeit, Lage,
Haben, Wirken und Leiden
̶
syntaktische/grammatische Kategorien: Wortarten (Englisch:
'parts of speech')‫‏‬


Dionysios Thrax (ca. 170‑90 v.Chr), Alexandria

erste griechische Grammatik

8 Wortarten:
̶
4.11.2009
Adverben, Artikel, Konjunktionen, Nomen, Partizipien,
Präpositionen, Pronomen und Verben
2
Wortarten - Kriterien


Morphologische Kriterien

flektierbar oder nicht, Art der Flektion

wortartenspezifische Affigierung in der Wortbildung
Semantische Kriterien


teilweise Bildung von Unterklassen durch
Bedeutungsunterschiede
Distributionelle Kriterien

Wortartenkontexte / Positionen im Satz, in denen ein
Element typischerweise auftritt
➢ Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen.
4.11.2009
3
Klassifizierung nach morphologischen Kriterien
Wort
flektierbar
deklinierbar
nicht-flektierbar
konjugierbar
Substantive
Adjektive
Artikel
Konjunktionen
Verben
Präpositionen
Adverbien
Partikeln
Interjektionen
(nach Pittner & Berman: 2004: 15)‫‏‬
4.11.2009
4
Einschub: Tagsets
STTS (Deutsch) und Penn
Treebank Tagset (Englisch)‫‏‬
4.11.2009
5
STTS



das Stuttgart-Tübingen Tagset (Schiller et al. 1999)‫‏‬
Wortarten-Analyse für die manuelle (und
automatische) Annotation von deutschen
Textkorpora
Vereinfachung: Leerzeichen = Wortgrenze


es werden zunächst keine Mehrwortlexeme berücksichtigt
Analog zum Standard der Text Encoding Initiative
(TEI)‫‏‬

11 Hauptwortarten, spezifiziert in

54 Wortarten-Tags (48 & 6 Zusatztags:
•
4.11.2009
Interpunktion, Fremdsprachliches, Nicht-Wörter, Truncs)
6
STTS-Hauptwortarten
(Schiller et al. 1999:4)‫‏‬
• Aufbau der Labels


hierarchisch von links nach rechts: vom Allgemeinen zum
Spezifischeren
Bsp. Pronomen
(1) Diese Lösung klappt. (2) Diese klappt nicht.
ad (1): Pronomen demonstrativ attribuierend, PDAT
ad (2): Pronomen demonstrativ substituierend, PDS
4.11.2009
7
Das Penn Treebank Tagset (1)‫‏‬

vgl. Santorini (1991)‫‏‬

45 Tags (36 & 9 'punctuation tags')‫‏‬


basiert auf dem umfangreicheren Tagset des Brown
Corpus (Francis & Kučera 1982)‫‏‬
Typen von Tags


Hauptklassen: noun (common and proper); verb; adjective;
adverb
Funktionswörter: determiners, prepositions, conjunctions,
pronouns, etc.

wichtige Einzelwörter: to, there

Interpunktion

Fremdsprachl. Material, Symbole, Interjektionen, List Marker
4.11.2009
8
Das Penn Treebank Tagset (2)‫‏‬



Tagnamen sind weniger hierarchisch aufgebaut als im
STTS
Manche Tags sind nicht intuitiv, z.B.

“JJ” für Adjektive

“RB” für Adverb
To ist immer als TO getaggt
(1) to_TO go_VB to_TO university_NN

existenzielles there ist als EX getaggt
(2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT
garden_NN
4.11.2009
9
Zurück zu den Wortarten im
Allgemeinen
4.11.2009
10
Nomen: Morphologische Eigenschaften (1)‫‏‬

(auch: Substantiv)

festes Genus
- Maskulin, Feminin, Neutrum
- Aber: dialektale bzw. regionale Schwankungen
(1) der/das Teller, der/die Butter, der/das Radio
- Aber: Neue Wörter und andere Unsicherheiten
(2) der/das Jogurt, der/das Virus, der/das Chip
4.11.2009
11
Nomen: Morphologische Eigenschaften (2)‫‏‬


(Fortsetzung)
werden nach Numerus und Kasus dekliniert
- Aber: Pluralia Tanta (treten nur im Plural auf)‫‏‬
(3) Geschwister, Alpen,...
- Stoffsubstantive und manch andere (sind nicht zählbar) ‫‏‬treten
nur im Singular auf (“Reis ist...”)‫‏‬
(4) Reis, Mehl, Sand, Ruhe, Hass, Wut,...
4.11.2009
12
Nomen: Semantische Eigenschaften‫‏‬

Konkreta – Abstrakta
- Gegenständliches – Vorstellungen/ Handlungen/
Vorgänge/Zustände/Eigenschaften/...
(1) Stuhl / Obst – Meinung / Ruhe

Belebt – unbelebt
(2) Katze / Alge – Weg / Schule

Gattungsbezeichnungen (Appellativa) – Eigennamen
(3) ein/der Hund – Fido

Diskret / zählbar – nicht zählbar
(4) zwei Stühle vs. zwei *Obst
(5) zwei Meinungen vs. zwei *Ruhen
4.11.2009
13
Nomen: Distributionelle Kriterien‫‏‬
Notation:

Typische Kontexte:

Artikel (Adjektiv)* Nomen
(1) Er liest ein neues Buch.
* = “Kleene Star”
(x)* = x kommt null mal, ein mal
oder beliebig oft vor
(x)? = x kommt nicht oder genau
einmal vor
- Aber: Eigennamen, Plurale, Stoffsubstantive,
Funktionsverbgefüge (z.B. Freundschaft schließen), ...
(2) Max liest gerne Comics.
(3) Er isst Obst.
(4) Er hat Freundschaft mit ihr geschlossen.

Präposition (Artikel)? (Adjektiv)* Nomen
(5) Sie zieht die Option in Betracht.
4.11.2009
14
Nomen in den Tagsets‫‏‬


STTS:

NN: “normales” Nomen ('common noun')‫‏‬

NE: Eigenname
Penn Treebank

NN: noun, singular or mass

NNS: noun, plural

NNP: proper noun, singular

NNPs: proper noun, plural
4.11.2009
15
Verb (1)‫‏‬

Morphologische Eigenschaften
werden konjugiert Dt.: Tempus, Modus, Numerus, Person
̶

Semantische Eigenschaften

Vollverben (lexikalische Verben)‫‏‬
eigene Semantik
̶

Hilfsverben (Auxiliare)‫‏‬
grammatische Bedeutung: Tempus, Konjunktiv,Passiv
̶

Modalverben
drücken Möglichkeit, Notwendigkeit, Erlaubnis,
Einschätzung der Wahrscheinlichkeit u.ä. aus
̶

Kopulaverben
̶
4.11.2009
drücken Zustand oder Fortdauern aus: sind grammatischer
Kitt für nicht-verbale Prädikate
16
Verb (2)‫‏‬

Distributionelle Eigenschaften

Vollverben
treten selbstständig auf (mit ihren Argumenten)‫‏‬
̶

Hilfsverben
treten nur zusammen mit einem infiniten Vollverb auf (im
Partizip Perfekt oder Infinitiv)‫‏‬
̶
(1) haben, sein, werden

Modalverben
treten mit infiniten Vollverben und Kopulaverben auf
̶
(2) können, dürfen, müssen, sollen, wollen, mögen

[Halbmodalverben mit Vollverb im zu-Infinitiv
(3) scheint zu schlafen, verspricht zu bleiben, droht zu...]
4.11.2009
17
Verb (3)‫‏‬

Distributionelle Eigenschaften (Fortsetzung)‫‏‬

Kopulaverben
̶
treten mit nicht-verbalem Prädikat auf
̶
zählen mehr zu den Vollverben als zu den Auxiliaren
̶
sein, bleiben, werden
(1) Er ist [NP ein guter Fußballer].
(2) Sie wird [AdjP gesund].
(3) Ein Gewitter ist [PP im Anmarsch].
4.11.2009
18
Verben in den Tagsets‫‏‬


STTS: Vollverben
̶
VVFIN: Vollverb, finit
̶
VVIMP: Vollverb, Imperativ
̶
VVINF: Vollverb, Infinitiv
̶
VVIZU: Vollverb, zu-Infinitiv
̶
VVPP: Vollverb, Partizip Perfekt

Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA)‫‏‬

Modalverben: VMFIN, VMINF,VMPP
Penn Treebank

VB: Verb, base form

VBD: Verb, past tense

VBG: Verb, gerund or present participle

VPN: Verb, past participle

VBP: Verb, non-3rd person singular present

VBZ: Verb, 3rd person singular present
4.11.2009
19
Adjektiv (1)‫‏‬


Morphologische Eigenschaften

deklinierbar: großer, große, großes, ....

komparierbar: große, größere, größte
Semantische Eigenschaften, Beispiele:

Qualitität
(1) rot, rund, laut, gut, angeblich,..

Relation
(2) asiatisch, ärztlich, hölzern,..

Quantifizierend
(3) viel, wenig, eine, hundert, dritter, vierter,...

Adjektivisch gebrauchte Partizipien
(4) suchend, belastend, gesucht, belastet,...
4.11.2009
20
Adjektiv (2)‫‏‬

Distributionelle Eigenschaften

prädikativ mit Kopulaverb (nicht flektiert)‫‏‬
(1) Der Ball ist rot. / Die Freunde sind quitt.

adverbial verwendet mit Vollverb (nicht flektiert)‫‏‬
(2) Das Auto fährt schnell.

attribuierend (normalerweise flektiert, Ausnahme z.B. lila)‫‏‬
(3) Der rote Ball / Das lila Kleid

können Argumente selegieren
(4) Er ist [PP auf seinen Sieg] stolz.
(5) Sie ist [VP zu gehen] imstande.
4.11.2009
21
Adjektive in den Tagsets‫‏‬


STTS

ADJA: Adjektiv, attribuierend

ADJD: Adjektiv, adverbial oder prädikativ

anderen Wortklassen zugeordnet
̶
PIS/PIAT: viele, manche,...
̶
CARD: zwei Männer, ..
Penn Treebank

JJ: adjective

JJR: adjective, comparative

JJS: Adjective, superlative
̶
4.11.2009
CD: two men, ...
22
Pronomen (1)‫‏‬

Morphologische Eigenschaften


flektieren
Semantische Eigenschaften

Beitrag zur Referenz

ersetzen Nomen (siehe dort)‫‏‬

Unterklassen, z.B.
4.11.2009
̶
Personalpronomen: ich, du,...
̶
Possessivpronomen: mein, dein,...
̶
Demonstrativpronomen: dieser, jener
̶
Reflexivpronomen: sich, einander
̶
Fragepronomen: wer, wie, was, warum
̶
Relativpronomen: der, die, das,
23
Pronomen (2)‫‏‬

Distributionelle Eigenschaften

attribuierend (ersetzen einen Artikel)‫‏‬
(1) dieser Baum
(2) welcher Baum?

substituierend (ersetzen eine Nominalphrase, oder
ähnliches)‫‏‬
(3) Er hat diesen gefällt.
(4) Welchen hat er gefällt.
4.11.2009
24
Pronomen in den Tagsets (1)‫‏‬

STTS

PDS, PDAT: Demonstrativpronomen

PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,...

PPER: Personalpronomen

PPOSS, PPOSAT: Possessivpronomen

PRELS, PRELAT:Relativpronomen

PRF: Reflexiv- und Reziprokpronomen: sich, einander,...

PWS, PWAT:Interrogativpronomen

PWAV: adverbiales Interrogativ- oder Relativpronomen: warum

PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
in STTS keine w-Pronominaladverbien, sind alle PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶
4.11.2009
und in der TIGER Baumbank “PROAV”
25
Pronomen in den Tagsets (2)‫‏‬

Penn Treebank


PRP, PRP$: personal pronoun, possessive pronoun
WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb
4.11.2009
26
Determinierer‫‏‬

auch: Artikel

Morphologische Eigenschaften


werden flektiert
Semantische Eigenschaften

legen Referenz des Substantivs fest
̶

definit/indefinit, bestimmt/unbestimmt
Distributionelle Eigenschaften

treten stets zusammen mit einem Substantiv auf

Scheinbare Ausnahme: Ellipsen
(1) Ich nehme das große Stück. Du bekommst [das kleine ___ ].
4.11.2009
27
Determinierer in den Tagsets‫‏‬

STTS

ART

anderen Wortarten zugeordnet
APPART: Präposition mit Artikel: zum
̶
̶

PDAT: attribuierende Demonstrativpronomen:
diese NN
Penn Treebank

DT
4.11.2009
28
Adverb (1)‫‏‬

Morphologische Eigenschaften

wird nicht flektiert (manche werden kompariert)‫‏‬

Engl.: werden mit -ly gebildet
̶

aber: friendly (Adjektiv), seldom/often (Adverb)‫‏‬
Semantische Eigenschaften, Beispiele:

temporal: heute, oft,..

lokal: dort, hier, unten, dorthin,...

modal: eilend, flugs, gerne,..

kausal: deswegen, umständehalber,...
4.11.2009
29
Adverb (2)‫‏‬

Semantische Eigenschaften (Fortsetzung)‫‏‬

Satzadverbien:‫‏‬


Stellungnahme: leider, hoffentlich

Wahrscheinlichkeit: vielleicht, möglicherweise,...

Bewertung: dummerweise, ...
Konjuktionaladverbien:‫‏‬


Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb ...
Pronominaladverbien:‫‏‬

da-/hier-/wo-+Präposition
(1) Er kümmert sich darum, dass nichts passiert.
4.11.2009
30
Adverb (3)‫‏‬

Distributionelle Eigenschaften

Deutsch: Können am Satzanfang alleine vor dem
finiten Verb auftreten
(1) Leider/Heute/Hier regnet es.
4.11.2009
31
Adverben in den Tagsets‫‏‬

STTS



ADV oder anderen Hauptklassen zugeordnet:
PWAV, adverbiales Fragepronomen: warum, wann, worüber,
wobei,...
PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
in STTS keine w-Pronominaladverbien, sind alle
PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶

und in der TIGER Baumbank “PROAV”
Penn Treebank

RB, RBR, RBS - Steigerungsformen
4.11.2009
32
Präposition (1)‫‏‬

allgemeiner: Adposition

Morphologische Eigenschaften


werden nicht flektiert
Semantische Eigenschaften

Zeitangaben (temporal)‫‏‬
(1) Sie besucht uns in drei Wochen

Modalangabe (Art und Weise)‫‏‬
(2) Die Tür wird in Rot gestrichen.

Kausalangabe (Grund)‫‏‬
(3) Er weint vor Freude.
4.11.2009
33
Präposition (2)‫‏‬

(Fortsetzung: Semantische Eigenschaften')‫‏‬

Lokalangabe (Ort), Temporalangabe (Zeit)
(4) Sie wartet auf dem Bahnsteig

Neutral (grammatikalisiert)
(5) Sie wartet auf den Zug.
4.11.2009
34
Präposition (3)‫‏‬

Distributionelle Eigenschaften

treten normalerweise mit Nominalphrasen auf, bestimmen
(“regieren”) deren Kasus
(1) neben dem Haus, *neben des Hauses
(2) in das Haus (direktional) / in dem Haus (lokal)‫‏‬
(3) Er ist von hier (mit Adverb)‫‏‬

Präposition
geht dem Nomen voran: vor dem Nomen
̶

Postposition:
folgt dem Nomen nach: den Zaun entlang
̶

Zirkumposition:
̶
4.11.2009
zweigeteilt: um .. willen, um ... herum
35
Präpositionen in den Tagsets‫‏‬

STTS

APPR: Präposition

APPRART: Präposition mit Artikel: zum, am, ...

APPO: Postposition

APZR: rechter Teil einer Zirkumposition
(1) Um ihn herum stehen viele Leute
(1”) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT
Leute_NN

Penn Treebank

IN: Präpositionen und subordinierende Konjunktionen
(siehe Folie 39)‫‏‬
4.11.2009
36
Konjunktion

auch: Koordinierende Konjunktion

Morphologische Eigenschaften


wird nicht flektiert
Semantische Eigenschaften

verbindet zwei (oder mehr) gleichwertige Sätze oder Satzteile
(1) und, oder, sowohl ... als auch

STTS: KON

Penn Treebank: CC (coordinating conjunction)‫‏‬
4.11.2009
37
Subjunktion‫‏‬

auch: subordinierende Konjunktion

Morphologische Eigenschaften



wird nicht flektiert
Semantische Eigenschaften

bindet Sätze in andere Sätze ein, z.B.

Argumentsatz: ..., dass....

temporal: ..., dann ...

kausal: ..., weil ...
Distributionelle Eigenschaften

tritt (fast) nur an der ersten Position im Teilsatz auf
4.11.2009
38
Subjunktionen in den Tagsets‫‏‬

STTS

KOUS: subordinierende Konjunktion mit Satz
(1) ..., weil er nach Hause geht.

KOUI: subordinierende Konjunktion mit zu-Infinitiv
(2) ... um nach Hause zu gehen.

Penn Treebank

IN: gemeinsames Tag für subordinierende Konjunktionen und
Präpositionen
(3) I think that_IN he left early.
(4) The kettle is on_IN the fire.
4.11.2009
39
Partikeln‫‏‬

Morphologische Eigenschaften


nicht flektiert
Semantische Eigenschaften

Modalpartikel: “Abtönungspartikel”
(1) Er hat ja/doch/einfach keine Zeit

Fokuspartikel: Alternativenbezug‫‏‬
(2) Auch/nur/sogar Peter kommt.

Steigerungspartikel: “intensifier”
(3) ziemlich/sehr/ungemein dumm

Antwortpartikel: ja, nein
4.11.2009
40
Partikeln in den Tagsets

STTS

PTKZU: zu mit zu-Infinitiv

PTKNEG: Negationspartikel nicht

PTKVZ: abgetrennte Verbpartikel
(1) er kommt_VVFIN hier mit_PTKVZ.
Vergleiche: (2) dass er hier mitkommt_VVFIN .

PTKANT: Antwortpartikel
(3) ja, nein, danke, bitte

PTKA: Partikel mit Adjektiven/Adverbien
(4) am schönsten, zu schnell

Penn Treebank

RP
4.11.2009
41
0ffene und geschlossene Klassen



lexikalische Klassen (Inhaltswörter)‫‏‬

offene Klassen: erlauben Neubildungen

Nomen, Verben, Adjektive, Adverbien
Funktionswörter

geschlossene Klassen: kaum Neubildungen

Präpositionen, Artikel, Modalpartikel
Grammatikalisierung

Verlust der lexikalischen Bedeutung bei gleichzeitiger
Verwendung als Funktionswort
(1) Das ist voll gut
4.11.2009
42
Sind Wortarten universell?

Wortarten sind nicht universell



Bsp.: Latein besitzt, anders als Griechisch, keine Artikel. Folge:
Anpassung der klassischen 8 Wortarten von Thrax an die
Gegebenheiten des Lateinischen durch Ersetzung der Wortart
“Artikel” mit “Interjektion” ('uh').
Grammatiken durch das Griechische / das
Lateinische geprägt (bzw. verzerrt)‫‏‬
Standardisierungsbestrebungen


EAGLES-Empfehlungen für europäische Sprachen
http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm
GOLD-Ontologie http://www.linguistics-ontology.org/gold.html
4.11.2009
43
Beispiele für sprachspezifische Wortarten
bzw. deren Fehlen (1)‫‏‬

Deutsch

Verschmelzung von Präposition und definitem Artikel. Unterklasse:
Kontrahierte Form
(1) am, zum, beim usw.

Dänisch

Definiter Artikel als Affix, wenn kein Adjektiv beim Nomen:
Unterklasse: definites Nomen
(2) en bog (ein Buch) / bogen (das Buch)‫‏‬

Japanisch, Latein, Polnisch, Russisch, Inuktitut, ... besitzen
keine Artikel
(3) Polnisch: chłopiec śpiewa (Ein/Der Junge singt.)‫‏‬
4.11.2009
44
Beispiele für sprachspezifische Wortarten bzw.
deren Fehlen (2)‫‏‬

Inuktitut

Ist stark agglutinierend, d.h. es werden sehr komplexe Wörter
aus vielen Morphemen gebildet
̶
keine subordinierenden Konjunktionen
̶
keine Präpositionen (sondern Kasusmorpheme)
̶
“Adjektive” existieren nur als gebundene Morpheme
(1) silaluk
sila -luk = Wetter-schlecht "schlechtes Wetter"
(2) ijiluktunga
iji -luk -tunga = Auge-schlecht-1.singular_intransitiv
"Ich habe schlechte Augen"
(Nowak 2007: 41)‫‏‬
4.11.2009
45
Referenzen‫‏‬







Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik. Stuttgart /
Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5
Dudenverlag: Duden – Die Grammatik (Bd. 4).
W. Nelson Francis und Henry Kučera. 1982. Frequency analysis of English usage :
lexicon and grammar. Boston : Houghton Mifflin, 1982;
http://icame.uib.no/brown/bcm.html
Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin. http://www.tuberlin.de/fak1/el/ board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0
Karin Pittner und Judith Berman. 2004. Deutsche Syntax. Ein Arbeitsbuch. Tübingen:
Narr.
Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines
für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für
maschinelle Sprachverarbeitung, Stuttgart. http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf
Beatrice Santorini. 1990. Part-of-Speech Tagging Guidelines for the Penn Treebank
Project. Technischer Bericht. University of Pennsylvania.
ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz
4.11.2009
46
Herunterladen