Handout

Werbung
Wortarten - Hintergrund

Kategorien
Grundbegriffe eines Systems

Philosophie: Kategorienlehre von Aristoteles als Systematik der
Grundformen des Seins

Wortarten und Tagsets
Substanz, Quantität, Qualität, Relation, Ort, Zeit, Lage,
Haben, Wirken und Leiden
̶
syntaktische/grammatische Kategorien: Wortarten (Englisch:
'parts of speech')‫‏‬

Korpuslinguistik

Dr. Heike Zinsmeister
Dionysios Thrax (ca. 170‑90 v.Chr), Alexandria
erste griechische Grammatik

WS 2009/10
8 Wortarten:

Adverben, Artikel, Konjunktionen, Nomen, Partizipien,
Präpositionen, Pronomen und Verben
̶
4.11.2009
Wortarten - Kriterien


Klassifizierung nach morphologischen Kriterien
Morphologische Kriterien

flektierbar oder nicht, Art der Flektion

wortartenspezifische Affigierung in der Wortbildung
Wort
flektierbar
Semantische Kriterien


2
deklinierbar
teilweise Bildung von Unterklassen durch
Bedeutungsunterschiede
konjugierbar
Substantive
Adjektive
Distributionelle Kriterien

nicht-flektierbar
Wortartenkontexte / Positionen im Satz, in denen ein
Element typischerweise auftritt
Konjunktionen
Verben
Artikel
Adverbien
Partikeln
Interjektionen
➢ Keines der Kriterien gilt absolut. Es gibt Interaktionen und Ausnahmen.
4.11.2009
Präpositionen
(nach Pittner & Berman: 2004: 15)‫‏‬
4.11.2009
3
4
STTS


Einschub: Tagsets
STTS (Deutsch) und Penn
Treebank Tagset (Englisch)‫‏‬

das Stuttgart-Tübingen Tagset (Schiller et al. 1999)‫‏‬
Wortarten-Analyse für die manuelle (und
automatische) Annotation von deutschen
Textkorpora
Vereinfachung: Leerzeichen = Wortgrenze


es werden zunächst keine Mehrwortlexeme berücksichtigt
Analog zum Standard der Text Encoding Initiative
(TEI)‫‏‬

11 Hauptwortarten, spezifiziert in

54 Wortarten-Tags (48 & 6 Zusatztags:
•
4.11.2009
5
4.11.2009
Interpunktion, Fremdsprachliches, Nicht-Wörter, Truncs)
6
1
STTS-Hauptwortarten
Das Penn Treebank Tagset (1)‫‏‬

vgl. Santorini (1991)‫‏‬

45 Tags (36 & 9 'punctuation tags')‫‏‬

(Schiller et al. 1999:4)‫‏‬

• Aufbau der Labels


basiert auf dem umfangreicheren Tagset des Brown
Corpus (Francis & Kučera 1982)‫‏‬
Typen von Tags

hierarchisch von links nach rechts: vom Allgemeinen zum
Spezifischeren

Bsp. Pronomen
(1) Diese Lösung klappt. (2) Diese klappt nicht.
Hauptklassen: noun (common and proper); verb; adjective;
adverb
Funktionswörter: determiners, prepositions, conjunctions,
pronouns, etc.

wichtige Einzelwörter: to, there
ad (1): Pronomen demonstrativ attribuierend, PDAT

Interpunktion
ad (2): Pronomen demonstrativ substituierend, PDS

Fremdsprachl. Material, Symbole, Interjektionen, List Marker
4.11.2009
4.11.2009
7
8
Das Penn Treebank Tagset (2)‫‏‬



Tagnamen sind weniger hierarchisch aufgebaut als im
STTS
Manche Tags sind nicht intuitiv, z.B.

“JJ” für Adjektive

“RB” für Adverb
Zurück zu den Wortarten im
Allgemeinen
To ist immer als TO getaggt
(1) to_TO go_VB to_TO university_NN

existenzielles there ist als EX getaggt
(2) There_EX is_VBZ a_DT unicorn_NN in_IN the_DT
garden_NN
4.11.2009
Nomen: Morphologische Eigenschaften (1)‫‏‬

(auch: Substantiv)

festes Genus
4.11.2009
9
10
Nomen: Morphologische Eigenschaften (2)‫‏‬


(Fortsetzung)
werden nach Numerus und Kasus dekliniert
- Aber: Pluralia Tanta (treten nur im Plural auf)‫‏‬
- Maskulin, Feminin, Neutrum
(3) Geschwister, Alpen,...
- Aber: dialektale bzw. regionale Schwankungen
- Stoffsubstantive und manch andere (sind nicht zählbar) t‫ ‏‬reten
nur im Singular auf (“Reis ist...”)‫‏‬
(1) der/das Teller, der/die Butter, der/das Radio
(4) Reis, Mehl, Sand, Ruhe, Hass, Wut,...
- Aber: Neue Wörter und andere Unsicherheiten
(2) der/das Jogurt, der/das Virus, der/das Chip
4.11.2009
11
4.11.2009
12
2
Nomen: Distributionelle Kriterien‫‏‬
Nomen: Semantische Eigenschaften‫‏‬
Notation:
Konkreta – Abstrakta


Typische Kontexte:
- Gegenständliches – Vorstellungen/ Handlungen/
Vorgänge/Zustände/Eigenschaften/...
Artikel (Adjektiv)* Nomen

(1) Er liest ein neues Buch.
(1) Stuhl / Obst – Meinung / Ruhe
(3) Er isst Obst.
Gattungsbezeichnungen (Appellativa) – Eigennamen
(4) Er hat Freundschaft mit ihr geschlossen.
(3) ein/der Hund – Fido
Präposition (Artikel)? (Adjektiv)* Nomen

Diskret / zählbar – nicht zählbar

(x)? = x kommt nicht oder genau
einmal vor
(2) Max liest gerne Comics.
(2) Katze / Alge – Weg / Schule

(x)* = x kommt null mal, ein mal
oder beliebig oft vor
- Aber: Eigennamen, Plurale, Stoffsubstantive,
Funktionsverbgefüge (z.B. Freundschaft schließen), ...
Belebt – unbelebt

* = “Kleene Star”
(5) Sie zieht die Option in Betracht.
(4) zwei Stühle vs. zwei *Obst
(5) zwei Meinungen vs. zwei *Ruhen
4.11.2009
4.11.2009
13
14
Nomen in den Tagsets‫‏‬

Verb (1)‫‏‬
STTS:

Morphologische Eigenschaften

Semantische Eigenschaften
werden konjugiert Dt.: Tempus, Modus, Numerus, Person
̶
NN: “normales” Nomen ('common noun')‫‏‬

NE: Eigenname



Vollverben (lexikalische Verben)‫‏‬

Hilfsverben (Auxiliare)‫‏‬

Modalverben
eigene Semantik
Penn Treebank
̶

NN: noun, singular or mass

NNS: noun, plural

NNP: proper noun, singular

NNPs: proper noun, plural
grammatische Bedeutung: Tempus, Konjunktiv,Passiv
̶
drücken Möglichkeit, Notwendigkeit, Erlaubnis,
Einschätzung der Wahrscheinlichkeit u.ä. aus
̶
Kopulaverben

̶
4.11.2009
drücken Zustand oder Fortdauern aus: sind grammatischer
Kitt für nicht-verbale Prädikate
4.11.2009
15
16
Verb (2)‫‏‬

Verb (3)‫‏‬
Distributionelle Eigenschaften

̶
treten mit nicht-verbalem Prädikat auf
̶
zählen mehr zu den Vollverben als zu den Auxiliaren
̶
sein, bleiben, werden
treten nur zusammen mit einem infiniten Vollverb auf (im
Partizip Perfekt oder Infinitiv)‫‏‬
(1) haben, sein, werden
(1) Er ist [NP ein guter Fußballer].
Modalverben
̶
(2) Sie wird [AdjP gesund].
treten mit infiniten Vollverben und Kopulaverben auf
(2) können, dürfen, müssen, sollen, wollen, mögen

Kopulaverben
Hilfsverben
̶

Distributionelle Eigenschaften (Fortsetzung)‫‏‬

treten selbstständig auf (mit ihren Argumenten)‫‏‬
̶


Vollverben
(3) Ein Gewitter ist [PP im Anmarsch].
[Halbmodalverben mit Vollverb im zu-Infinitiv
(3) scheint zu schlafen, verspricht zu bleiben, droht zu...]
4.11.2009
17
4.11.2009
18
3
Verben in den Tagsets‫‏‬
Adjektiv (1)‫‏‬
STTS: Vollverben


̶
VVFIN: Vollverb, finit
̶
VVIMP: Vollverb, Imperativ
̶
VVINF: Vollverb, Infinitiv
̶
VVIZU: Vollverb, zu-Infinitiv
̶
VVPP: Vollverb, Partizip Perfekt

Auxiliare: VAFIN, VAIMP, VAINF, VAPP (haben/sein immer als VA)‫‏‬

Modalverben: VMFIN, VMINF,VMPP


deklinierbar: großer, große, großes, ....

komparierbar: große, größere, größte
Semantische Eigenschaften, Beispiele:

Qualitität
(1) rot, rund, laut, gut, angeblich,..
Penn Treebank

Morphologische Eigenschaften

Relation
(2) asiatisch, ärztlich, hölzern,..

VB: Verb, base form

VBD: Verb, past tense

VBG: Verb, gerund or present participle

VPN: Verb, past participle

VBP: Verb, non-3rd person singular present

VBZ: Verb, 3rd person singular present
4.11.2009

Quantifizierend
(3) viel, wenig, eine, hundert, dritter, vierter,...

Adjektivisch gebrauchte Partizipien
(4) suchend, belastend, gesucht, belastet,...
4.11.2009
19
Adjektive in den Tagsets‫‏‬
Adjektiv (2)‫‏‬

Distributionelle Eigenschaften

prädikativ mit Kopulaverb (nicht flektiert)‫‏‬

(1) Der Ball ist rot. / Die Freunde sind quitt.

adverbial verwendet mit Vollverb (nicht flektiert)‫‏‬
STTS

ADJA: Adjektiv, attribuierend

ADJD: Adjektiv, adverbial oder prädikativ

anderen Wortklassen zugeordnet
̶
PIS/PIAT: viele, manche,...
̶
CARD: zwei Männer, ..
(2) Das Auto fährt schnell.

attribuierend (normalerweise flektiert, Ausnahme z.B. lila)‫‏‬

(3) Der rote Ball / Das lila Kleid

können Argumente selegieren
(4) Er ist [PP auf seinen Sieg] stolz.
Penn Treebank

JJ: adjective

JJR: adjective, comparative

JJS: Adjective, superlative
(5) Sie ist [ VP zu gehen] imstande.
4.11.2009
̶

22
Pronomen (2)‫‏‬
Morphologische Eigenschaften

CD: two men, ...
4.11.2009
21
Pronomen (1)‫‏‬


flektieren
Distributionelle Eigenschaften

Semantische Eigenschaften
attribuierend (ersetzen einen Artikel)‫‏‬

Beitrag zur Referenz
(1) dieser Baum

ersetzen Nomen (siehe dort)‫‏‬
(2) welcher Baum?

Unterklassen, z.B.
4.11.2009
̶
Personalpronomen: ich, du,...
̶
Possessivpronomen: mein, dein,...
̶
Demonstrativpronomen: dieser, jener
̶
Reflexivpronomen: sich, einander
̶
Fragepronomen: wer, wie, was, warum
̶
Relativpronomen: der, die, das,
20

substituierend (ersetzen eine Nominalphrase, oder
ähnliches)‫‏‬
(3) Er hat diesen gefällt.
(4) Welchen hat er gefällt.
23
4.11.2009
24
4
Pronomen in den Tagsets (1)‫‏‬

Pronomen in den Tagsets (2)‫‏‬
STTS

Penn Treebank

PDS, PDAT: Demonstrativpronomen


PIS, PIAT, PIDAT: Indefinitepronomen: viele, man, wenig,...


PPER: Personalpronomen

PPOSS, PPOSAT: Possessivpronomen

PRELS, PRELAT:Relativpronomen

PRF: Reflexiv- und Reziprokpronomen: sich, einander,...

PWS, PWAT:Interrogativpronomen

PWAV: adverbiales Interrogativ- oder Relativpronomen: warum

PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
PRP, PRP$: personal pronoun, possessive pronoun
WDT, WP, WP$, WRB: Wh-determiner, Wh-pronoun, possessive Whpronoun, Wh-adverb
in STTS keine w-Pronominaladverbien, sind alle PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶
4.11.2009
und in der TIGER Baumbank “PROAV”
4.11.2009
25
Determinierer in den Tagsets‫‏‬
Determinierer‫‏‬

auch: Artikel

Morphologische Eigenschaften


STTS

ART

anderen Wortarten zugeordnet
werden flektiert
APPART: Präposition mit Artikel: zum
̶
legen Referenz des Substantivs fest
̶
definit/indefinit, bestimmt/unbestimmt
̶


Semantische Eigenschaften

Distributionelle Eigenschaften

treten stets zusammen mit einem Substantiv auf

Scheinbare Ausnahme: Ellipsen
26

PDAT: attribuierende Demonstrativpronomen:
diese NN
Penn Treebank

DT
(1) Ich nehme das große Stück. Du bekommst [das kleine ___ ].
4.11.2009
4.11.2009
27
Adverb (1)‫‏‬

wird nicht flektiert (manche werden kompariert)‫‏‬

Engl.: werden mit -ly gebildet
̶

Adverb (2)‫‏‬
Morphologische Eigenschaften


Semantische Eigenschaften (Fortsetzung)‫‏‬

Satzadverbien:‫‏‬
aber: friendly (Adjektiv), seldom/often (Adverb)‫‏‬
Semantische Eigenschaften, Beispiele:

temporal: heute, oft,..

lokal: dort, hier, unten, dorthin,...

modal: eilend, flugs, gerne,..

kausal: deswegen, umständehalber,...
28


Stellungnahme: leider, hoffentlich

Wahrscheinlichkeit: vielleicht, möglicherweise,...

Bewertung: dummerweise, ...
Konjuktionaladverbien:‫‏‬


Beziehung zum Vortext: Trotzdem/ infolgedessen /deshalb ...
Pronominaladverbien:‫‏‬

da-/hier-/wo-+Präposition
(1) Er kümmert sich darum, dass nichts passiert.
4.11.2009
29
4.11.2009
30
5
Adverb (3)‫‏‬

Adverben in den Tagsets‫‏‬
Distributionelle Eigenschaften


STTS

Deutsch: Können am Satzanfang alleine vor dem
finiten Verb auftreten

(1) Leider/Heute/Hier regnet es.

ADV oder anderen Hauptklassen zugeordnet:
PWAV, adverbiales Fragepronomen: warum, wann, worüber,
wobei,...
PAV, Pronominaladverb: dafür, dabei, deswegen, trotzdem, ...
in STTS keine w-Pronominaladverbien, sind alle
PWAV
̶
PAV heißt in der Tübinger Baumbank “PROP”, vgl.
ausgeteilte STTS-Übersicht
̶
̶

Penn Treebank

4.11.2009
RB, RBR, RBS - Steigerungsformen
4.11.2009
31
Präposition (1)‫‏‬

allgemeiner: Adposition

Morphologische Eigenschaften



(Fortsetzung: Semantische Eigenschaften')‫‏‬

werden nicht flektiert
Lokalangabe (Ort), Temporalangabe (Zeit)
(4) Sie wartet auf dem Bahnsteig

Zeitangaben (temporal)‫‏‬
Neutral (grammatikalisiert)
(5) Sie wartet auf den Zug.
(1) Sie besucht uns in drei Wochen

32
Präposition (2)‫‏‬
Semantische Eigenschaften

und in der TIGER Baumbank “PROAV”
Modalangabe (Art und Weise)‫‏‬
(2) Die Tür wird in Rot gestrichen.

Kausalangabe (Grund)‫‏‬
(3) Er weint vor Freude.
4.11.2009
4.11.2009
33
Präpositionen in den Tagsets‫‏‬
Präposition (3)‫‏‬

Distributionelle Eigenschaften


treten normalerweise mit Nominalphrasen auf, bestimmen
(“regieren”) deren Kasus
STTS

APPR: Präposition
(1) neben dem Haus, *neben des Hauses

APPRART: Präposition mit Artikel: zum, am, ...
(2) in das Haus (direktional) / in dem Haus (lokal)‫‏‬

APPO: Postposition
(3) Er ist von hier (mit Adverb)‫‏‬

APZR: rechter Teil einer Zirkumposition


(1”) Um_APPR ihn_PPER herum_APZR stehen_VVFIN viele_PIAT
Leute_NN
geht dem Nomen voran: vor dem Nomen
Postposition:

folgt dem Nomen nach: den Zaun entlang
̶

(1) Um ihn herum stehen viele Leute
Präposition
̶
̶
Penn Treebank

Zirkumposition:
4.11.2009
34
zweigeteilt: um .. willen, um ... herum
35
IN: Präpositionen und subordinierende Konjunktionen
(siehe Folie 39)‫‏‬
4.11.2009
36
6
Konjunktion
Subjunktion‫‏‬

auch: Koordinierende Konjunktion

auch: subordinierende Konjunktion

Morphologische Eigenschaften

Morphologische Eigenschaften

Semantische Eigenschaften


wird nicht flektiert


verbindet zwei (oder mehr) gleichwertige Sätze oder Satzteile
(1) und, oder, sowohl ... als auch

STTS: KON

Penn Treebank: CC (coordinating conjunction)‫‏‬

Semantische Eigenschaften

bindet Sätze in andere Sätze ein, z.B.

Argumentsatz: ..., dass....

temporal: ..., dann ...

kausal: ..., weil ...
Distributionelle Eigenschaften

4.11.2009
wird nicht flektiert
tritt (fast) nur an der ersten Position im Teilsatz auf
4.11.2009
37
Subjunktionen in den Tagsets‫‏‬

Partikeln‫‏‬
STTS


KOUS: subordinierende Konjunktion mit Satz

KOUI: subordinierende Konjunktion mit zu-Infinitiv


(3) I think that_IN he left early.

Antwortpartikel: ja, nein
4.11.2009
39
Partikeln in den Tagsets
STTS

lexikalische Klassen (Inhaltswörter)‫‏‬

PTKZU: zu mit zu-Infinitiv

PTKNEG: Negationspartikel nicht

offene Klassen: erlauben Neubildungen

PTKVZ: abgetrennte Verbpartikel

Nomen, Verben, Adjektive, Adverbien

Vergleiche: (2) dass er hier mitkommt_VVFIN .

PTKANT: Antwortpartikel
(3) ja, nein, danke, bitte


PTKA: Partikel mit Adjektiven/Adverbien
(4) am schönsten, zu schnell

Funktionswörter

geschlossene Klassen: kaum Neubildungen

Präpositionen, Artikel, Modalpartikel
Grammatikalisierung

Penn Treebank
Verlust der lexikalischen Bedeutung bei gleichzeitiger
Verwendung als Funktionswort
(1) Das ist voll gut
RP
4.11.2009
40
0ffene und geschlossene Klassen
(1) er kommt_VVFIN hier mit_PTKVZ.

Steigerungspartikel: “intensifier”
(3) ziemlich/sehr/ungemein dumm
(4) The kettle is on_IN the fire.

Fokuspartikel: Alternativenbezug‫‏‬
(2) Auch/nur/sogar Peter kommt.
IN: gemeinsames Tag für subordinierende Konjunktionen und
Präpositionen
4.11.2009
Modalpartikel: “Abtönungspartikel”
(1) Er hat ja/doch/einfach keine Zeit
Penn Treebank

nicht flektiert
Semantische Eigenschaften

(2) ... um nach Hause zu gehen.

Morphologische Eigenschaften

(1) ..., weil er nach Hause geht.

38
41
4.11.2009
42
7
Beispiele für sprachspezifische Wortarten
bzw. deren Fehlen (1)‫‏‬
Sind Wortarten universell?

Wortarten sind nicht universell




Bsp.: Latein besitzt, anders als Griechisch, keine Artikel. Folge:
Anpassung der klassischen 8 Wortarten von Thrax an die
Gegebenheiten des Lateinischen durch Ersetzung der Wortart
“Artikel” mit “Interjektion” ('uh').
Grammatiken durch das Griechische / das
Lateinische geprägt (bzw. verzerrt)‫‏‬


Verschmelzung von Präposition und definitem Artikel. Unterklasse:
Kontrahierte Form
(1) am, zum, beim usw.

Dänisch

Standardisierungsbestrebungen

Deutsch
Definiter Artikel als Affix, wenn kein Adjektiv beim Nomen:
Unterklasse: definites Nomen
(2) en bog (ein Buch) / bogen (das Buch)‫‏‬
EAGLES-Empfehlungen für europäische Sprachen
http://www.ilc.cnr.it/EAGLES96/annotate/node9.htm

GOLD-Ontologie http://www.linguistics-ontology.org/gold.html
Japanisch, Latein, Polnisch, Russisch, Inuktitut, ... besitzen
keine Artikel
(3) Polnisch: chłopiec śpiewa (Ein/Der Junge singt.)‫‏‬
4.11.2009
4.11.2009
43
Beispiele für sprachspezifische Wortarten bzw.
deren Fehlen (2)‫‏‬

Inuktitut

Referenzen‫‏‬

Ist stark agglutinierend, d.h. es werden sehr komplexe Wörter
aus vielen Morphemen gebildet


̶
keine subordinierenden Konjunktionen
̶
keine Präpositionen (sondern Kasusmorpheme)
̶
“Adjektive” existieren nur als gebundene Morpheme

(1) silaluk

sila -luk = Wetter-schlecht "schlechtes Wetter"

(2) ijiluktunga
iji -luk -tunga = Auge-schlecht-1.singular_intransitiv

"Ich habe schlechte Augen"
(Nowak 2007: 41)‫‏‬
4.11.2009
45
44
Meibauer Jörg et al. (2007). Einführung in die germanistische Linguistik. Stuttgart /
Weimar: Metzler, Kapitel 4.1-2, 4.4.1, 4.5
Dudenverlag: Duden – Die Grammatik (Bd. 4).
W. Nelson Francis und Henry Kučera. 1982. Frequency analysis of English usage :
lexicon and grammar. Boston : Houghton Mifflin, 1982;
http://icame.uib.no/brown/bcm.html
Elke Nowak. 20073. Einführung ins Inuktitut. Manuskript. TU Berlin. http://www.tuberlin.de/fak1/el/ board.cgi?id=angli&action=view&gul=83&page=1&go_cnt=0
Karin Pittner und Judith Berman. 2004. Deutsche Syntax. Ein Arbeitsbuch. Tübingen:
Narr.
Anne Schiller, Simone Teufel, Christine Stöckert und Christine Thielen. 1999. Guidelines
für das Tagging deutscher Textcorpora mit STTS. Technischer Bericht. Institut für
maschinelle Sprachverarbeitung, Stuttgart. http://www.ims.unistuttgart.de/projekte/corplex/TagSets/stts-1999.pdf
Beatrice Santorini. 1990. Part-of-Speech Tagging Guidelines for the Penn Treebank
Project. Technischer Bericht. University of Pennsylvania.
ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz
4.11.2009
46
8
Herunterladen