Házi feladat 12. 07.-re Korpuslinguistik Für die folgenden Aufgaben

Werbung
Házi feladat 12. 07.-re
Korpuslinguistik
Für die folgenden Aufgaben müssen Sie die morphosyntaktisch annotierten Korpora in COSMAS
benutzen. Zur Benutzung der Annotationen dient in COSMAS der Annotationsoperator MORPH,
dessen kurze Beschreibung Sie hier finden: http://www.ids-mannheim.de/cosmas2/winapp/hilfe/suchanfrage/eingabe-zeile/syntax/morph.html
Da Sie für die Aufgaben unten das Archiv W-Tagged benutzen werden und dieser mit dem so
genannten CONNEXOR-Tagset annotiert wurde, lesen Sie auch die folgende Seite (die auch auf der
Seite oben verlinkt ist), die einige wissenswerte Informationen zu diesem Tagset enthält:
http://www.ids-mannheim.de/cosmas2/projekt/referenz/connexor/
Probieren Sie die dort angegebenen Beispielsuchen aus, um einen ersten Eindruck zu bekommen,
was der MORPH-Operator tut. Die einzelnen Annotationsmerkmale sind auf den beiden Unterseiten
dieser Seite („morphologische Annotationen” und „syntaktische Annotationen”) beschrieben; leider
sind diese Seiten nur auf Englisch vorhanden. Wenn Sie Englisch nicht lesen können, hier ein
Überblick über die Bedeutung der morphologischen CONNEXOR-Tags:
Wortarten:
V
N
A
PRON
DET
NUM
ADV
PREP
CC
CS
INTERJ
Verb
Substantiv
Adjektiv
Pronomen
Artikel
Numerale (Zahlwort)
Adverb
Präposition
Konjunktion (koordinierend)
Subjunktion (subordinierende Konjunktion)
Interjektion
Morphologische Merkmale der Verben:
a) Modi
IMP
Imperativ
IND
Indikativ
SUB
Konjunktiv
b) Tempora
PRES
Präsens
PAST
Präteritum
c) Nicht finite Formen
INF
Infinitiv
PCP PROG Partizip I (Partizip Imperfekt)
PCP PERF Partizip II (Partizip Perfekt)
Besondere Tags für Substantive:
Abbr
Abkürzung (im weitesten Sinne, schließt Kurzwörter, Akronyme usw. mit ein)
Prop
Eigenname
PL
Pluralform
Steigerung der Adjektive:
CMP
Komparativ
SUP
Superlativ
Diese Tags verwenden Sie als Argumente des Operators MORPH in Klammern, sinngemäß. Wenn Sie
z.B. als Suchbegriff MORPH(A) angeben, sucht COSMAS nach allen Adjektiven im Korpus. Wenn Sie
MORPH(A CMP) angeben, nach allen Adjektiven im Komparativ. Als Argumente von MORPH können
Sie nur Tags kombinieren, die miteinander „kompatibel“ sind. Eine Suche nach MORPH(A PAST)
macht keinen Sinn, da Adjektive keine Präteritumform haben (und so ergibt eine solche Suche 0
Treffer.
Damit Sie einen ersten Eindruck bekommen, wie die Suche nach morphosyntaktischen Annotationen
funktioniert, probieren Sie die Beispiel-Suchanfragen auf der Online-Hilfeseite oben aus.
Experimentieren Sie auch mit eigenen Suchanfragen. Kombinieren Sie den MORPH-Operator mit
Abstandsoperatoren und anderen Suchbegriffen in einer Suchanfrage.
Wenn Ihnen nichts einfällt, lohnt es sich, die Seite mit Beispielen zu dem Annotationsoperator zu
lesen, wo Sie drei Suchanfragen beschrieben finden: http://www.ids-mannheim.de/cosmas2/winapp/hilfe/suchanfrage/eingabe-zeile/kochbuch/bsp-annotation.html
Die Beispiele auf dieser Seite verwenden allerdings den alten „MECOLB Minimal-Tagset”, der andere
Tags benutzt (und außerdem wesentlich komplexer ist). Bestimmte Unterscheidungen wie Verbgenus
können Sie im CONNEXOR-Tagset nicht direkt einstellen (sie müssen z.B. deshalb nach den
Bestandteilen einer Passivform suchen, um diese zu finden). Überlegen Sie sich, wie Sie die BeispielSuchanfragen so „übersetzen” können, dass sie dem CONNEXOR-Tagset entsprechen. Führen Sie
dann die Suchanfragen durch und überprüfen Sie, ob sie die gewünschten Ergebnisse bekommen.
Wenn Sie nicht auf die Lösung kommen sollten, finden Sie sie in den folgenden Zeilen, wenn Sie sie in
Word markieren und die Farbe der Buchstaben ändern.
aktive Verben im Präteritum: MORPH(V PAST) %w0 &werden
aktive Verben im Perfekt: ((habe oder hast oder hat oder haben oder habt oder bin oder bist oder ist
oder sind oder seid) /s0 MORPH(V PCP PERF)) %s0 worden
der als Relativpronomen: (der /w0 MORPH(PRON)) /-w2 ,
Dass der im Dativ steht (als Femininum) und nicht im Nominativ (als Maskulinum) lässt sich leider
nicht ohne weiteres spezifizieren. (Anmerkung: /-w2 hat den Zweck, zu erlauben, dass eine
Präposition zwischen dem Relativpronomen und dem Komma steht.)
Substantiv, gefolgt in max. 3 Wörter Abstand von der als Relativpronomen: (MORPH(N) /+w3 der)
/w0 ((der /w0 MORPH(PRON)) /-w2 ,)
Dass der und das Substantiv im Dativ stehen, lässt sich leider nicht ohne weiteres spezifizieren.
Für die Aufgaben auf diesem Aufgabenblatt arbeiten Sie mit dem Archiv „W-TAGGED - Auswahl mit
CONNEXOR getaggter Korpora“ anstatt dem bisher benutzen Archiv „W - Archiv der geschriebenen
Sprache“. Verwenden Sie für die Aufgaben 1 bis 7 innerhalb von W-TAGGED das virtuelle Korpus
„hmp – Hamburger Morgenpost“.
1. Wie suchen Sie nach einem Ausdruck, der aus einem bestimmten Artikel, gefolgt von einem
Adjektiv, gefolgt von einer Form des Substantivs Regen besteht (also z.B. durch den heftigen
Regen)?
2. Wie suchen Sie nach Vorkommen des Wortes sein, wo dieses als Verb (d.h. nicht als
Pronomen) verwendet wird.
3. Wie suchen Sie nach der Abtönungspartikel halt? (Hinweis: Man kann mit dem Tagset nicht
direkt nach Partikeln suchen, Sie müssen also die Treffer ausschließen, in denen halt zu einer
anderen Wortklasse gehört; so bleiben im Idealfall nur die Partikel übrig.)
4. Wie suchen Sie nach Formen des Futur I (zu beliebigen Verben)?
5. Wie suchen Sie nach Formen des Futur II (zu beliebigen Verben)? (Anmerkung: Es reicht,
wenn unter den Treffern der Suche mindestens ca. 25 Prozent relevante sind; ungefähr so
viele sollten es aber schon sein. Unter den irrelevanten Treffer dürften Sie vor allem solche
finden, wo ein Adjektiv im Satz erscheint, das oberflächlich mit einer Partizip II-Form
verwechselt werden könnte, z.B. Katzenliebhaber werden entzückt sein oder Das Stadion
wird mit 4500 Zuschauern ausverkauft sein).
6. Führen Sie die Suche aus Aufgabe 5 durch, grenzen Sie die Trefferzahl auf 50 ein. Exportieren
Sie die Ergebnisse in eine RTF-Datei. Öffnen Sie diese Datei und heben Sie in der KWICTabelle alle Treffer gelb hervor, die tatsächlich relevant sind, d.h. die eine Futur-II-Verbform
enthalten (wobei Sie nicht nur den KWIC-Kontext, sondern durchaus auch den gesamten
Kontext in der Belegansicht berücksichtigen sollten). Schicken Sie mir diese Datei zu.
7. Wie suchen Sie nach Kontexten, wo das Demonstrativpronomen dieser weder als Nominativ
Maskulinum, noch als Genitiv Femininum, sondern als Genitiv Plural erscheint? (Hinweis: Da
Sie nicht direkt nach diesen morphologischen Merkmalen suchen können, müssen Sie sich
überlegen, wie Sie die Genitiv-Plural-Variante indirekt, mithilfe des Kontexts identifizieren
können.)
Da es im hmp-Korpus zu wenig relevante Treffer für die folgenden Suchen gibt, arbeiten Sie mit
dem Mannheimer-Morgen-Korpus (mm) in W-TAGGED.
8. Nach der Grammatik von Helbig und Buscha (Seite 274; siehe auch Aufgabenblatt 6) werden
Adjektive nach dem Indefinitpronomen MANCHER im Plural überwiegend stark dekliniert.
Überprüfen Sie diese Aussage: Suchen Sie nach den Formen manche (Nominativ und
Akkusativ Plural) und mancher (Genitiv Plural), gefolgt jeweils von einem Adjektiv und dann
von einem Substantiv im Plural (z.B.: manche beliebte Sammelobjekte). (Anmerkung: im Dativ
Plural gibt es keine Unterscheidung zwischen schwacher und starker Deklination, deshalb
wird manchen nicht untersucht.)
Geben Sie die beiden Suchanfragen an und führen Sie die beiden Suchen getrennt durch.
Wie viele Treffer ergeben die beiden Suchanfragen jeweils?
Zählen Sie, wie viele von den Adjektiven stark bzw. schwach dekliniert sind; lassen Sie
selbstverständlich irrelevante Treffer wie Bei dieser Atmosphäre bekam so mancher feuchte
Augen. außer Acht. Geben Sie die beiden Ergebnisse an.
Haben Sie die Generalisierung von Helbig und Buscha bestätigen können?
Herunterladen