Házi feladat 12. 07.-re Korpuslinguistik Verwenden Sie für die

Werbung
Házi feladat 12. 07.-re
Korpuslinguistik
Verwenden Sie für die Aufgaben 1 bis 3 das virtuelle Korpus „hmp – Hamburger Morgenpost“.
1. Angenommen, Sie wollen nach Belegen suchen, wo die Wortform sein als Possessivpronomen
verwendet wird und nicht als Infinitivform des Verbs SEIN.
Um dieses Problem zu lösen, suchen Sie zuerst nach allen Vorkommen der Form sein und reduzieren
Sie per Zufallsauswahl die Menge der Treffer auf 100. Exportieren Sie diese Ergebnisse in eine RTFDatei unter dem Namen ihrnachname-ihrvorname-sein1.rtf
Zählen Sie, wie viele dieser 100 Treffer Vorkommen des Possessivpronomens sind:
Vergleichen Sie in der Konkordanzansicht der Suchergebnisse die Vorkommen des Pronomens sein
mit den Vorkommen des Verbs sein. Was für ein Unterschied fällt Ihnen im Bezug auf den Kontext
der Tokens dieser beiden Types auf (d.h. in was für spezifischen Kontexten erscheint das Pronomen
wo das Verb nicht erscheint und umgekehrt)?
Formulieren Sie auf der Grundlage dieser Erkenntnis eine Suchanfrage, mit der Sie als Treffer
Vorkommen des Possessivpronomens bekommen und Vorkommen des Verbs sein ausschließen
können. Führen Sie die Suche durch (reduzieren Sie per Zufallsauswahl die Menge der Treffer auf
100). Überprüfen Sie die Ergebnisse und verfeinern Sie die Suchanfrage solange, bis zwischen den
100 Treffern nicht mehr als 5 irrelevante (d.h. Vorkommen des Verbs sein) erscheinen.
Fassen Sie zusammen in Ihren Worten: was für Elemente dürfen nach der Form sein nicht erscheinen,
damit es bestimmt ein Pronomen ist? (Hinweis: ein solches Element ist das Satzende, aber es gibt
mehr.)
Wie lautet dementsprechend ihre vollständige, höchstens 5 (zu 100) irrelevante Treffer ergebende
Suchanfrage? (Hinweis: identifizieren Sie in der Suchanfrage das Satzende als <se> statt mithilfe von
Interpunktionszeichen, also z.B. sein %w0 <se>)
Exportieren Sie die Ergebnisse auch dieser Suche unter dem Namen ihrnachname-ihrvornamesein2.rtf .
Schicken Sie mir beide exportierten Dateien zu.
2. Angenommen, Sie wollen nach Belegen suchen, in denen das Substantiv HAST (Femininum)
vorkommt. Das Problem ist analog zu Aufgabe 1: die Homonymie zwischen diesem Substantiv und
dem Verb hast (zu HABEN) am Satzanfang bereitet Schwierigkeiten.
Suchen Sie zuerst nach Vorkommen der Form Hast und reduzieren Sie per Zufallsauswahl die Menge
der Treffer auf 100. Exportieren Sie die Ergebnisse unter dem Namen ihrnachname-ihrvornamehast1.rtf .
Zählen Sie, wie viele dieser 100 Treffer Vorkommen des Substantivs sind:
Vergleichen Sie in der Konkordanz die Vorkommen des Substantivs Hast mit den Vorkommen des
Verbs Hast. Was für ein Unterschied fällt Ihnen im Bezug auf den Kontext der Tokens dieser beiden
Types auf?
Formulieren Sie auf der Grundlage dieser Erkenntnis eine Suchanfrage, mit der Sie als Treffer
Vorkommen des Substantivs bekommen und Vorkommen des Verbs hast ausschließen können
(gehen Sie dabei genau wie in Aufgabe 1 vor, d.h. maximal 5 irrelevante Treffer, usw.). Wie lautet die
Suchanfrage?
Exportieren Sie die Ergebnisse auch dieser Suche unter dem Namen ihrnachname-ihrvornamesein2.rtf .
Schicken Sie mir beide exportierten Dateien zu.
3. Gemäß Duden Universalwörterbuch besitzt das Verb BEREITEN folgende 3 Bedeutungen:
1. a) zubereiten, fertig machen, zurechtmachen, herrichten: das Essen b.;
b) <b. + sich> (geh.) sich auf etwas vorbereiten, sich rüsten: sich zum Sterben b.
2. zuteil werden lassen, zufügen: jmdm. Freude, Kummer, Qualen b.; das bereitet (verursacht) viele
Schwierigkeiten.
(Duden - Deutsches Universalwörterbuch, 5. Aufl.)
Stellen wir uns die Frage, was man einem gemäß Bedeutung 2 außer Freude, Kummer, Qualen und
Schwierigkeiten sonst noch „bereiten“ kann. Suchen Sie im Korpus nach anderen Substantiven, die
als Objekte von BEREITEN erscheinen. Wie Sie das genau tun, bleibt Ihnen überlassen.
Sie können z.B. entweder einfach mit BEREITEN eine Kookkurenzanalyse durchführen (achten Sie in
diesem Fall bei der Auswahl der Kollokate darauf, dass es sich um die richtige Bedeutung des Verbs
und um die richtige grammatische Struktur, wie im Wörterbucheintrag angedeutet, handelt), oder
normale Stichwortsuchen starten und die Konkordanzen durchlesen. Achten Sie besonders in
letzterem Fall bei der Formulierung der Suchanfrage darauf, dass Sie Vorkommen der Verben
vorbereiten, zubereiten mit abgetrennter Verbpartikel aus der Menge der Suchergebnisse
ausschließen (da es sonst recht viele von solchen Treffern gibt).
Wählen Sie schließlich unter den Treffern 10 verschiedene Substantive aus (aus der ganzen Liste nach
Belieben, aber nicht einfach die ersten 10), die in dieser Konstruktion als Objekte erscheinen können,
zählen Sie diese auf, und zitieren Sie pro Substantiv je einen entsprechenden Beleg (einen ganzen
Satz) aus dem Korpus.
4. Eine beschreibende Grammatik des Deutschen formuliert zur Wahl des Hilfsverbs in den
„Vergangenheitsformen“ folgende Generalisierung (Helbig / Buscha: Deutsche Grammatik, 2001, S.
126):
„Bei den Verben liegen, sitzen und stehen wird nördlich der deutschen Mittelgebirge zumeist haben,
südlich davon zumeist sein verwendet:
Er hat / war an seinem Schreibtisch gesessen.“
Überprüfen Sie die Richtigkeit dieser Feststellung mithilfe zweier virtueller Korpora: dem HamburgerMorgenpost-Korpus (hmp) aus Norddeutschland und dem Nürnberger-Zeitung-Korpus (nuz) aus
Süddeutschland.
Dazu müssen Sie einzeln prüfen, wie häufig sein + gelegen bzw. haben + gelegen usw. in den beiden
Korpora sind. Einerseits sollen sie die Häufigkeit der beiden Varianten für jedes der drei Verben im
Verhältnis zueinander in demselben Korpus prüfen (um festzustellen, ob im Norden tatsächlich
haben häufiger ist als sein und im Süden umgekehrt). Falls Sie durch Ihre Untersuchung das nicht
bestätigen könnten, sollen Sie auch die beiden Korpora miteinander in der Hinsicht vergleichen, ob
es wenigstens der Fall ist, dass im Norden haben deutlich häufiger ist als haben im Süden, und
dasselbe umgekehrt für sein). Achten Sie in letzterem Fall darauf, dass die quantitativen Ergebnisse
ggf. normalisiert werden müssen, um der unterschiedlichen Größe der beiden Korpora Rechnung zu
tragen.
Achten Sie bei der Zählung der Ergebnisse darauf, irrelevante Treffer auszuschließen (z.B. bei gelegen
die Konstruktion jmdm. ist an etw. gelegen = jmd. ist an etw. interessiert, oder bei gestanden die
identischen Vergangenheitsformen des Verbs gestehen, z.B. Er hat den Fehler gestanden. =
zugegeben). Da diese kaum durch Präzisierung der Suchanfrage automatisch herausgefiltert werden
können (oder ich wüsste zumindest nicht, wie), muss man die Treffer wohl einzeln durchgehen und
nur die tatsächlich relevanten zählen. Da die gesamte Treffermenge in einigen Fällen zu groß sein
wird, um tatsächlich alle Treffer durchzählen zu können, werden Sie in solchen Fällen gezwungen
sein, eine per Zufallsauswahl ausgewählte Teilmenge von z.B. 100 Treffern durchzuzählen und das
Ergebnis auf die Gesamttreffermenge hochzurechnen (ähnlich wie bei der Normalisierung).
Beschreiben Sie Ihr Vorgehen Schritt für Schritt: Welche Suchanfrage verwenden Sie, wie viele Treffer
erhalten Sie (insgesamt), was für irrelevante Treffer müssen Sie dann ausschließen, wie viele bleiben
übrig.
Fassen Sie schließlich die Ergebnisse zusammen und stellen Sie fest, ob Sie die oben genannte
Generalisierung von Helbig und Buscha vollständig oder zumindest teilweise bestätigen konnten.
Herunterladen