Házi feladat 12. 07.-re Korpuslinguistik Verwenden Sie für die Aufgaben 1 bis 3 das virtuelle Korpus „hmp – Hamburger Morgenpost“. 1. Angenommen, Sie wollen nach Belegen suchen, wo die Wortform sein als Possessivpronomen verwendet wird und nicht als Infinitivform des Verbs SEIN. Um dieses Problem zu lösen, suchen Sie zuerst nach allen Vorkommen der Form sein und reduzieren Sie per Zufallsauswahl die Menge der Treffer auf 100. Exportieren Sie diese Ergebnisse in eine RTFDatei unter dem Namen ihrnachname-ihrvorname-sein1.rtf Zählen Sie, wie viele dieser 100 Treffer Vorkommen des Possessivpronomens sind: Vergleichen Sie in der Konkordanzansicht der Suchergebnisse die Vorkommen des Pronomens sein mit den Vorkommen des Verbs sein. Was für ein Unterschied fällt Ihnen im Bezug auf den Kontext der Tokens dieser beiden Types auf (d.h. in was für spezifischen Kontexten erscheint das Pronomen wo das Verb nicht erscheint und umgekehrt)? Formulieren Sie auf der Grundlage dieser Erkenntnis eine Suchanfrage, mit der Sie als Treffer Vorkommen des Possessivpronomens bekommen und Vorkommen des Verbs sein ausschließen können. Führen Sie die Suche durch (reduzieren Sie per Zufallsauswahl die Menge der Treffer auf 100). Überprüfen Sie die Ergebnisse und verfeinern Sie die Suchanfrage solange, bis zwischen den 100 Treffern nicht mehr als 5 irrelevante (d.h. Vorkommen des Verbs sein) erscheinen. Fassen Sie zusammen in Ihren Worten: was für Elemente dürfen nach der Form sein nicht erscheinen, damit es bestimmt ein Pronomen ist? (Hinweis: ein solches Element ist das Satzende, aber es gibt mehr.) Wie lautet dementsprechend ihre vollständige, höchstens 5 (zu 100) irrelevante Treffer ergebende Suchanfrage? (Hinweis: identifizieren Sie in der Suchanfrage das Satzende als <se> statt mithilfe von Interpunktionszeichen, also z.B. sein %w0 <se>) Exportieren Sie die Ergebnisse auch dieser Suche unter dem Namen ihrnachname-ihrvornamesein2.rtf . Schicken Sie mir beide exportierten Dateien zu. 2. Angenommen, Sie wollen nach Belegen suchen, in denen das Substantiv HAST (Femininum) vorkommt. Das Problem ist analog zu Aufgabe 1: die Homonymie zwischen diesem Substantiv und dem Verb hast (zu HABEN) am Satzanfang bereitet Schwierigkeiten. Suchen Sie zuerst nach Vorkommen der Form Hast und reduzieren Sie per Zufallsauswahl die Menge der Treffer auf 100. Exportieren Sie die Ergebnisse unter dem Namen ihrnachname-ihrvornamehast1.rtf . Zählen Sie, wie viele dieser 100 Treffer Vorkommen des Substantivs sind: Vergleichen Sie in der Konkordanz die Vorkommen des Substantivs Hast mit den Vorkommen des Verbs Hast. Was für ein Unterschied fällt Ihnen im Bezug auf den Kontext der Tokens dieser beiden Types auf? Formulieren Sie auf der Grundlage dieser Erkenntnis eine Suchanfrage, mit der Sie als Treffer Vorkommen des Substantivs bekommen und Vorkommen des Verbs hast ausschließen können (gehen Sie dabei genau wie in Aufgabe 1 vor, d.h. maximal 5 irrelevante Treffer, usw.). Wie lautet die Suchanfrage? Exportieren Sie die Ergebnisse auch dieser Suche unter dem Namen ihrnachname-ihrvornamesein2.rtf . Schicken Sie mir beide exportierten Dateien zu. 3. Gemäß Duden Universalwörterbuch besitzt das Verb BEREITEN folgende 3 Bedeutungen: 1. a) zubereiten, fertig machen, zurechtmachen, herrichten: das Essen b.; b) <b. + sich> (geh.) sich auf etwas vorbereiten, sich rüsten: sich zum Sterben b. 2. zuteil werden lassen, zufügen: jmdm. Freude, Kummer, Qualen b.; das bereitet (verursacht) viele Schwierigkeiten. (Duden - Deutsches Universalwörterbuch, 5. Aufl.) Stellen wir uns die Frage, was man einem gemäß Bedeutung 2 außer Freude, Kummer, Qualen und Schwierigkeiten sonst noch „bereiten“ kann. Suchen Sie im Korpus nach anderen Substantiven, die als Objekte von BEREITEN erscheinen. Wie Sie das genau tun, bleibt Ihnen überlassen. Sie können z.B. entweder einfach mit BEREITEN eine Kookkurenzanalyse durchführen (achten Sie in diesem Fall bei der Auswahl der Kollokate darauf, dass es sich um die richtige Bedeutung des Verbs und um die richtige grammatische Struktur, wie im Wörterbucheintrag angedeutet, handelt), oder normale Stichwortsuchen starten und die Konkordanzen durchlesen. Achten Sie besonders in letzterem Fall bei der Formulierung der Suchanfrage darauf, dass Sie Vorkommen der Verben vorbereiten, zubereiten mit abgetrennter Verbpartikel aus der Menge der Suchergebnisse ausschließen (da es sonst recht viele von solchen Treffern gibt). Wählen Sie schließlich unter den Treffern 10 verschiedene Substantive aus (aus der ganzen Liste nach Belieben, aber nicht einfach die ersten 10), die in dieser Konstruktion als Objekte erscheinen können, zählen Sie diese auf, und zitieren Sie pro Substantiv je einen entsprechenden Beleg (einen ganzen Satz) aus dem Korpus. 4. Eine beschreibende Grammatik des Deutschen formuliert zur Wahl des Hilfsverbs in den „Vergangenheitsformen“ folgende Generalisierung (Helbig / Buscha: Deutsche Grammatik, 2001, S. 126): „Bei den Verben liegen, sitzen und stehen wird nördlich der deutschen Mittelgebirge zumeist haben, südlich davon zumeist sein verwendet: Er hat / war an seinem Schreibtisch gesessen.“ Überprüfen Sie die Richtigkeit dieser Feststellung mithilfe zweier virtueller Korpora: dem HamburgerMorgenpost-Korpus (hmp) aus Norddeutschland und dem Nürnberger-Zeitung-Korpus (nuz) aus Süddeutschland. Dazu müssen Sie einzeln prüfen, wie häufig sein + gelegen bzw. haben + gelegen usw. in den beiden Korpora sind. Einerseits sollen sie die Häufigkeit der beiden Varianten für jedes der drei Verben im Verhältnis zueinander in demselben Korpus prüfen (um festzustellen, ob im Norden tatsächlich haben häufiger ist als sein und im Süden umgekehrt). Falls Sie durch Ihre Untersuchung das nicht bestätigen könnten, sollen Sie auch die beiden Korpora miteinander in der Hinsicht vergleichen, ob es wenigstens der Fall ist, dass im Norden haben deutlich häufiger ist als haben im Süden, und dasselbe umgekehrt für sein). Achten Sie in letzterem Fall darauf, dass die quantitativen Ergebnisse ggf. normalisiert werden müssen, um der unterschiedlichen Größe der beiden Korpora Rechnung zu tragen. Achten Sie bei der Zählung der Ergebnisse darauf, irrelevante Treffer auszuschließen (z.B. bei gelegen die Konstruktion jmdm. ist an etw. gelegen = jmd. ist an etw. interessiert, oder bei gestanden die identischen Vergangenheitsformen des Verbs gestehen, z.B. Er hat den Fehler gestanden. = zugegeben). Da diese kaum durch Präzisierung der Suchanfrage automatisch herausgefiltert werden können (oder ich wüsste zumindest nicht, wie), muss man die Treffer wohl einzeln durchgehen und nur die tatsächlich relevanten zählen. Da die gesamte Treffermenge in einigen Fällen zu groß sein wird, um tatsächlich alle Treffer durchzählen zu können, werden Sie in solchen Fällen gezwungen sein, eine per Zufallsauswahl ausgewählte Teilmenge von z.B. 100 Treffern durchzuzählen und das Ergebnis auf die Gesamttreffermenge hochzurechnen (ähnlich wie bei der Normalisierung). Beschreiben Sie Ihr Vorgehen Schritt für Schritt: Welche Suchanfrage verwenden Sie, wie viele Treffer erhalten Sie (insgesamt), was für irrelevante Treffer müssen Sie dann ausschließen, wie viele bleiben übrig. Fassen Sie schließlich die Ergebnisse zusammen und stellen Sie fest, ob Sie die oben genannte Generalisierung von Helbig und Buscha vollständig oder zumindest teilweise bestätigen konnten.