Valenz Syntaktische Valenz Anm. 1: Verbunabhängige Unzulässigkeit von Valenzrahmen a. b. c. d. e. f. sie hat verkauft sie hat den Porsche verkauft sie hat an ihren Freund verkauft sie hat den Porsche an ihren Freund verkauft *sie hat ihrem Freund verkauft sie hat ihrem Freund den Porsche verkauft NPNom OK NPNom, NPAkk OK NPNom, PPan OK NPNom, NPAkk, PPan OK NPNom, NPDat (best. Rollen) * NPNom, NPAkk, NPDat OK Die Realisierbarkeit bestimmter Ergänzungen hängt auch von allgemeinen Beschränkungen für Valenzrahmen ab. Starke Tendenz im Deutschen: [NPNom, NPDat] ist nicht zulässig, wenn der Dativreferent die Rolle Patiens, Rezipient oder Benefaktiv innehat. g. *sie schickt ihm h. *sie spült ihm i. sie folgt ihm Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 1] Valenz Syntaktische Valenz Anm. 2: Formale Unspezifiziertheit von Ergänzungen a. b. c. d. e. f. das Haus liegt am See das Haus liegt da hinten das Haus liegt in einer Talsenke das Haus liegt sehr schön *das Haus liegt *das Haus liegt in eine Talsenke NPNom, PPan-Dat NPNom, AdvP-Lok NPNom, PPin-Dat NPNom, AdvP-Qual NPNom NPNom, PPin-Akk OK OK OK OK * * Bestimmte Satzglieder können vom Verb gefordert sein, ohne dass das Verb die Form der Ergänzung bestimmt. Das Verb liegen verlangt (in dieser Lesart) eine Ergänzung, die eine lokale oder qualitative Aussage beinhaltet. Die Form dieser Ergänzung ergibt sich aus allgemeinen Regeln, z. B. dass lokale Ergänzungen im Deutschen durch Adverbien oder PPs mit Dativkomplement ausgedrückt werden. liegen SYN-VAL: NPNom, ∅ Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 2] 1 Valenz Syntaktische Valenz Anm. 3: Lesartenabhängigkeit von Valenzrahmen a. *sie stellte das Buch b. sie stellte das Buch ins Regal c. *sie stellte ihm das Buch NPNom, NPAkk NPNom, NPAkk, ∅ [Dir] NPNom, NPAkk, NPDat * d. sie stellten den Dieb e. *sie stellten den Dieb ins Gefängnis f. ??sie stellten ihm den Dieb NPNom, NPAkk NPNom, NPAkk, ∅ [Dir] NPNom, NPAkk, NPDat OK g. sie stellte einen Chauffeur h. ??sie stellten einen Chauffeur in die Firma i. sie stellten ihm einen Chauffeur NPNom, NPAkk NPNom, NPAkk, ∅ [Dir] NPNom, NPAkk, NPDat OK OK * * ?? ?? OK Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 3] Valenz Syntaktische Valenz Viele Verben verfügen über eine Reihe von Lesarten. Valenzrahmen sind im Allgemeinen gültig für bestimmte Lesarten eines Verbs. Valenzanalysen setzen also auch eine Analyse der Polysemiestruktur von Lexemen voraus. a. *sie stellte das Buch b. sie stellte das Buch ins Regal c. *sie stellte ihm das Buch stellen 1. (an eine bestimmte Stelle in stehende Haltung bringen) SYN-VAL: NPNom, NPAkk, ∅ [Dir] d. sie stellten den Dieb e. *sie stellten den Dieb ins Gefängnis f. ??sie stellten ihm den Dieb stellen 2. (zum Stehenbleiben zwingen) SYN-VAL: NPNom, NPAkk g. sie stellte einen Chauffeur h. ??sie stellten einen Chauffeur in die Firma i. sie stellten ihm einen Chauffeur stellen 3. (zur Verfügung stellen) SYN-VAL: NPNom, NPAkk, (NPDat) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 4] 2 Valenz Syntaktische Valenz Anm. 4: Nicht valenzbedingte Einflüsse auf Form und Auftretensnotwendigkeit von Ausdrücken (i) In bestimmten syntaktischen Konstellationen können oder müssen ansonsten notwendige Ergänzungen wegfallen (z. B. die Nominativ-NP im Imperativ) verfluchen SYN-VAL: NPNom, NPAkk a. er verflucht seinen Trainer b. verfluch den Trainer! (ii) Bestimmte syntaktische Prozesse haben Einfluss auf die Formspezifik (Diathesen wie z. B. das Passiv) c. er (x: NPNom) verflucht den Trainer (y: NPAkk) d. der Trainer (y: NPNom) wurde von ihm (PPvon) verflucht Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 5] Valenz Wie sieht die Valenz von amüsieren aus? Syntaktische Valenz a. Reiser amüsierte sich herrlich mit diesen Sachen und gab von Zeit zu Zeit wieder seinen Gedanken Raum; […] [Moritz: Anton Reiser] b. Innstetten amüsierte sich, und Pastor Lindequist war in einem allersichtlichsten Behagen. [Fontane: Effi Briest] c. Am meisten amüsierten sie die seltsam ausgestopften Altweibergestalten, […] [Fontane: Schach von Wuthenow] e. Wüllersdorf nahm den zweiten Brief mit dem unleserlichen Poststempel, amüsierte sich über das »Wohlgeboren« und trat dann ans Fenster, um bequemer lesen zu können. [Fontane: Effi Briest] f. Er amüsierte sich, die Häuser auf die Dächer zu stellen, die Menschen an- und auszukleiden, die wahnwitzigsten Possen auszusinnen. [Büchner: Lenz] g. Uncke war ihm der Inbegriff des Komischen, und wenn ihn schon das rote, verkupferte Gesicht an und für sich amüsierte, so doch viel, viel mehr noch der gefärbte Schuhbürstenbackenbart, […] [Fontane: Der Stechlin] h. Weil Euripides im Grunde nichts zu eilen hatte, und sich in Abdera sehr gut amüsierte, so ließ er sich nicht lange bitten, eine Einladung anzunehmen, […] [Wieland: Geschichte der Abderiten] Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 6] 3 Valenz Semantische Valenz Semantische Valenz Im Bereich der semantischen Valenz spielen drei Dimensionen von Valenz eine Rolle: Argumenthaftigkeit, Inhaltsspezifik, Rollenspezifik. a. Rebecca reparierte ihr altes Mountainbike Agens ARG 1 Patiens Rebecca reparierte Person b. ARG 2 ihr altes Mountainbike Gegenstand *Die Hoffnung reparierte die Goldammer des Mordes Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 7] Valenz Semantische Valenz (III) Argumenthaftigkeit: Inhaltswörter (V, N, A, P, Adv) sind i. A. Prädikate, deren Bedeutung durch eine feste Anzahl von Argumentstellen gekennzeichnet ist. Die Argumentstellen werden im Satz durch Argumente „spezifiziert“ oder anderweitig „gebunden“. Prädikat QUÄLEN(x,y,e) Spezifikation der y-Stelle: Rebecca quält Jamaal QUÄLEN(rebecca,jamaal,e) Argumentstellen für den Quäler (x), den Gequälten (y) und das Ereignis (e), auf das quälen referiert (Existenzielle) Bindung der y-Stelle: Rebecca isst ∃y[ESSEN(rebecca,y,e)] Es gibt ein y (∃y), das Rebecca isst. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 8] 4 Valenz Semantische Valenz (IV) Inhaltspezifik: Verben fordern in der Regel, dass die Argumente, die ihre Argumentstellen spezifizieren, bestimmte Inhaltsmerkmale aufweisen (die sogenannten Selektionsrestriktionen eines Verbs). a. Jamaal tranchierte die Pute b. #Die Kirche tranchierte die Seife TRANCHIEREN(x,y,e) SYN-VAL: NPNom, NPAkk SEM-VAL: x[+Person], y[+Geflügel/Braten] a. Rebecca willigte in den Plan ein b. #Der Plan willigte in Rebecca ein EINWILLIGEN(x,y,e) SYN-VAL: NPNom, (PPin) SEM-VAL: x[+Person], y[+Vorhaben] Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 9] Valenz Semantische Valenz Welche Selektionsrestriktionen der unterstrichenen Prädikate werden verletzt? Sehen Sie Zusammenhänge zwischen Selektionsrestriktionen und Metaphern / Metonymien? a. b. c. d. e. f. Sie aß ihren Orangensaft. der Bruder des Hauses Er konnte den Baum nicht zu Ende lesen. der Vater dieses Gedankens Und da lachte die Bohne bis sie platzte. Sie zog das Gespräch unnötig in die Länge. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 10] 5 Valenz Semantische Valenz (V) Rollenspezifik: Verben legen fest, in welcher semantische Rolle ihre Argumentstellen im Ereignis zu interpretieren sind. Semantische Rollen können sehr verbspezifisch verstanden werden oder generalisiert werden (Agens, Patiens, Rezipient, etc.). Jamaal tranchierte die Pute. TRANCHIEREN(x,y,e) SYN-VAL: NPNom, NPAkk SEM-VAL: xAGENS[+Person], yPATIENS[+Gefl./Br.] Der Schrei erschreckte Jamaal. ERSCHRECKEN(x,y,e) SYN-VAL: NPNom, NPAkk SEM-VAL: xSTIMULUS, yEXPERIENCER[+Person] Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 11] Korpuslinguistik – Grundlagen Korpora Was ist ein Korpus? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. – Tübingen: Narr, 2006. S. 7. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 12] 6 Korpuslinguistik – Grundlagen Korpora Was ist Korpuslinguistik? Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. – Tübingen: Narr, 2006. S. 9. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 13] Korpuslinguistik – Grundlagen Korpusrecherchemethoden Methoden der Korpusanalyse • • • • • • • Erstellung von Konkordanzen Erzeugung von Wortlisten mit Frequenzangaben Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse) Berechnung von Kookkurrenzen Ermittlung von Schlüsselwörtern Berechnung diachroner Verläufe des Wortgebrauchs … Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 14] 7 Korpuslinguistik – Grundlagen Korpusrecherchemethoden Elektronisch verfügbare Mittel zur Korpusanalyse, die in diesem Seminar vorgestellt werden: • • • • • • AntConc COSMAS II DWDS-Korpusanalyse Kookkurrenzdatenbank des IDS KWICFinder FALKO Im Folgenden werden die wichtigsten Korpusrecherchemethoden zunächst am Beispiel des Programms AntConc dargestellt. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 15] Korpuslinguistik – Grundlagen Korpusrecherchemethoden AntConc • Entwickler: Laurence Anthony, Faculty of Science and Engineering,Waseda University, Japan. • Version: 3.2.1w (Windows), Release March 10th, 2007. • Recherche: Offline. • Software: wird lokal installiert. • Zugang: freier Download des Programms. • Korpora: eigene Textsammlungen (txt-Dateien). • Sprachen: alle (Unicode); getestet: Deutsch, Englisch, Rumänisch, Türkisch, Mongolisch. • URL: http://www.antlab.sci.waseda.ac.jp/antconc_index.html. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 16] 8 Korpuslinguistik – Grundlagen Korpusrecherchemethoden Grundlegende Funktionalitäten in vielen Korpusrecherchesystemen (III) Ermittlung von Wortgruppen (IV) Berechnung von Kookkurrenzen (I) Erstellung von Konkordanzen (II) Berechnung von Häufigkeiten Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 17] Korpuslinguistik – Grundlagen Korpusrecherchemethoden Konkordanzen Konkordanz „Eine K. ist eine Sammlung von Kotexten eines bestimmten Schlüsselworts. Kotexte einer bestimmten Länge (von Buchstaben, Wörtern oder Sätzen) um ein Schlüsselwort herum werden aus einem Korpus extrahiert und meist mit dem Schlüsselwort im Zentrum angeordnet“ Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. – Tübingen: Narr, 2006. S. 196f. KWIC „Key word in context“: Einzelner Kotext zu einem Schlüsselwort; in Programmen zur Konkordanzerzeugung ist die Kotextgröße meist wählbar. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 18] 9 Suche: Konkordanzen zu hilft in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Suchausdruck (hier: hilft) Sortierung (hier: alphabetisch nach Wort direkt rechts vom Suchterm) Kotext (hier: 200 Zeichen) Treffermenge (hier: 32) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 19] Korpuslinguistik – Grundlagen Korpusrecherchemethoden Ausgabe der Ergebnisse als Textdatei. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 20] 10 Korpuslinguistik – Grundlagen Korpusrecherchemethoden Frequenzen Lexikalische Häufigkeitsberechnungen In lexikalischen Häufigkeitsberechnungen wird die Anzahl bestimmter Wortformen, Lexeme oder auch Wortgruppen in einem Korpus berechnet. Type-Token-Ratio Mit Type-Token-Ratio wird der Quotient aus der Anzahl aller sprachlichen Einheiten eines bestimmten Typs und der Anzahl aller Vorkommen dieser Einheiten in einem gegebenen Korpus bezeichnet. Gewöhnlich wird die Type-Token-Ratio für Wortlexeme oder Wortformen berechnet. • Type-Token-Ratio (Lexeme): Anzahl aller verschiedenen Lexeme / Anzahl aller Realisierungen der verschiedenen Wortformen dieser Lexeme. • Type-Token-Ratio (Wortformen): Anzahl aller verschiedenen Wortformen / Anzahl aller Realisierungen dieser Wortformen. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 21] Type-Token-Ratio (hier: 108034:937245 ≈ 0,115) Wortliste (mit Rang und Frequenzangabe) Suche: Frequenzliste aller Wortformen und Type-Token-Ratio in einem Ausschnitt der Leipzig Corpus Collection (Sätze aus Zeitungen). Start (kein Suchausdruck) Sortierung (hier: nach Frequenz) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 22] 11 Korpuslinguistik – Grundlagen Korpusrecherchemethoden Wortgruppenanalyse Cluster Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach vor einem großen Publikum ist spr ein Konsonantencluster aus 3 Konsonanten und sprach vor einem ein Wortcluster aus 3 Wörtern. Manche Korpusrechercheprogramme erlauben zu einem Suchwort die Ermittlung aller Cluster, in denen es vorkommt. n-Gramm „Ein n-Gramm ist eine Folge von n linguistischen Elementen gleichen Typs.“ (Kunze & Lemnitzer 2007: 190) Ein 5-Gramm von Wörtern ist eine Folge von 5 Wörtern. Ein nGramm ist also das gleiche wie ein n-Cluster. Von n-Grammen spricht man insbesondere, wenn es darum geht, alle n-Wortcluster aus einem Korpus zu extrahieren. Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. – Tübingen: Narr [E-Book], 2007. S. 190. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 23] Suche: Alle Cluster aus 3 Wörtern, die Tag enthalten, in einem Ausschnitt der Leipzig Corpus Collection. Trigramm-Liste mit Rang und Frequenzangabe Sortierung (hier: nach Häufigkeit des Clusters) Suchtermposition (hier: beliebig) Clustergröße (hier: Cluster aus 3 Wörtern) Suchterm (hier: Tag) Frequenzbedingung (hier: mindestens 1 Token; = alle) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 24] 12 Suche: Trigramme mit mindestens 3 Token in einem Ausschnitt der Leipzig Corpus Collection. Trigramm-Liste mit Rang und Frequenzangabe Start (kein Suchterm; Einstellung: N-Gramm) Bestimmung von n (hier: n-Gramme für n = 3) Sortierung (hier: nach Häufigkeit des Trigramms) Frequenzbedingung (hier: mindestens 3 Token) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 25] Kookkurrenzanalyse Korpuslinguistik – Grundlagen Korpusrecherchemethoden Kookkurrenz „Als Kookkurrenz wird das gemeinsame Vorkommen zweier oder mehrerer Wörter in einem Kontext von fest definierter Größe bezeichnet.“ Dabei sind Kookkurrenzen dort linguistisch interessant, wo das gemeinsame Auftreten der Wörter häufiger zu beobachten ist, als bei einer Zufallsverteilung aller Wörter zu erwarten wäre. Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. – Tübingen: Narr [E-Book], 2007. S. 391f. Kollokation „Eine K. ist ein aus meist zwei sprachlichen Zeichen bestehender Ausdruck, in dem die beiden sprachlichen Zeichen in arbiträrer und konventionalisierter Form verbunden sind (z. B. blonde Haare, ein heikles Thema). Innerhalb der Kollokation kann man die Basis als semantisch autonomes Element (Haare, Thema) und den Kollokator (blond, heikel) als semantisch abhängiges Element unterscheiden.“ Kollokationen sind in gewisser Weise linguistisch interpretierte Kookkurrenzen. Engelberg, Stefan und Lothar Lemnitzer. Einführung in die Lexikographie und Wörterbuchbenutzung. – Tübingen: Stauffenburg, 2001. S. 391f. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 26] 13 Suche: Kookkurrenzen zu der Wortform knapp in einem Ausschnitt der Leipzig Corpus Coll. Liste der Kookkurrenzpartner mit Rang und Frequenzund Signifikanzangabe Bestimmung des Suchkontexts (hier: bis 2 Wörter nach dem Suchterm) Suchterm (hier: knapp) Sortierung (hier: nach Signifikanz der Kookkurrenz) Frequenzbedingung (hier: mind. 3 Collocate-Token) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 27] Korpuslinguistik – Grundlagen Korpusrecherchemethoden Ausgabe der Ergebnisse in eine txt-Datei Beobachtungen • Zahlausdrücke (Million, Milliarde, Milliarde, hundert) zeigen ein stärkeres Kookkurrenzverhalten als Zeitausdrücke (Monaten, Wochen, Jahren), zumindest auf Wortformenbasis. • Die Verbindung von knapp und behauptet ist als Kollokation einzustufen; knapp hat hier nicht die Bedeutung ‚etwas weniger als‘, sondern ‚so gerade / mit Mühe‘ und kombiniert in dieser Bedeutung nur mit ausgewählten Verben. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 28] 14 Konkordanz zu behauptet, sortiert nach dem unmittelbaren Vorgängerwort. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 29] Resumee AntConc Korpuslinguistik – Grundlagen Korpusrecherchemethoden • zu empfehlen bei kleineren Korpora (bis 20 Mio. Textwörter) • gut für sortierte Konkordanzen, Wortlistenerstellung, Wortgruppenanalyse und Schlüsselwortermittlung • weniger nützlich für Kookkurrenzanalyse (zu langsam; man braucht größere Korpora) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 30] 15 Korpusanalyse am IDS Die Korpora DeReKo: Das Deutsche Referenzkorpus – Die Korpora am IDS • Größe: über 3,75 Milliarden Textwörter (Stand: August 2009) • Akquise: im Hinblick auf Umfang, Variabilität, Qualität und Aktualität; urheberrechtlich abgesichert • Inhalt: belletristische, wissenschaftliche, populärwissenschaftliche und Texte vieler anderer Textarten Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 31] Archiv öffentlich zugänglicher Korpora geschriebener Sprache • Belletristik des 20. und 21. Jahrhunderts; diverse Schriftsteller (loz-div-pub) • Belletristik des 20. Jahrhunderts; Martin Walser (loz-wam) • Berliner Morgenpost (bmp / 1997-1999) • Bonner Zeitungskorpus (bzk) • COMPUTER ZEITUNG (cz; deutsch / 19931998) • Die Presse (dpr; österreichisch / 1991-2000) • Fachsprachen-Korpus 1 (fsp-pub) • Frankfurter Rundschau (ffr / 1997-1999) • Goethe-Korpus (goe) • Grammatik-Korpus (gr1) • GRIMM-Korpus (gri) • Hamburger Morgenpost (hmp05, hmp06 / 04/2005 - 12/2006) • Handbuchkorpora (hbk) • Kleine Zeitung (klz; österreichisch / 1996-2000) • LIMAS-Korpus (lim / auch morphosyntaktisch annotiert) • Korpus-Kartei der Gesellschaft für deutsche Sprache, Wiesbaden (gfds) Korpusanalyse am IDS Die Korpora • Korpus Magazin Lufthansa Bordbuch (mld / 1995-1997) • Mannheimer Korpora (mk) • Mannheimer Morgen (mmm / 1989, 1991, 19942005 / teilweise morphosyntaktisch annotiert) • Marx-Engels-Korpora • Neue Kronen-Zeitung (nkz; österreichisch / 1994-2000) • Oberösterreichische Nachrichten (oon / 19962000) • Reden und Interviews • Salzburger Nachrichten (sbn / 1991-2000) • St. Galler Tagblatt (sgt; schweizerisch / 19972001) • Tiroler Tageszeitung (ttz / 1996-2000) • VDI Nachrichten (vdi06 / 02/2006-12/2006) • Vorarlberger Nachrichten (van / 1997-2000) • Wendekorpus (wk) • Wikipedia - Die freie Enzyklopädie (wpd / Stand 03/2005) • Züricher Tagesanzeiger (zta / 1996-2000) Stand: Januar 2007 Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 32] 16 Nur IDS-intern zugängliche Korpora geschriebener Sprache • Belletristik des 20. und 21. Jahrhunderts; diverse Schriftsteller (loz-div) • Belletristik des 20. Jahrhunderts; Stefan Heym (loz-hes) • Belletristik des 20. Jahrhunderts; Siegfried Lenz (loz-les) • Berliner Zeitung (b97-b04 / 1997 - 2005) • Biografische Literatur (bio) • Der Spiegel (s93, s94 / 1993 - 1994 / auch morphosyntaktisch annotiert) • Die Zeit (z94-z04 / 1994 - 2004 - teilw. nur Online-Ausgabe) • die tageszeitung (t86-t06 / 1986 - 03/2006) • Meldungen der Deutschen Presse-Agentur (dpa06 / 2006) • Fachsprachen-Korpus 1 (fsp) • Fachsprachen-Korpus 2: Gentechnologie (dkg) • Frankfurter Allgemeine (f93, f95 / 1993 und 1995) • Herausgebertexte zum Korpus bio (bih) Korpusanalyse am IDS Die Korpora • • • • • • Historisches Korpus 1 (hi1) Historisches Korpus 2 (hi2) Interview-Korpus (iko) Süddeutsche Zeitung1 (u95-u99 / 1995 - 1999) Thomas-Mann-Korpus (thm) Wendekorpus Vereinigung (wkv) Stand: Januar 2007 Quelle: http://www.ids-mannheim.de/kl/projekte/korpora/archiv.html Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 33] Korpusanalyse am IDS COSMAS II COSMAS II ist das Korpusrecherchesystem am Institut für Deutsche Sprache. Es existiert in zwei Versionen. COSMAS II Client für Windows COSMAS II WWW-Schnittstelle • reduzierte Funktionen der WWW-Schnittstelle gegenüber dem Client • Zugriff auf gleiche Korpora • Recherche online bei beiden Versionen Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 34] 17 Korpusanalyse am IDS COSMAS II COSMAS II (Windows Client) • • • • • Entwickler: Institut für deutsche Sprache. Version: 3.61 (Windows). Recherche: Online. Software: wird lokal installiert. Zugang: freier Download des Programms; Registrierung erforderlich. • Korpora: DeReKo (Korpora des IDS). • Sprachen: Deutsch (3,4 Milliarden Textwörter). • URL: http://www.ids-mannheim.de/cosmas2/install/. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 35] Korpusanalyse am IDS Nach Programmstart Korpus laden COSMAS II Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 36] 18 Suchabfrageoption I: Zeilenorientierte Eingabe Schritt 1: Suchanfrage formulieren Suchausdruck, hier: &behaupten /+w2 (dass oder daß) [Suche Belege für das Lemma behaupten (&behaupten), im Abstand von bis zu 2 Wörtern gefolgt (/+w2) von der Wortform dass oder der Wortform daß (dass oder daß)] Thema 4: Valenz Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 37] Korpusanalyse am IDS COSMAS II Schritt 2: Such- und Lemmatisierungsoptionen festlegen Suchoptionen (Behandlung von Groß/Kleinschreibung, Häufigkeitsangaben, Sortieroptionen, Trefferbegrenzung), Lemmatisierungsoptionen (Grundformenoperator unterstützt Suche nach Flexionsformen, Komposita, etc.), Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 38] 19 Korpusanalyse am IDS COSMAS II Schritt 3: Wortformen aus Expansionsliste wählen Wortformenauswahl Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 39] Korpusanalyse am IDS COSMAS II Schritt 4: Zwischenstatistik der Suchanfrage bestätigen Trefferanzahl für Gesamtausdruck (hier: 15904) Zur Trefferanzeige Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 40] 20 Schritt 5: KWICs (Menü: Ansicht) anfordern Ansicht (hier: Korpusansicht) Ansicht ändern (hier: KWICs anfordern) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 41] Schritt 6: Volltext anfordern Volltextoption Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 42] 21 Korpusanalyse am IDS COSMAS II Ergebnis Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 43] Korpusanalyse am IDS COSMAS II Suchabfrageoption II: Zeilenorientierte Eingabe Schritt 1: Suchanfrage formulieren Suchausdruck, hier: &behaupten /+w2 (dass oder daß) [die Templates können mit der Maus von links herübergezogen werden] weitere Schritte: wie bei zeilenorientierter Eingabe Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 44] 22 Korpusanalyse am IDS COSMAS II COSMAS II (WWW-Schnittstelle) • • • • • • • • Entwickler: Institut für deutsche Sprache. Version: 1.21. Recherche: Online. Software: Online. Zugang: kostenlos; Registrierung erforderlich. Korpora: DeReKo (Korpora des IDS). Sprachen: Deutsch (2,2 Milliarden Textwörter). URL: https://cosmas2.ids-mannheim.de/cosmas2-web/. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 45] Korpusanalyse am IDS Nach Programmstart Korpus laden COSMAS II Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 46] 23 Korpusanalyse am IDS Nach Programmstart Korpus laden COSMAS II Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 47] Korpusanalyse am IDS Nach Programmstart Korpus laden COSMAS II Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 48] 24 Korpusanalyse am IDS Einzige Suchabfrageoption: Zeilenorientierte Eingabe COSMAS II Suchausdruck, hier: &behaupten /+w2 (dass oder daß) Schritt 1: Suchanfrage formulieren Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 49] Korpusanalyse am IDS COSMAS II Schritt 2 (gegebenenfalls): Such- und Lemmatisierungsoptionen einstellen (wie beim Client) Optionen Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 50] 25 Korpusanalyse am IDS COSMAS II Schritt 3 (gegebenenfalls): Wortformen aus Expansionsliste wählen Ergebnisse Expansionslisten öffnen Schritt 4: Ergebnisse anzeigen Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 51] Korpusanalyse am IDS Schritt 5: KWIC-Ansicht wählen COSMAS II Trefferanzahl für Gesamtausdruck (hier: 15904) Optionen für Ergebnisansicht (Monatsbericht, KWIC-Ansicht Jahresbericht, Jahrzehntansicht, …) Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 52] 26 Korpusanalyse am IDS Schritt 6: Volltext anfordern COSMAS II Volltextoption Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 53] Korpusanalyse am IDS Ergebnis COSMAS II Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 54] 27 Korpusanalyse am IDS COSMAS II Syntax der Abfragesprache Einige Beispiele Funktion Beispiel Suchziel: Belege mit Lemmasuche &spielen beliebigen Wortformen des Lexems spielen Wortformensuche spielte der Wortform spielte Wortkettensuche &spielen /+w1 &Domino Wortketten, die aus einer beliebigen Wortform von spielen gefolgt von einer beliebigen Wortform von Domino bestehen spiele /+w1 &Domino Wortketten, die aus der Wortform spiele gefolgt von einer beliebigen Wortform von Domino bestehen Wortteilsuche *spiel einer Wortform, die auf spiel endet Abstandssuche &spielen /+w3 &Domino Wortketten, die aus einer beliebigen Wortform von spielen gefolgt im Abstand von bis zu 3 Wörtern von einer beliebigen Wortform von Domino bestehen und-Suche Domino /s0 Schach Suche mit Tags … sowohl der Wortform Domino als auch der Wortform Schach Wortketten, die aus einer beliebigen Wortform von haben gefolgt von einem Infinitiv und der Wortform können bestehen … … Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 55] Korpusanalyse am IDS COSMAS II Syntax der Abfragesprache Beispiel für Abfrage über COSMAS II Suche: dass-Subjektsätzen bei dem Verb helfen. Annahme: Subjektsätze bei helfen kommen vor allem in der Verbindung „[…] es […] hilft, dass/daß“ vor. Abfrage: (es /+w3 &helfen) /+w1 (dass oder daß) Beispiele T04 Der SPD hat es nicht geholfen, dass der Sympathieträger und B99 Uns könne es nur helfen, dass wir so früh den Weg zu B02 Vielleicht hat es Metzelder geholfen, dass die Kollegen seinen E96 Da wird es auch nicht helfen, dass der Publikumsrat E99 Mir hat es viel geholfen, dass ich Kabuki-Theater N98 "Uns könnte es helfen, daß gleichzeitig Landtagswahl ist", P93 Saddam Hussein könnte es helfen, daß Zulieferstaaten ... eine volle P98 "Wenn es Saddam hilft, daß Unscom von Diplomaten R99 Was kann es nun helfen, daß inzwischen 13 der 15 Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 56] 28 Korpusanalyse am IDS COSMAS II Übung Formulieren Sie den/einen Suchausdruck zu folgenden Fragestellungen und führen Sie die Suche im „Archiv der geschriebenen Sprache“ (alle Korpora) unter COSMAS II aus. Bewerten Sie die Ergebnisse. 1) Suchen Sie Belege, in denen eine Form des Lexems nähen von der Präposition an gefolgt wird. 2) Suchen Sie Belege für Fragesätze mit Wessen. 3) Suchen Sie alle Komposita, die den Bestandteil Lotto (bzw. lotto) enthalten. 4) Suchen Sie Belege für die Wendung seinen Hut nehmen (Beachten Sie: die Abfolge der Konstituenten variiert; es können Ausdrücke dazwischen auftreten; es treten verschiedene Flexionsformen auf) Bringen Sie einen Ausdruck der ersten Seite der jeweiligen KWICs zur nächsten Sitzung mit. Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 57] 29