Valenz Valenz - Institut für Deutsche Sprache

Werbung
Valenz
Syntaktische Valenz
Anm. 1: Verbunabhängige Unzulässigkeit von Valenzrahmen
a.
b.
c.
d.
e.
f.
sie hat verkauft
sie hat den Porsche verkauft
sie hat an ihren Freund verkauft
sie hat den Porsche an ihren Freund verkauft
*sie hat ihrem Freund verkauft
sie hat ihrem Freund den Porsche verkauft
NPNom
OK
NPNom, NPAkk
OK
NPNom, PPan
OK
NPNom, NPAkk, PPan OK
NPNom, NPDat (best. Rollen) *
NPNom, NPAkk, NPDat OK
Die Realisierbarkeit bestimmter Ergänzungen hängt auch von allgemeinen
Beschränkungen für Valenzrahmen ab.
Starke Tendenz im Deutschen: [NPNom, NPDat] ist nicht zulässig, wenn der Dativreferent
die Rolle Patiens, Rezipient oder Benefaktiv innehat.
g. *sie schickt ihm
h. *sie spült ihm
i. sie folgt ihm
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 1]
Valenz
Syntaktische Valenz
Anm. 2: Formale Unspezifiziertheit von Ergänzungen
a.
b.
c.
d.
e.
f.
das Haus liegt am See
das Haus liegt da hinten
das Haus liegt in einer Talsenke
das Haus liegt sehr schön
*das Haus liegt
*das Haus liegt in eine Talsenke
NPNom, PPan-Dat
NPNom, AdvP-Lok
NPNom, PPin-Dat
NPNom, AdvP-Qual
NPNom
NPNom, PPin-Akk
OK
OK
OK
OK
*
*
Bestimmte Satzglieder können vom Verb gefordert sein, ohne dass das Verb die Form der
Ergänzung bestimmt.
Das Verb liegen verlangt (in dieser Lesart) eine Ergänzung,
die eine lokale oder qualitative Aussage beinhaltet. Die Form
dieser Ergänzung ergibt sich aus allgemeinen Regeln, z. B.
dass lokale Ergänzungen im Deutschen durch Adverbien
oder PPs mit Dativkomplement ausgedrückt werden.
liegen
SYN-VAL:
NPNom, ∅
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 2]
1
Valenz
Syntaktische Valenz
Anm. 3: Lesartenabhängigkeit von Valenzrahmen
a. *sie stellte das Buch
b. sie stellte das Buch ins Regal
c. *sie stellte ihm das Buch
NPNom, NPAkk
NPNom, NPAkk, ∅ [Dir]
NPNom, NPAkk, NPDat
*
d. sie stellten den Dieb
e. *sie stellten den Dieb ins Gefängnis
f. ??sie stellten ihm den Dieb
NPNom, NPAkk
NPNom, NPAkk, ∅ [Dir]
NPNom, NPAkk, NPDat
OK
g. sie stellte einen Chauffeur
h. ??sie stellten einen Chauffeur in die Firma
i. sie stellten ihm einen Chauffeur
NPNom, NPAkk
NPNom, NPAkk, ∅ [Dir]
NPNom, NPAkk, NPDat
OK
OK
*
*
??
??
OK
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 3]
Valenz
Syntaktische Valenz
Viele Verben verfügen über eine Reihe von Lesarten. Valenzrahmen sind im Allgemeinen
gültig für bestimmte Lesarten eines Verbs. Valenzanalysen setzen also auch eine Analyse
der Polysemiestruktur von Lexemen voraus.
a. *sie stellte das Buch
b. sie stellte das Buch ins Regal
c. *sie stellte ihm das Buch
stellen 1. (an eine bestimmte
Stelle in stehende Haltung bringen)
SYN-VAL: NPNom, NPAkk, ∅ [Dir]
d. sie stellten den Dieb
e. *sie stellten den Dieb ins Gefängnis
f. ??sie stellten ihm den Dieb
stellen 2. (zum Stehenbleiben
zwingen)
SYN-VAL: NPNom, NPAkk
g. sie stellte einen Chauffeur
h. ??sie stellten einen Chauffeur in die Firma
i. sie stellten ihm einen Chauffeur
stellen 3. (zur Verfügung stellen)
SYN-VAL: NPNom, NPAkk,
(NPDat)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 4]
2
Valenz
Syntaktische Valenz
Anm. 4: Nicht valenzbedingte Einflüsse auf Form und Auftretensnotwendigkeit
von Ausdrücken
(i) In bestimmten syntaktischen Konstellationen können
oder müssen ansonsten notwendige Ergänzungen wegfallen
(z. B. die Nominativ-NP im Imperativ)
verfluchen
SYN-VAL:
NPNom, NPAkk
a. er verflucht seinen Trainer
b. verfluch den Trainer!
(ii) Bestimmte syntaktische Prozesse haben Einfluss auf
die Formspezifik (Diathesen wie z. B. das Passiv)
c. er (x: NPNom) verflucht den Trainer (y: NPAkk)
d. der Trainer (y: NPNom) wurde von ihm (PPvon) verflucht
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 5]
Valenz
Wie sieht die Valenz von amüsieren aus?
Syntaktische Valenz
a. Reiser amüsierte sich herrlich mit diesen Sachen und gab von Zeit zu Zeit wieder seinen
Gedanken Raum; […] [Moritz: Anton Reiser]
b. Innstetten amüsierte sich, und Pastor Lindequist war in einem allersichtlichsten
Behagen. [Fontane: Effi Briest]
c. Am meisten amüsierten sie die seltsam ausgestopften Altweibergestalten, […] [Fontane:
Schach von Wuthenow]
e. Wüllersdorf nahm den zweiten Brief mit dem unleserlichen Poststempel, amüsierte sich
über das »Wohlgeboren« und trat dann ans Fenster, um bequemer lesen zu können.
[Fontane: Effi Briest]
f. Er amüsierte sich, die Häuser auf die Dächer zu stellen, die Menschen an- und
auszukleiden, die wahnwitzigsten Possen auszusinnen. [Büchner: Lenz]
g. Uncke war ihm der Inbegriff des Komischen, und wenn ihn schon das rote, verkupferte
Gesicht an und für sich amüsierte, so doch viel, viel mehr noch der gefärbte
Schuhbürstenbackenbart, […] [Fontane: Der Stechlin]
h. Weil Euripides im Grunde nichts zu eilen hatte, und sich in Abdera sehr gut amüsierte,
so ließ er sich nicht lange bitten, eine Einladung anzunehmen, […] [Wieland: Geschichte
der Abderiten]
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 6]
3
Valenz
Semantische Valenz
Semantische Valenz
Im Bereich der semantischen Valenz spielen drei Dimensionen von Valenz eine
Rolle: Argumenthaftigkeit, Inhaltsspezifik, Rollenspezifik.
a.
Rebecca reparierte ihr altes Mountainbike
Agens
ARG 1
Patiens
Rebecca reparierte
Person
b.
ARG 2
ihr altes Mountainbike
Gegenstand
*Die Hoffnung reparierte die Goldammer des Mordes
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 7]
Valenz
Semantische Valenz
(III) Argumenthaftigkeit: Inhaltswörter (V, N, A, P, Adv) sind i. A. Prädikate, deren
Bedeutung durch eine feste Anzahl von Argumentstellen gekennzeichnet ist. Die
Argumentstellen werden im Satz durch Argumente „spezifiziert“ oder anderweitig
„gebunden“.
Prädikat
QUÄLEN(x,y,e)
Spezifikation der y-Stelle:
Rebecca quält Jamaal
QUÄLEN(rebecca,jamaal,e)
Argumentstellen für den Quäler (x), den Gequälten (y)
und das Ereignis (e), auf das quälen referiert
(Existenzielle) Bindung der y-Stelle:
Rebecca isst
∃y[ESSEN(rebecca,y,e)]
Es gibt ein y (∃y), das Rebecca isst.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 8]
4
Valenz
Semantische Valenz
(IV) Inhaltspezifik: Verben fordern in der Regel, dass die Argumente, die ihre
Argumentstellen spezifizieren, bestimmte Inhaltsmerkmale aufweisen (die
sogenannten Selektionsrestriktionen eines Verbs).
a. Jamaal tranchierte die Pute
b. #Die Kirche tranchierte die Seife
TRANCHIEREN(x,y,e)
SYN-VAL: NPNom, NPAkk
SEM-VAL: x[+Person], y[+Geflügel/Braten]
a. Rebecca willigte in den Plan ein
b. #Der Plan willigte in Rebecca ein
EINWILLIGEN(x,y,e)
SYN-VAL: NPNom, (PPin)
SEM-VAL: x[+Person], y[+Vorhaben]
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 9]
Valenz
Semantische Valenz
Welche Selektionsrestriktionen der unterstrichenen Prädikate
werden verletzt? Sehen Sie Zusammenhänge zwischen
Selektionsrestriktionen und Metaphern / Metonymien?
a.
b.
c.
d.
e.
f.
Sie aß ihren Orangensaft.
der Bruder des Hauses
Er konnte den Baum nicht zu Ende lesen.
der Vater dieses Gedankens
Und da lachte die Bohne bis sie platzte.
Sie zog das Gespräch unnötig in die Länge.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 10]
5
Valenz
Semantische Valenz
(V) Rollenspezifik: Verben legen fest, in welcher semantische Rolle ihre
Argumentstellen im Ereignis zu interpretieren sind. Semantische Rollen können sehr
verbspezifisch verstanden werden oder generalisiert werden (Agens, Patiens, Rezipient,
etc.).
Jamaal tranchierte die Pute.
TRANCHIEREN(x,y,e)
SYN-VAL: NPNom, NPAkk
SEM-VAL: xAGENS[+Person], yPATIENS[+Gefl./Br.]
Der Schrei erschreckte Jamaal.
ERSCHRECKEN(x,y,e)
SYN-VAL: NPNom, NPAkk
SEM-VAL: xSTIMULUS, yEXPERIENCER[+Person]
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 11]
Korpuslinguistik – Grundlagen
Korpora
Was ist ein Korpus?
Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. – Tübingen: Narr, 2006. S. 7.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 12]
6
Korpuslinguistik – Grundlagen
Korpora
Was ist Korpuslinguistik?
Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. – Tübingen: Narr, 2006. S. 9.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 13]
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Methoden der Korpusanalyse
•
•
•
•
•
•
•
Erstellung von Konkordanzen
Erzeugung von Wortlisten mit Frequenzangaben
Ermittlung von hochfrequenten Wortgruppen (Clusteranalyse)
Berechnung von Kookkurrenzen
Ermittlung von Schlüsselwörtern
Berechnung diachroner Verläufe des Wortgebrauchs
…
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 14]
7
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Elektronisch verfügbare Mittel zur Korpusanalyse, die in diesem Seminar
vorgestellt werden:
•
•
•
•
•
•
AntConc
COSMAS II
DWDS-Korpusanalyse
Kookkurrenzdatenbank des IDS
KWICFinder
FALKO
Im Folgenden werden die wichtigsten Korpusrecherchemethoden zunächst am
Beispiel des Programms AntConc dargestellt.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 15]
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
AntConc
• Entwickler: Laurence Anthony, Faculty
of Science and Engineering,Waseda
University, Japan.
• Version: 3.2.1w (Windows), Release
March 10th, 2007.
• Recherche: Offline.
• Software: wird lokal installiert.
• Zugang: freier Download des Programms.
• Korpora: eigene Textsammlungen (txt-Dateien).
• Sprachen: alle (Unicode); getestet: Deutsch,
Englisch, Rumänisch, Türkisch, Mongolisch.
• URL: http://www.antlab.sci.waseda.ac.jp/antconc_index.html.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 16]
8
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Grundlegende Funktionalitäten in
vielen Korpusrecherchesystemen
(III) Ermittlung von
Wortgruppen
(IV) Berechnung
von Kookkurrenzen
(I) Erstellung von
Konkordanzen
(II) Berechnung
von Häufigkeiten
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 17]
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Konkordanzen
Konkordanz
„Eine K. ist eine Sammlung von Kotexten eines bestimmten Schlüsselworts. Kotexte
einer bestimmten Länge (von Buchstaben, Wörtern oder Sätzen) um ein Schlüsselwort
herum werden aus einem Korpus extrahiert und meist mit dem Schlüsselwort im
Zentrum angeordnet“
Lemnitzer, Lothar und Heike Zinsmeister. Korpuslinguistik. Eine Einführung. – Tübingen: Narr, 2006. S. 196f.
KWIC
„Key word in context“: Einzelner Kotext zu einem Schlüsselwort; in Programmen zur
Konkordanzerzeugung ist die Kotextgröße meist wählbar.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 18]
9
Suche: Konkordanzen zu hilft
in einem Ausschnitt der
Leipzig Corpus Collection
(Sätze aus Zeitungen).
Suchausdruck
(hier: hilft)
Sortierung (hier:
alphabetisch nach
Wort direkt rechts
vom Suchterm)
Kotext (hier: 200 Zeichen)
Treffermenge (hier: 32)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 19]
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Ausgabe der
Ergebnisse als
Textdatei.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 20]
10
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Frequenzen
Lexikalische Häufigkeitsberechnungen
In lexikalischen Häufigkeitsberechnungen wird die Anzahl bestimmter Wortformen,
Lexeme oder auch Wortgruppen in einem Korpus berechnet.
Type-Token-Ratio
Mit Type-Token-Ratio wird der Quotient aus der Anzahl aller sprachlichen Einheiten
eines bestimmten Typs und der Anzahl aller Vorkommen dieser Einheiten in einem
gegebenen Korpus bezeichnet. Gewöhnlich wird die Type-Token-Ratio für
Wortlexeme oder Wortformen berechnet.
• Type-Token-Ratio (Lexeme): Anzahl aller verschiedenen Lexeme / Anzahl aller
Realisierungen der verschiedenen Wortformen dieser Lexeme.
• Type-Token-Ratio (Wortformen): Anzahl aller verschiedenen Wortformen / Anzahl
aller Realisierungen dieser Wortformen.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 21]
Type-Token-Ratio (hier:
108034:937245 ≈ 0,115)
Wortliste (mit Rang und
Frequenzangabe)
Suche: Frequenzliste aller
Wortformen und Type-Token-Ratio
in einem Ausschnitt der Leipzig
Corpus Collection (Sätze aus
Zeitungen).
Start (kein
Suchausdruck)
Sortierung (hier:
nach Frequenz)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 22]
11
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Wortgruppenanalyse
Cluster
Als Cluster sollen hier Ketten von sprachlichen Einheiten bezeichnet werden. In er sprach
vor einem großen Publikum ist spr ein Konsonantencluster aus 3 Konsonanten und sprach
vor einem ein Wortcluster aus 3 Wörtern. Manche Korpusrechercheprogramme erlauben
zu einem Suchwort die Ermittlung aller Cluster, in denen es vorkommt.
n-Gramm
„Ein n-Gramm ist eine Folge von n linguistischen Elementen gleichen Typs.“ (Kunze &
Lemnitzer 2007: 190) Ein 5-Gramm von Wörtern ist eine Folge von 5 Wörtern. Ein nGramm ist also das gleiche wie ein n-Cluster. Von n-Grammen spricht man insbesondere,
wenn es darum geht, alle n-Wortcluster aus einem Korpus zu extrahieren.
Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. – Tübingen: Narr [E-Book], 2007.
S. 190.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 23]
Suche: Alle Cluster aus 3
Wörtern, die Tag enthalten,
in einem Ausschnitt der
Leipzig Corpus Collection.
Trigramm-Liste mit Rang
und Frequenzangabe
Sortierung (hier: nach
Häufigkeit des Clusters)
Suchtermposition
(hier: beliebig)
Clustergröße (hier:
Cluster aus 3 Wörtern)
Suchterm (hier: Tag)
Frequenzbedingung (hier:
mindestens 1 Token; = alle)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 24]
12
Suche: Trigramme mit
mindestens 3 Token in
einem Ausschnitt der
Leipzig Corpus Collection.
Trigramm-Liste mit Rang
und Frequenzangabe
Start (kein Suchterm;
Einstellung: N-Gramm)
Bestimmung von n (hier:
n-Gramme für n = 3)
Sortierung (hier: nach
Häufigkeit des Trigramms)
Frequenzbedingung (hier:
mindestens 3 Token)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 25]
Kookkurrenzanalyse
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Kookkurrenz
„Als Kookkurrenz wird das gemeinsame Vorkommen zweier oder mehrerer Wörter in
einem Kontext von fest definierter Größe bezeichnet.“ Dabei sind Kookkurrenzen dort
linguistisch interessant, wo das gemeinsame Auftreten der Wörter häufiger zu beobachten
ist, als bei einer Zufallsverteilung aller Wörter zu erwarten wäre.
Kunze, Claudia und Lothar Lemnitzer. Computerlexikographie. Eine Einführung. – Tübingen: Narr [E-Book], 2007.
S. 391f.
Kollokation
„Eine K. ist ein aus meist zwei sprachlichen Zeichen bestehender Ausdruck, in dem die
beiden sprachlichen Zeichen in arbiträrer und konventionalisierter Form verbunden sind
(z. B. blonde Haare, ein heikles Thema). Innerhalb der Kollokation kann man die Basis
als semantisch autonomes Element (Haare, Thema) und den Kollokator (blond, heikel) als
semantisch abhängiges Element unterscheiden.“ Kollokationen sind in gewisser Weise
linguistisch interpretierte Kookkurrenzen.
Engelberg, Stefan und Lothar Lemnitzer. Einführung in die Lexikographie und Wörterbuchbenutzung. – Tübingen:
Stauffenburg, 2001. S. 391f.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 26]
13
Suche: Kookkurrenzen
zu der Wortform knapp
in einem Ausschnitt der
Leipzig Corpus Coll.
Liste der Kookkurrenzpartner mit
Rang und Frequenzund Signifikanzangabe
Bestimmung des
Suchkontexts (hier:
bis 2 Wörter nach
dem Suchterm)
Suchterm
(hier: knapp)
Sortierung (hier: nach Signifikanz der Kookkurrenz)
Frequenzbedingung (hier:
mind. 3 Collocate-Token)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 27]
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
Ausgabe der Ergebnisse
in eine txt-Datei
Beobachtungen
• Zahlausdrücke (Million, Milliarde,
Milliarde, hundert) zeigen ein
stärkeres Kookkurrenzverhalten als
Zeitausdrücke (Monaten, Wochen,
Jahren), zumindest auf
Wortformenbasis.
• Die Verbindung von knapp und
behauptet ist als Kollokation
einzustufen; knapp hat hier nicht die
Bedeutung ‚etwas weniger als‘,
sondern ‚so gerade / mit Mühe‘ und
kombiniert in dieser Bedeutung nur
mit ausgewählten Verben.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 28]
14
Konkordanz zu behauptet,
sortiert nach dem unmittelbaren Vorgängerwort.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 29]
Resumee AntConc
Korpuslinguistik – Grundlagen
Korpusrecherchemethoden
• zu empfehlen bei kleineren Korpora (bis 20 Mio.
Textwörter)
• gut für sortierte Konkordanzen, Wortlistenerstellung,
Wortgruppenanalyse und Schlüsselwortermittlung
• weniger nützlich für Kookkurrenzanalyse (zu
langsam; man braucht größere Korpora)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 30]
15
Korpusanalyse am IDS
Die Korpora
DeReKo: Das Deutsche Referenzkorpus – Die Korpora am IDS
• Größe: über 3,75 Milliarden Textwörter (Stand: August 2009)
• Akquise: im Hinblick auf Umfang, Variabilität, Qualität und Aktualität;
urheberrechtlich abgesichert
• Inhalt: belletristische, wissenschaftliche, populärwissenschaftliche und Texte vieler
anderer Textarten
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 31]
Archiv öffentlich zugänglicher
Korpora geschriebener Sprache
• Belletristik des 20. und 21. Jahrhunderts; diverse
Schriftsteller (loz-div-pub)
• Belletristik des 20. Jahrhunderts; Martin Walser
(loz-wam)
• Berliner Morgenpost (bmp / 1997-1999)
• Bonner Zeitungskorpus (bzk)
• COMPUTER ZEITUNG (cz; deutsch / 19931998)
• Die Presse (dpr; österreichisch / 1991-2000)
• Fachsprachen-Korpus 1 (fsp-pub)
• Frankfurter Rundschau (ffr / 1997-1999)
• Goethe-Korpus (goe)
• Grammatik-Korpus (gr1)
• GRIMM-Korpus (gri)
• Hamburger Morgenpost (hmp05, hmp06 /
04/2005 - 12/2006)
• Handbuchkorpora (hbk)
• Kleine Zeitung (klz; österreichisch / 1996-2000)
• LIMAS-Korpus (lim / auch morphosyntaktisch
annotiert)
• Korpus-Kartei der Gesellschaft für deutsche
Sprache, Wiesbaden (gfds)
Korpusanalyse am IDS
Die Korpora
• Korpus Magazin Lufthansa Bordbuch (mld /
1995-1997)
• Mannheimer Korpora (mk)
• Mannheimer Morgen (mmm / 1989, 1991, 19942005 / teilweise morphosyntaktisch annotiert)
• Marx-Engels-Korpora
• Neue Kronen-Zeitung (nkz; österreichisch /
1994-2000)
• Oberösterreichische Nachrichten (oon / 19962000)
• Reden und Interviews
• Salzburger Nachrichten (sbn / 1991-2000)
• St. Galler Tagblatt (sgt; schweizerisch / 19972001)
• Tiroler Tageszeitung (ttz / 1996-2000)
• VDI Nachrichten (vdi06 / 02/2006-12/2006)
• Vorarlberger Nachrichten (van / 1997-2000)
• Wendekorpus (wk)
• Wikipedia - Die freie Enzyklopädie (wpd / Stand
03/2005)
• Züricher Tagesanzeiger (zta / 1996-2000)
Stand: Januar 2007
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 32]
16
Nur IDS-intern zugängliche
Korpora geschriebener Sprache
• Belletristik des 20. und 21. Jahrhunderts; diverse
Schriftsteller (loz-div)
• Belletristik des 20. Jahrhunderts; Stefan Heym
(loz-hes)
• Belletristik des 20. Jahrhunderts; Siegfried Lenz
(loz-les)
• Berliner Zeitung (b97-b04 / 1997 - 2005)
• Biografische Literatur (bio)
• Der Spiegel (s93, s94 / 1993 - 1994 / auch
morphosyntaktisch annotiert)
• Die Zeit (z94-z04 / 1994 - 2004 - teilw. nur
Online-Ausgabe)
• die tageszeitung (t86-t06 / 1986 - 03/2006)
• Meldungen der Deutschen Presse-Agentur
(dpa06 / 2006)
• Fachsprachen-Korpus 1 (fsp)
• Fachsprachen-Korpus 2: Gentechnologie (dkg)
• Frankfurter Allgemeine (f93, f95 / 1993 und
1995)
• Herausgebertexte zum Korpus bio (bih)
Korpusanalyse am IDS
Die Korpora
•
•
•
•
•
•
Historisches Korpus 1 (hi1)
Historisches Korpus 2 (hi2)
Interview-Korpus (iko)
Süddeutsche Zeitung1 (u95-u99 / 1995 - 1999)
Thomas-Mann-Korpus (thm)
Wendekorpus Vereinigung (wkv)
Stand: Januar 2007
Quelle: http://www.ids-mannheim.de/kl/projekte/korpora/archiv.html
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 33]
Korpusanalyse am IDS
COSMAS II
COSMAS II ist das Korpusrecherchesystem am Institut für Deutsche Sprache. Es
existiert in zwei Versionen.
COSMAS II Client für Windows
COSMAS II WWW-Schnittstelle
• reduzierte Funktionen der WWW-Schnittstelle
gegenüber dem Client
• Zugriff auf gleiche Korpora
• Recherche online bei beiden Versionen
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 34]
17
Korpusanalyse am IDS
COSMAS II
COSMAS II (Windows Client)
•
•
•
•
•
Entwickler: Institut für deutsche Sprache.
Version: 3.61 (Windows).
Recherche: Online.
Software: wird lokal installiert.
Zugang: freier Download des Programms;
Registrierung erforderlich.
• Korpora: DeReKo (Korpora des IDS).
• Sprachen: Deutsch (3,4 Milliarden Textwörter).
• URL: http://www.ids-mannheim.de/cosmas2/install/.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 35]
Korpusanalyse am IDS
Nach Programmstart Korpus laden
COSMAS II
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 36]
18
Suchabfrageoption I: Zeilenorientierte Eingabe
Schritt 1: Suchanfrage formulieren
Suchausdruck, hier:
&behaupten /+w2 (dass oder daß)
[Suche Belege für das Lemma
behaupten (&behaupten), im
Abstand von bis zu 2 Wörtern
gefolgt (/+w2) von der Wortform
dass oder der Wortform daß (dass
oder daß)]
Thema 4: Valenz
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 37]
Korpusanalyse am IDS
COSMAS II
Schritt 2: Such- und
Lemmatisierungsoptionen festlegen
Suchoptionen (Behandlung von Groß/Kleinschreibung, Häufigkeitsangaben,
Sortieroptionen, Trefferbegrenzung),
Lemmatisierungsoptionen (Grundformenoperator unterstützt Suche nach
Flexionsformen, Komposita, etc.),
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 38]
19
Korpusanalyse am IDS
COSMAS II
Schritt 3: Wortformen aus Expansionsliste wählen
Wortformenauswahl
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 39]
Korpusanalyse am IDS
COSMAS II
Schritt 4: Zwischenstatistik
der Suchanfrage bestätigen
Trefferanzahl für
Gesamtausdruck
(hier: 15904)
Zur Trefferanzeige
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 40]
20
Schritt 5: KWICs (Menü:
Ansicht) anfordern
Ansicht (hier:
Korpusansicht)
Ansicht ändern
(hier: KWICs
anfordern)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 41]
Schritt 6: Volltext
anfordern
Volltextoption
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 42]
21
Korpusanalyse am IDS
COSMAS II
Ergebnis
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 43]
Korpusanalyse am IDS
COSMAS II
Suchabfrageoption II: Zeilenorientierte Eingabe
Schritt 1: Suchanfrage formulieren
Suchausdruck, hier:
&behaupten /+w2 (dass oder
daß)
[die Templates können mit
der Maus von links
herübergezogen werden]
weitere Schritte: wie bei zeilenorientierter Eingabe
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 44]
22
Korpusanalyse am IDS
COSMAS II
COSMAS II (WWW-Schnittstelle)
•
•
•
•
•
•
•
•
Entwickler: Institut für deutsche Sprache.
Version: 1.21.
Recherche: Online.
Software: Online.
Zugang: kostenlos; Registrierung erforderlich.
Korpora: DeReKo (Korpora des IDS).
Sprachen: Deutsch (2,2 Milliarden Textwörter).
URL: https://cosmas2.ids-mannheim.de/cosmas2-web/.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 45]
Korpusanalyse am IDS
Nach Programmstart Korpus laden
COSMAS II
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 46]
23
Korpusanalyse am IDS
Nach Programmstart Korpus laden
COSMAS II
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 47]
Korpusanalyse am IDS
Nach Programmstart Korpus laden
COSMAS II
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 48]
24
Korpusanalyse am IDS
Einzige Suchabfrageoption:
Zeilenorientierte Eingabe
COSMAS II
Suchausdruck, hier:
&behaupten /+w2 (dass oder daß)
Schritt 1: Suchanfrage formulieren
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 49]
Korpusanalyse am IDS
COSMAS II
Schritt 2 (gegebenenfalls): Such- und
Lemmatisierungsoptionen einstellen
(wie beim Client)
Optionen
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 50]
25
Korpusanalyse am IDS
COSMAS II
Schritt 3 (gegebenenfalls): Wortformen
aus Expansionsliste wählen
Ergebnisse
Expansionslisten öffnen
Schritt 4: Ergebnisse
anzeigen
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 51]
Korpusanalyse am IDS
Schritt 5: KWIC-Ansicht wählen
COSMAS II
Trefferanzahl für
Gesamtausdruck
(hier: 15904)
Optionen für
Ergebnisansicht
(Monatsbericht,
KWIC-Ansicht
Jahresbericht,
Jahrzehntansicht,
…)
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 52]
26
Korpusanalyse am IDS
Schritt 6: Volltext anfordern
COSMAS II
Volltextoption
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 53]
Korpusanalyse am IDS
Ergebnis
COSMAS II
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 54]
27
Korpusanalyse am IDS
COSMAS II
Syntax der Abfragesprache
Einige Beispiele
Funktion
Beispiel
Suchziel: Belege mit
Lemmasuche
&spielen
beliebigen Wortformen des Lexems spielen
Wortformensuche spielte
der Wortform spielte
Wortkettensuche
&spielen /+w1
&Domino
Wortketten, die aus einer beliebigen Wortform von spielen
gefolgt von einer beliebigen Wortform von Domino bestehen
spiele /+w1
&Domino
Wortketten, die aus der Wortform spiele gefolgt von einer
beliebigen Wortform von Domino bestehen
Wortteilsuche
*spiel
einer Wortform, die auf spiel endet
Abstandssuche
&spielen /+w3
&Domino
Wortketten, die aus einer beliebigen Wortform von spielen
gefolgt im Abstand von bis zu 3 Wörtern von einer beliebigen
Wortform von Domino bestehen
und-Suche
Domino /s0 Schach
Suche mit Tags
…
sowohl der Wortform Domino als auch der Wortform Schach
Wortketten, die aus einer beliebigen Wortform von haben
gefolgt von einem Infinitiv und der Wortform können bestehen
…
…
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 55]
Korpusanalyse am IDS
COSMAS II
Syntax der Abfragesprache
Beispiel für Abfrage über COSMAS II
Suche: dass-Subjektsätzen bei dem Verb helfen.
Annahme: Subjektsätze bei helfen kommen vor allem in der Verbindung „[…] es […]
hilft, dass/daß“ vor.
Abfrage: (es /+w3 &helfen) /+w1 (dass oder daß)
Beispiele
T04
Der SPD hat es nicht geholfen, dass der Sympathieträger und
B99
Uns könne es nur helfen, dass wir so früh den Weg zu
B02
Vielleicht hat es Metzelder geholfen, dass die Kollegen seinen
E96
Da wird es auch nicht helfen, dass der Publikumsrat
E99
Mir hat es viel geholfen, dass ich Kabuki-Theater
N98
"Uns könnte es helfen, daß gleichzeitig Landtagswahl ist",
P93 Saddam Hussein könnte es helfen, daß Zulieferstaaten ... eine volle
P98
"Wenn es Saddam hilft, daß Unscom von Diplomaten
R99
Was kann es nun helfen, daß inzwischen 13 der 15
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 56]
28
Korpusanalyse am IDS
COSMAS II
Übung
Formulieren Sie den/einen Suchausdruck zu folgenden Fragestellungen und führen Sie
die Suche im „Archiv der geschriebenen Sprache“ (alle Korpora) unter COSMAS II aus.
Bewerten Sie die Ergebnisse.
1) Suchen Sie Belege, in denen eine Form des Lexems nähen von der Präposition an
gefolgt wird.
2) Suchen Sie Belege für Fragesätze mit Wessen.
3) Suchen Sie alle Komposita, die den Bestandteil Lotto (bzw. lotto) enthalten.
4) Suchen Sie Belege für die Wendung seinen Hut nehmen (Beachten Sie: die Abfolge
der Konstituenten variiert; es können Ausdrücke dazwischen auftreten; es treten
verschiedene Flexionsformen auf)
Bringen Sie einen Ausdruck der ersten Seite der jeweiligen KWICs zur nächsten Sitzung
mit.
Stefan Engelberg, HS Methoden lexikalischer Forschung, HS 2009, Universität Mannheim [Folie 57]
29
Herunterladen